DOI

При обработке больших массивов эмпирической информации или данных большой размерности кластерный анализ является одним из основных методов предварительной типологизации. Это обусловливает в том числе необходимость получения формальных правил для вычисления количества кластеров. В настоящее время наиболее распространенным методом определения предпочтительного числа кластеров является визуальный анализ дендрограмм, но такой подход сугубо эвристический. Выбор множества кластеров и момент завершения алгоритма кластеризации зависят друг от друга. Кластерный анализ данных из n-мерного евклидова пространства методом «одиночной связи» можно рассматривать как дискретный случайный процесс. Последовательности «минимальных расстояний» задают траектории этого процесса. Аппроксимационно-оценочный критерий» (approximation-estimating test) позволяет определить марковский момент, когда характер возрастания такой последовательности изменяется с линейного на параболический, что, в свою очередь, может быть признаком завершения агломеративного процесса кластеризации. Расчет количества кластеров является актуальной проблемой во многих случаях автоматической типологизации эмпирических данных, например в медицине при цитометрическом исследовании крови, автоматическом анализе текстов и в ряде других случаев, когда количество кластеров заранее неизвестно.
Переведенное названиеMarkov moment for the agglomerative method of clustering in Euclidean space
Язык оригиналарусский
Страницы (с-по)76-92
Число страниц17
Журнал ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. ПРИКЛАДНАЯ МАТЕМАТИКА. ИНФОРМАТИКА. ПРОЦЕССЫ УПРАВЛЕНИЯ
Том15
Номер выпуска1
DOI
СостояниеОпубликовано - 1 янв 2019

    Предметные области Scopus

  • Теория оптимизации
  • Прикладная математика
  • Компьютерные науки (все)

ID: 41340292