DOI

Методы машинного обучения используют деревья данных для организации и хранения информации. Каждая из таких структур обладает определенными преимуществами и позволяет улучшить качество конкретного алгоритма. Если у всех узлов дерева не более двух потомков, то оно называется бинарным; главное его преимущество — высокая эффективность реализации алгоритмов поиска и сортировки. В связи с этим важно отметить, что дендрограммы иерархических агломеративных методов кластеризации также относятся к бинарным деревьям и отражают таксономию элементов множества данных. Любой кластер, не являющийся синглетоном, можно разделить на подкластеры, что позволяет сформировать иерархическую структуру в метрическом пространстве (метрическое дерево) с дополнительными свойствами, например, автоматически задать высоту дерева, считая, по определению, что число уровней, на которых располагаются его узлы, совпадает с количеством вариантов разбиения выборочного множества на кластеры, подкластеры, подкластеры подкластеров и т. д. Такую задачу можно решить, используя аппроксимационно-оценочные критерии, изменение чувствительности которых при помощи коэффициента тренда дает возможность получить различные варианты кластеризации. При проведении вычислительных экспериментов использовалось синтетическое множество точек на евклидовой плоскости и изучались результаты его разбиения на кластеры центроидным методом. Марковские моменты остановки процесса кластеризации определялись посредством параболического аппроксимационно-оценочного критерия, построенного по четырем точкам. Верификация результатов, полученных при численном моделировании, производилась за счет изменения величины шага коэффициента тренда.
Original languageRussian
Pages (from-to)487–499
Number of pages13
Journal ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. ПРИКЛАДНАЯ МАТЕМАТИКА. ИНФОРМАТИКА. ПРОЦЕССЫ УПРАВЛЕНИЯ
Volume 20
Issue number4
DOIs
StatePublished - 2024

ID: 131227408