В статье представлены результаты экспериментов по кластеризации новостных сообщений из русскоязычного корпуса текстов. Эксперименты производились на корпусе новостных сообщений, собранных на основе данных из трех целевых рубрик («Политика», «Вести. Наука», «HiTech. Интернет») интернет-портала «Вести.Ru». В ходе исследования была проверена гипотеза о возможности оптимизации процедуры кластеризации путем перехода от кластеризации полных текстов к обработке их представлений в виде списков лексических конструкциий. С помощью алгоритма автоматического выделения ключевых выражений RAKE из каждого текста корпуса извлекались ключевые лексические конструкции. Затем были проведены процедуры кластеризации текстов и наборов их лексических конструкций методами K-means++ и агломеративной иерархической кластеризации. Результаты подстверждают возможность использования семантической компрессии документов для их качественной кластеризации, что позволяет сократить объем обрабатываемой текстовой информации и снизить трудоемкость процедуры.
Original languageRussian
Title of host publicationСтруктурная и прикладная лингвистика
Subtitle of host publicationМежвузовский сборник. Выпуск 13
EditorsИ.С. Николаев
Place of PublicationСПб.
PublisherИздательство Санкт-Петербургского университета
Pages141-157
Number of pages17
StatePublished - 2019

ID: 62400654