Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций

Результат исследований: Публикации в книгах, отчётах, сборниках, трудах конференцийстатья в сборникенаучнаярецензирование

Аннотация

В статье представлены результаты экспериментов по кластеризации новостных сообщений из русскоязычного корпуса текстов. Эксперименты производились на корпусе новостных сообщений, собранных на основе данных из трех целевых рубрик («Политика», «Вести. Наука», «HiTech. Интернет») интернет-портала «Вести.Ru». В ходе исследования была проверена гипотеза о возможности оптимизации процедуры кластеризации путем перехода от кластеризации полных текстов к обработке их представлений в виде списков лексических конструкциий. С помощью алгоритма автоматического выделения ключевых выражений RAKE из каждого текста корпуса извлекались ключевые лексические конструкции. Затем были проведены процедуры кластеризации текстов и наборов их лексических конструкций методами K-means++ и агломеративной иерархической кластеризации. Результаты подстверждают возможность использования семантической компрессии документов для их качественной кластеризации, что позволяет сократить объем обрабатываемой текстовой информации и снизить трудоемкость процедуры.
Язык оригиналарусский
Название основной публикацииСтруктурная и прикладная лингвистика
Подзаголовок основной публикацииМежвузовский сборник. Выпуск 13
РедакторыИ.С. Николаев
Место публикацииСПб.
ИздательИздательство Санкт-Петербургского университета
Страницы141-157
Число страниц17
СостояниеОпубликовано - 2019

Цитировать