Результаты исследований: Публикации в книгах, отчётах, сборниках, трудах конференций › статья в сборнике › научная › Рецензирование
Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций. / Андреева, Дарья; Митрофанова, Ольга Александровна.
Структурная и прикладная лингвистика: Межвузовский сборник. Выпуск 13. ред. / И.С. Николаев. СПб. : Издательство Санкт-Петербургского университета, 2019. стр. 141-157.Результаты исследований: Публикации в книгах, отчётах, сборниках, трудах конференций › статья в сборнике › научная › Рецензирование
}
TY - CHAP
T1 - Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций
AU - Андреева, Дарья
AU - Митрофанова, Ольга Александровна
PY - 2019
Y1 - 2019
N2 - В статье представлены результаты экспериментов по кластеризации новостных сообщений из русскоязычного корпуса текстов. Эксперименты производились на корпусе новостных сообщений, собранных на основе данных из трех целевых рубрик («Политика», «Вести. Наука», «HiTech. Интернет») интернет-портала «Вести.Ru». В ходе исследования была проверена гипотеза о возможности оптимизации процедуры кластеризации путем перехода от кластеризации полных текстов к обработке их представлений в виде списков лексических конструкциий. С помощью алгоритма автоматического выделения ключевых выражений RAKE из каждого текста корпуса извлекались ключевые лексические конструкции. Затем были проведены процедуры кластеризации текстов и наборов их лексических конструкций методами K-means++ и агломеративной иерархической кластеризации. Результаты подстверждают возможность использования семантической компрессии документов для их качественной кластеризации, что позволяет сократить объем обрабатываемой текстовой информации и снизить трудоемкость процедуры.
AB - В статье представлены результаты экспериментов по кластеризации новостных сообщений из русскоязычного корпуса текстов. Эксперименты производились на корпусе новостных сообщений, собранных на основе данных из трех целевых рубрик («Политика», «Вести. Наука», «HiTech. Интернет») интернет-портала «Вести.Ru». В ходе исследования была проверена гипотеза о возможности оптимизации процедуры кластеризации путем перехода от кластеризации полных текстов к обработке их представлений в виде списков лексических конструкциий. С помощью алгоритма автоматического выделения ключевых выражений RAKE из каждого текста корпуса извлекались ключевые лексические конструкции. Затем были проведены процедуры кластеризации текстов и наборов их лексических конструкций методами K-means++ и агломеративной иерархической кластеризации. Результаты подстверждают возможность использования семантической компрессии документов для их качественной кластеризации, что позволяет сократить объем обрабатываемой текстовой информации и снизить трудоемкость процедуры.
UR - https://publishing.spbu.ru/catalog/novinki/strukturnaya_i_prikladnaya_lingvistika_vyp_13_1/
M3 - статья в сборнике
SP - 141
EP - 157
BT - Структурная и прикладная лингвистика
A2 - Николаев, И.С.
PB - Издательство Санкт-Петербургского университета
CY - СПб.
ER -
ID: 62400654