Research output: Chapter in Book/Report/Conference proceeding › Article in an anthology › Research › peer-review
Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций. / Андреева, Дарья; Митрофанова, Ольга Александровна.
Структурная и прикладная лингвистика: Межвузовский сборник. Выпуск 13. ed. / И.С. Николаев. СПб. : Издательство Санкт-Петербургского университета, 2019. p. 141-157.Research output: Chapter in Book/Report/Conference proceeding › Article in an anthology › Research › peer-review
}
TY - CHAP
T1 - Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций
AU - Андреева, Дарья
AU - Митрофанова, Ольга Александровна
PY - 2019
Y1 - 2019
N2 - В статье представлены результаты экспериментов по кластеризации новостных сообщений из русскоязычного корпуса текстов. Эксперименты производились на корпусе новостных сообщений, собранных на основе данных из трех целевых рубрик («Политика», «Вести. Наука», «HiTech. Интернет») интернет-портала «Вести.Ru». В ходе исследования была проверена гипотеза о возможности оптимизации процедуры кластеризации путем перехода от кластеризации полных текстов к обработке их представлений в виде списков лексических конструкциий. С помощью алгоритма автоматического выделения ключевых выражений RAKE из каждого текста корпуса извлекались ключевые лексические конструкции. Затем были проведены процедуры кластеризации текстов и наборов их лексических конструкций методами K-means++ и агломеративной иерархической кластеризации. Результаты подстверждают возможность использования семантической компрессии документов для их качественной кластеризации, что позволяет сократить объем обрабатываемой текстовой информации и снизить трудоемкость процедуры.
AB - В статье представлены результаты экспериментов по кластеризации новостных сообщений из русскоязычного корпуса текстов. Эксперименты производились на корпусе новостных сообщений, собранных на основе данных из трех целевых рубрик («Политика», «Вести. Наука», «HiTech. Интернет») интернет-портала «Вести.Ru». В ходе исследования была проверена гипотеза о возможности оптимизации процедуры кластеризации путем перехода от кластеризации полных текстов к обработке их представлений в виде списков лексических конструкциий. С помощью алгоритма автоматического выделения ключевых выражений RAKE из каждого текста корпуса извлекались ключевые лексические конструкции. Затем были проведены процедуры кластеризации текстов и наборов их лексических конструкций методами K-means++ и агломеративной иерархической кластеризации. Результаты подстверждают возможность использования семантической компрессии документов для их качественной кластеризации, что позволяет сократить объем обрабатываемой текстовой информации и снизить трудоемкость процедуры.
UR - https://publishing.spbu.ru/catalog/novinki/strukturnaya_i_prikladnaya_lingvistika_vyp_13_1/
M3 - статья в сборнике
SP - 141
EP - 157
BT - Структурная и прикладная лингвистика
A2 - Николаев, И.С.
PB - Издательство Санкт-Петербургского университета
CY - СПб.
ER -
ID: 62400654