Результаты исследований: Публикации в книгах, отчётах, сборниках, трудах конференций › статья в сборнике › Рецензирование
Автоматическое назначение меток тем в тематических моделях русскоязычных корпусов тестов. / Ерофеева, Алия Ришатовна; Митрофанова, Ольга Александровна.
Структурная и прикладная лингвистика: Межвузовский сборник. Выпуск 12. К 60-летию отделения прикладной, компьютерной и математической лингвистики СПбГУ. ред. / И.С. Николаев. Том 12 СПб. : Издательство Санкт-Петербургского университета, 2019. стр. 122-147.Результаты исследований: Публикации в книгах, отчётах, сборниках, трудах конференций › статья в сборнике › Рецензирование
}
TY - CHAP
T1 - Автоматическое назначение меток тем в тематических моделях русскоязычных корпусов тестов
AU - Ерофеева, Алия Ришатовна
AU - Митрофанова, Ольга Александровна
PY - 2019
Y1 - 2019
N2 - Тематическое моделирование является одним из самых востребованных статистических методов, позволяющих выявить содержательную структуру корпусов текстов. Целью нашего исследования является расширение алгоритмов тематического моделирования за счет автоматического назначения меток тем – процедуры выбора метки для множества слов, формирующих тему. В данной работе обсуждается графовый алгоритм назначения меток тем и анализируются результаты его применения на русскоязычном материале. Предлагаемый нами алгоритм включает в себя два этапа: а) извлечение кандидатов в метки тем на основе алгоритма PageRank и морфологических фильтров, б) ранжирование кандидатов. Эксперименты, проведенные с русскоязычным корпусом энциклопедических текстов по лингвистике, доказали состоятельность нашего подхода.
AB - Тематическое моделирование является одним из самых востребованных статистических методов, позволяющих выявить содержательную структуру корпусов текстов. Целью нашего исследования является расширение алгоритмов тематического моделирования за счет автоматического назначения меток тем – процедуры выбора метки для множества слов, формирующих тему. В данной работе обсуждается графовый алгоритм назначения меток тем и анализируются результаты его применения на русскоязычном материале. Предлагаемый нами алгоритм включает в себя два этапа: а) извлечение кандидатов в метки тем на основе алгоритма PageRank и морфологических фильтров, б) ранжирование кандидатов. Эксперименты, проведенные с русскоязычным корпусом энциклопедических текстов по лингвистике, доказали состоятельность нашего подхода.
KW - тематическое моделирование
KW - НАЗНАЧЕНИЕ МЕТОК ТЕМ
KW - РУССКОЯЗЫЧНЫЕ КОРПУСЫ ТЕКСТОВ
KW - Topic modelling
KW - TOPIC LABELLING
KW - Russian corpora
UR - https://www.elibrary.ru/item.asp?id=41085976
M3 - статья в сборнике
VL - 12
SP - 122
EP - 147
BT - Структурная и прикладная лингвистика
A2 - Николаев, И.С.
PB - Издательство Санкт-Петербургского университета
CY - СПб.
ER -
ID: 62338036