Тематическое моделирование является одним из самых востребованных статистических методов, позволяющих выявить содержательную структуру корпусов текстов. Целью нашего исследования является расширение алгоритмов тематического моделирования за счет автоматического назначения меток тем – процедуры выбора метки для множества слов, формирующих тему. В данной работе обсуждается графовый алгоритм назначения меток тем и анализируются результаты его применения на русскоязычном материале. Предлагаемый нами алгоритм включает в себя два этапа: а) извлечение кандидатов в метки тем на основе алгоритма PageRank и морфологических фильтров, б) ранжирование кандидатов. Эксперименты, проведенные с русскоязычным корпусом энциклопедических текстов по лингвистике, доказали состоятельность нашего подхода.
Переведенное названиеAUTOMATIC ASSIGNMENT OF TOPIC LABELS IN TOPIC MODELS FOR RUSSIAN TEXT CORPORA
Язык оригиналарусский
Название основной публикацииСтруктурная и прикладная лингвистика
Подзаголовок основной публикацииМежвузовский сборник. Выпуск 12. К 60-летию отделения прикладной, компьютерной и математической лингвистики СПбГУ
РедакторыИ.С. Николаев
Место публикацииСПб.
ИздательИздательство Санкт-Петербургского университета
Страницы122-147
Число страниц26
Том12
СостояниеОпубликовано - 2019

    Области исследований

  • тематическое моделирование, НАЗНАЧЕНИЕ МЕТОК ТЕМ, РУССКОЯЗЫЧНЫЕ КОРПУСЫ ТЕКСТОВ

ID: 62338036