Автоматическое назначение меток тем в тематических моделях русскоязычных корпусов тестов

Алия Ришатовна Ерофеева, Ольга Александровна Митрофанова

Результат исследований: Публикации в книгах, отчётах, сборниках, трудах конференцийстатья в сборникенаучнаярецензирование

Аннотация

Тематическое моделирование является одним из самых востребованных статистических методов, позволяющих выявить содержательную структуру корпусов текстов. Целью нашего исследования является расширение алгоритмов тематического моделирования за счет автоматического назначения меток тем – процедуры выбора метки для множества слов, формирующих тему. В данной работе обсуждается графовый алгоритм назначения меток тем и анализируются результаты его применения на русскоязычном материале. Предлагаемый нами алгоритм включает в себя два этапа: а) извлечение кандидатов в метки тем на основе алгоритма PageRank и морфологических фильтров, б) ранжирование кандидатов. Эксперименты, проведенные с русскоязычным корпусом энциклопедических текстов по лингвистике, доказали состоятельность нашего подхода.
Переведенное названиеAUTOMATIC ASSIGNMENT OF TOPIC LABELS IN TOPIC MODELS FOR RUSSIAN TEXT CORPORA
Язык оригиналарусский
Название основной публикацииСтруктурная и прикладная лингвистика
Подзаголовок основной публикацииМежвузовский сборник. Выпуск 12. К 60-летию отделения прикладной, компьютерной и математической лингвистики СПбГУ
РедакторыИ.С. Николаев
Место публикацииСПб.
ИздательИздательство Санкт-Петербургского университета
Страницы122-147
Число страниц26
Том12
СостояниеОпубликовано - 2019

Ключевые слова

  • тематическое моделирование
  • НАЗНАЧЕНИЕ МЕТОК ТЕМ
  • РУССКОЯЗЫЧНЫЕ КОРПУСЫ ТЕКСТОВ

Fingerprint Подробные сведения о темах исследования «Автоматическое назначение меток тем в тематических моделях русскоязычных корпусов тестов». Вместе они формируют уникальный семантический отпечаток (fingerprint).

Цитировать