Исследование посвящено усовершенствованию методов
вероятностного тематического моделирования, направленных на
выявление скрытых взаимосвязей между словами, документами и
темами в текстовых коллекциях. В большинстве тематических моделей
темы представлены исключительно униграммами, что в некоторых
случаях влечет за собой ухудшение точности и повышает сложность
содержательной интерпретации выделяемых тем. Нами предложен
новый алгоритм на основе метода LDA, позволяющий автоматически
выделять в корпусе словосочетания, состоящие из двух слов, и
добавлять их в тематические модели. В статье изложена работа
алгоритма и приведены результаты его применения в автоматической
обработке корпусов специальных текстов.
Переведенное названиеTopic Modelling of Russian Texts based on Lemmata and Lexical Constructions
Язык оригиналарусский
Название основной публикацииКомпьютерная лингвистика и вычислительные онтологии. Выпуск 1
Подзаголовок основной публикацииТруды XX Международной объединенной научной конференции «Интернет и современное общество», IMS-2017, Санкт-Петербург, 21 – 23 июня 2017 г. Сборник научных статей
ИздательНИУ ИТМО
Страницы132-144
СостояниеПринято в печать - 2017
СобытиеXX Международная объединенная научная конференция «Интернет и современное общество»: международная объединенная конференция - Университет ИТМО, Санкт-Петербург, Российская Федерация
Продолжительность: 21 июн 201723 июн 2017
Номер конференции: XX
http://icims.ifmo.ru/
http://ims.ifmo.ru/ru/pages/28/IMS_2017.htm

конференция

конференцияXX Международная объединенная научная конференция «Интернет и современное общество»
Сокращенное названиеIMS-2017
Страна/TерриторияРоссийская Федерация
ГородСанкт-Петербург
Период21/06/1723/06/17
Сайт в сети Internet

ID: 9328963