Ольга Александровна Митрофанова - Докладчик

Современные языковые модели опираются на разнообразные алгоритмы классического и глубинного машинного обучения, адаптируемые к условиям работы с корпусами текстов разных типов и жанрово-стилевой принадлежности. Данные алгоритмы применяются для широкого круга задач обработки данных – извлечение информации, генерация текстов, индексирование и суммаризация, перифразирование и т.д. Заметное место среди таких задач занимает определение тематики текстов в корпусе, которое осуществляется в результате применения алгоритмов классификации и/или кластеризации. Наряду с традиционными методиками используется тематическое моделирование, в частности, алгебраические (LSA, nmf и т.д.) и вероятностные модели (pLSA, LDA и т.д.). Эти модели, хотя и являются самодостаточными, сейчас интегрируются с нейросетевыми дистрибутивно-семантическими моделями: со статическими моделями Word2Vec (LDA2Vec, Top2Vec и т.д.) и контекстуализированными моделями ELMo и BERT (T-BERT, KITTY и т.д.). В задаче тематической классификации текстов такие гибридные модели, безусловно, представляют конкуренцию базовым нейросетевым архитектурам.
Одной из частных проблем тематического моделирования является учет структурных параметров текстов, входящих в состав корпуса. В частности, было подтверждено, что тематические модели чувствительны к жанрово-стилевой принадлежности корпусов и позволяют дифференцировать смежные по типу тексты (например, историческую прозу и документалистику) в тех ситуациях, когда различия данного рода не регистрируются на уровне статистики словаря. В докладе обсуждается возможность выявления диагностических признаков, свойственных нарративу и полилогу, на уровне тематических моделей. Нарративу характерна сюжетность, при этом темы явно маркируются знаменательной лексикой, тогда как полилоги, даже если они сосредоточены вокруг целостной ситуации, могут не содержать лексические маркеры обсуждаемых тем, поскольку в них тематические маркеры подавляются дискурсивно-прагматическими. Вместе с тем, дисбаланс словарного состава корпусов нарративов и полилогов не является препятствием для проведения процедур тематического моделирования, которое подтвердило возможность сопоставления тематики текстов двух типов. Эксперименты были проведены на материале корпусов художественной прозы (нарратив) и корпусов полилогов (корпус ОРД, корпус субтитров, корпус учебных диалогов). В докладе представлены результаты тематического моделирования как классическими, так и гибридными методами.
Исследование выполняется в рамках НИП СПбГУ № 75254082 «Моделирование коммуникативного поведения жителей российского мегаполиса в социально-речевом и прагматическом аспектах с привлечением методов искусственного интеллекта» и гранта РНФ № 21-78-10148 «Моделирование значения слова в индивидуальном языковом сознании на основе дистрибутивной семантики».
14 мар 202222 мар 2022

Событие (конференция)

ЗаголовокL Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой.
Сокр. ЗаголовокМФК 2022
Период15/03/2223/03/22
Веб-адрес (URL-адрес)
МестоположениеСПбГУ
ГородСанкт-Петербург
Страна/TерриторияРоссийская Федерация
Степень признаниямеждународный уровень

ID: 100332979