Документы

Статья посвящена экспериментальному исследованию методов автоматического выделения ключевых выражений с использованием экспертных оценок. Целью работы является проверка гипотез о распределении ключевых выражений в документе, о дифференциации ключевых выражений с точки зрения используемых алгоритмов их выделения и стилистической принадлежности текстов. Эксперименты по
автоматическому выделению ключевых выражений проводятся с помощью девяти алгоритмов различных типов: статистические (Log-Likelihood, TF-IDF, Хи-квадрат), гибридные (лингвостатистические) (RAKE, YAKE, PullEnti, Topia), структурные (графовые) (TextRank), с использованием машинного обучения (KeyBERT). В ходе исследования был подготовлен смешанный корпус объем объемом около 1 млн с/у, включающий в себя 50 публицистических текстов (новостные сообщения с заголовками),
50 научных текстов (статьи по компьютерной лингвистике с заголовками, аннотациями и задаваемыми вручную наборами ключевых выражений), 50 художественных текстов (главы из прозаических произведений, снабженные авторским описанием содержания). Для проверки гипотезы о пространственно-позиционных и стилистически детерминированных характеристиках ключевых выражений были проведены три серии экспериментов, в результате которых были сопоставлены эталонные ключевые выражения, выделенные экспертами из первого сегмента текстов, и ключевые выражения, извлеченные из второго сегмента автоматическими методами. Количественная оценка совпадений экспертной и автоматической разметки позволила подтвердить гипотезу о различной концентрации ключевых выражений в сравниваемых сегментах текста. Исследование лексикограмматических и семантических особенностей выделенных ключевых выражений выявило те их признаки, которые определяются стилистическими особенностями текстов.
Результаты исследования позволяют усовершенствовать процедуры семантической компрессии, производимые с применением различных методов автоматического выделения ключевых выражений.
Переведенное названиеEXPERIMENTS ON AUTOMATIC KEY EXPRESSION EXTRACTION IN STYLISTICALLY HETEROGENEOUS CORPUS OF RUSSIAN TEXTS
Язык оригиналарусский
Число страниц31
ЖурналОбщество. Коммуникация. Образование
Том13
Номер выпуска4
СостояниеПринято в печать - 2022

    Области исследований

  • семантическая компрессия, автоматическое извлечение ключевых выражений, экспертная разметка, корпус текстов, функциональные стили

ID: 100333101