Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
Эксперименты по автоматическому выделению ключевых выражений в стилистически разнородных корпусах русскоязычных текстов. / Митрофанова, Ольга Александровна; Гаврилик, Дарья Александровна.
в: Общество. Коммуникация. Образование, Том 13, № 4, 2022.Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
}
TY - JOUR
T1 - Эксперименты по автоматическому выделению ключевых выражений в стилистически разнородных корпусах русскоязычных текстов
AU - Митрофанова, Ольга Александровна
AU - Гаврилик, Дарья Александровна
N1 - Митрофанова О.А., Гаврилик Д.А. Эксперименты по автоматическому выделению ключевых выражений в стилистически разнородных корпусах русскоязычных текстов // Terra Linguistica.
PY - 2022
Y1 - 2022
N2 - Статья посвящена экспериментальному исследованию методов автоматического выделения ключевых выражений с использованием экспертных оценок. Целью работы является проверка гипотез о распределении ключевых выражений в документе, о дифференциации ключевых выражений с точки зрения используемых алгоритмов их выделения и стилистической принадлежности текстов. Эксперименты поавтоматическому выделению ключевых выражений проводятся с помощью девяти алгоритмов различных типов: статистические (Log-Likelihood, TF-IDF, Хи-квадрат), гибридные (лингвостатистические) (RAKE, YAKE, PullEnti, Topia), структурные (графовые) (TextRank), с использованием машинного обучения (KeyBERT). В ходе исследования был подготовлен смешанный корпус объем объемом около 1 млн с/у, включающий в себя 50 публицистических текстов (новостные сообщения с заголовками),50 научных текстов (статьи по компьютерной лингвистике с заголовками, аннотациями и задаваемыми вручную наборами ключевых выражений), 50 художественных текстов (главы из прозаических произведений, снабженные авторским описанием содержания). Для проверки гипотезы о пространственно-позиционных и стилистически детерминированных характеристиках ключевых выражений были проведены три серии экспериментов, в результате которых были сопоставлены эталонные ключевые выражения, выделенные экспертами из первого сегмента текстов, и ключевые выражения, извлеченные из второго сегмента автоматическими методами. Количественная оценка совпадений экспертной и автоматической разметки позволила подтвердить гипотезу о различной концентрации ключевых выражений в сравниваемых сегментах текста. Исследование лексикограмматических и семантических особенностей выделенных ключевых выражений выявило те их признаки, которые определяются стилистическими особенностями текстов.Результаты исследования позволяют усовершенствовать процедуры семантической компрессии, производимые с применением различных методов автоматического выделения ключевых выражений.
AB - Статья посвящена экспериментальному исследованию методов автоматического выделения ключевых выражений с использованием экспертных оценок. Целью работы является проверка гипотез о распределении ключевых выражений в документе, о дифференциации ключевых выражений с точки зрения используемых алгоритмов их выделения и стилистической принадлежности текстов. Эксперименты поавтоматическому выделению ключевых выражений проводятся с помощью девяти алгоритмов различных типов: статистические (Log-Likelihood, TF-IDF, Хи-квадрат), гибридные (лингвостатистические) (RAKE, YAKE, PullEnti, Topia), структурные (графовые) (TextRank), с использованием машинного обучения (KeyBERT). В ходе исследования был подготовлен смешанный корпус объем объемом около 1 млн с/у, включающий в себя 50 публицистических текстов (новостные сообщения с заголовками),50 научных текстов (статьи по компьютерной лингвистике с заголовками, аннотациями и задаваемыми вручную наборами ключевых выражений), 50 художественных текстов (главы из прозаических произведений, снабженные авторским описанием содержания). Для проверки гипотезы о пространственно-позиционных и стилистически детерминированных характеристиках ключевых выражений были проведены три серии экспериментов, в результате которых были сопоставлены эталонные ключевые выражения, выделенные экспертами из первого сегмента текстов, и ключевые выражения, извлеченные из второго сегмента автоматическими методами. Количественная оценка совпадений экспертной и автоматической разметки позволила подтвердить гипотезу о различной концентрации ключевых выражений в сравниваемых сегментах текста. Исследование лексикограмматических и семантических особенностей выделенных ключевых выражений выявило те их признаки, которые определяются стилистическими особенностями текстов.Результаты исследования позволяют усовершенствовать процедуры семантической компрессии, производимые с применением различных методов автоматического выделения ключевых выражений.
KW - семантическая компрессия
KW - автоматическое извлечение ключевых выражений
KW - экспертная разметка
KW - корпус текстов
KW - функциональные стили
KW - semantic compression
KW - automatic keyphrase extraction
KW - expert annotation
KW - text corpus
KW - functional styles
M3 - статья
VL - 13
JO - Общество. Коммуникация. Образование
JF - Общество. Коммуникация. Образование
SN - 2687-0525
IS - 4
ER -
ID: 100333101