Standard

Эксперименты по автоматическому выделению ключевых выражений в стилистически разнородных корпусах русскоязычных текстов. / Митрофанова, Ольга Александровна; Гаврилик, Дарья Александровна.

в: Общество. Коммуникация. Образование, Том 13, № 4, 2022.

Результаты исследований: Научные публикации в периодических изданияхстатьяРецензирование

Harvard

APA

Vancouver

Author

BibTeX

@article{27c17eaa4d3d439fad60a1e0e11c12bb,
title = "Эксперименты по автоматическому выделению ключевых выражений в стилистически разнородных корпусах русскоязычных текстов",
abstract = "Статья посвящена экспериментальному исследованию методов автоматического выделения ключевых выражений с использованием экспертных оценок. Целью работы является проверка гипотез о распределении ключевых выражений в документе, о дифференциации ключевых выражений с точки зрения используемых алгоритмов их выделения и стилистической принадлежности текстов. Эксперименты поавтоматическому выделению ключевых выражений проводятся с помощью девяти алгоритмов различных типов: статистические (Log-Likelihood, TF-IDF, Хи-квадрат), гибридные (лингвостатистические) (RAKE, YAKE, PullEnti, Topia), структурные (графовые) (TextRank), с использованием машинного обучения (KeyBERT). В ходе исследования был подготовлен смешанный корпус объем объемом около 1 млн с/у, включающий в себя 50 публицистических текстов (новостные сообщения с заголовками),50 научных текстов (статьи по компьютерной лингвистике с заголовками, аннотациями и задаваемыми вручную наборами ключевых выражений), 50 художественных текстов (главы из прозаических произведений, снабженные авторским описанием содержания). Для проверки гипотезы о пространственно-позиционных и стилистически детерминированных характеристиках ключевых выражений были проведены три серии экспериментов, в результате которых были сопоставлены эталонные ключевые выражения, выделенные экспертами из первого сегмента текстов, и ключевые выражения, извлеченные из второго сегмента автоматическими методами. Количественная оценка совпадений экспертной и автоматической разметки позволила подтвердить гипотезу о различной концентрации ключевых выражений в сравниваемых сегментах текста. Исследование лексикограмматических и семантических особенностей выделенных ключевых выражений выявило те их признаки, которые определяются стилистическими особенностями текстов.Результаты исследования позволяют усовершенствовать процедуры семантической компрессии, производимые с применением различных методов автоматического выделения ключевых выражений.",
keywords = "семантическая компрессия, автоматическое извлечение ключевых выражений, экспертная разметка, корпус текстов, функциональные стили, semantic compression, automatic keyphrase extraction, expert annotation, text corpus, functional styles",
author = "Митрофанова, {Ольга Александровна} and Гаврилик, {Дарья Александровна}",
note = "Митрофанова О.А., Гаврилик Д.А. Эксперименты по автоматическому выделению ключевых выражений в стилистически разнородных корпусах русскоязычных текстов // Terra Linguistica.",
year = "2022",
language = "русский",
volume = "13",
journal = "Общество. Коммуникация. Образование",
issn = "2687-0525",
publisher = "Издательство Санкт-Петербургского Государственного Политехнического Университета",
number = "4",

}

RIS

TY - JOUR

T1 - Эксперименты по автоматическому выделению ключевых выражений в стилистически разнородных корпусах русскоязычных текстов

AU - Митрофанова, Ольга Александровна

AU - Гаврилик, Дарья Александровна

N1 - Митрофанова О.А., Гаврилик Д.А. Эксперименты по автоматическому выделению ключевых выражений в стилистически разнородных корпусах русскоязычных текстов // Terra Linguistica.

PY - 2022

Y1 - 2022

N2 - Статья посвящена экспериментальному исследованию методов автоматического выделения ключевых выражений с использованием экспертных оценок. Целью работы является проверка гипотез о распределении ключевых выражений в документе, о дифференциации ключевых выражений с точки зрения используемых алгоритмов их выделения и стилистической принадлежности текстов. Эксперименты поавтоматическому выделению ключевых выражений проводятся с помощью девяти алгоритмов различных типов: статистические (Log-Likelihood, TF-IDF, Хи-квадрат), гибридные (лингвостатистические) (RAKE, YAKE, PullEnti, Topia), структурные (графовые) (TextRank), с использованием машинного обучения (KeyBERT). В ходе исследования был подготовлен смешанный корпус объем объемом около 1 млн с/у, включающий в себя 50 публицистических текстов (новостные сообщения с заголовками),50 научных текстов (статьи по компьютерной лингвистике с заголовками, аннотациями и задаваемыми вручную наборами ключевых выражений), 50 художественных текстов (главы из прозаических произведений, снабженные авторским описанием содержания). Для проверки гипотезы о пространственно-позиционных и стилистически детерминированных характеристиках ключевых выражений были проведены три серии экспериментов, в результате которых были сопоставлены эталонные ключевые выражения, выделенные экспертами из первого сегмента текстов, и ключевые выражения, извлеченные из второго сегмента автоматическими методами. Количественная оценка совпадений экспертной и автоматической разметки позволила подтвердить гипотезу о различной концентрации ключевых выражений в сравниваемых сегментах текста. Исследование лексикограмматических и семантических особенностей выделенных ключевых выражений выявило те их признаки, которые определяются стилистическими особенностями текстов.Результаты исследования позволяют усовершенствовать процедуры семантической компрессии, производимые с применением различных методов автоматического выделения ключевых выражений.

AB - Статья посвящена экспериментальному исследованию методов автоматического выделения ключевых выражений с использованием экспертных оценок. Целью работы является проверка гипотез о распределении ключевых выражений в документе, о дифференциации ключевых выражений с точки зрения используемых алгоритмов их выделения и стилистической принадлежности текстов. Эксперименты поавтоматическому выделению ключевых выражений проводятся с помощью девяти алгоритмов различных типов: статистические (Log-Likelihood, TF-IDF, Хи-квадрат), гибридные (лингвостатистические) (RAKE, YAKE, PullEnti, Topia), структурные (графовые) (TextRank), с использованием машинного обучения (KeyBERT). В ходе исследования был подготовлен смешанный корпус объем объемом около 1 млн с/у, включающий в себя 50 публицистических текстов (новостные сообщения с заголовками),50 научных текстов (статьи по компьютерной лингвистике с заголовками, аннотациями и задаваемыми вручную наборами ключевых выражений), 50 художественных текстов (главы из прозаических произведений, снабженные авторским описанием содержания). Для проверки гипотезы о пространственно-позиционных и стилистически детерминированных характеристиках ключевых выражений были проведены три серии экспериментов, в результате которых были сопоставлены эталонные ключевые выражения, выделенные экспертами из первого сегмента текстов, и ключевые выражения, извлеченные из второго сегмента автоматическими методами. Количественная оценка совпадений экспертной и автоматической разметки позволила подтвердить гипотезу о различной концентрации ключевых выражений в сравниваемых сегментах текста. Исследование лексикограмматических и семантических особенностей выделенных ключевых выражений выявило те их признаки, которые определяются стилистическими особенностями текстов.Результаты исследования позволяют усовершенствовать процедуры семантической компрессии, производимые с применением различных методов автоматического выделения ключевых выражений.

KW - семантическая компрессия

KW - автоматическое извлечение ключевых выражений

KW - экспертная разметка

KW - корпус текстов

KW - функциональные стили

KW - semantic compression

KW - automatic keyphrase extraction

KW - expert annotation

KW - text corpus

KW - functional styles

M3 - статья

VL - 13

JO - Общество. Коммуникация. Образование

JF - Общество. Коммуникация. Образование

SN - 2687-0525

IS - 4

ER -

ID: 100333101