Research output: Contribution to journal › Conference article
Методы машинного обучения применительно к задаче выделения глагольных и атрибутивных коллокаций. / Хохлова, Мария Владимировна; Еникеева, Екатерина Владимировна.
In: Компьютерная лингвистика и вычислительные онтологии, No. 4, 2020, p. 54-60.Research output: Contribution to journal › Conference article
}
TY - JOUR
T1 - Методы машинного обучения применительно к задаче выделения глагольных и атрибутивных коллокаций
AU - Хохлова, Мария Владимировна
AU - Еникеева, Екатерина Владимировна
PY - 2020
Y1 - 2020
N2 - В статье представлены результаты применения алгоритмов машинного обучения к задаче автоматического выявления глагольных и атрибутивных коллокаций . Изучение сочетаемости показало, что дистрибуционные модели могут быть успешно использованы для моделирования отношений внутри словосочетаний. Словосочетание признается значимым, если его векторное представление близко к векторному представлению заглавного слова. Нами были использованы следующие методы оценки коллокаций на основе машинного обучения и векторных представлений текстов: базовый метод, метод аналогии и линейного преобразования. Автоматически выделенные словосочетания сравнивались с данными, приведенными в лексикографических источниках (в толковых словарях и словарях сочетаемости, всего было рассмотрено пять источников), которые образовали так называемый золотой стандарт. Результаты показали, что рассматриваемые методы успешно используются для извлечения словосочетаний, в том числе находят те, которые не отражены в словарях. Данные примеры могут претендовать на лексикографическоое описание, хотя и не приведены в источниках и нуждаются в дополнительной экспертной проверке. Поэтому необходимо дополнительно провести сравнение использованных алгоритмов с другими статистическими метриками и увеличить количество словосочетаний, которые привлечены в качестве золотого стандарта.
AB - В статье представлены результаты применения алгоритмов машинного обучения к задаче автоматического выявления глагольных и атрибутивных коллокаций . Изучение сочетаемости показало, что дистрибуционные модели могут быть успешно использованы для моделирования отношений внутри словосочетаний. Словосочетание признается значимым, если его векторное представление близко к векторному представлению заглавного слова. Нами были использованы следующие методы оценки коллокаций на основе машинного обучения и векторных представлений текстов: базовый метод, метод аналогии и линейного преобразования. Автоматически выделенные словосочетания сравнивались с данными, приведенными в лексикографических источниках (в толковых словарях и словарях сочетаемости, всего было рассмотрено пять источников), которые образовали так называемый золотой стандарт. Результаты показали, что рассматриваемые методы успешно используются для извлечения словосочетаний, в том числе находят те, которые не отражены в словарях. Данные примеры могут претендовать на лексикографическоое описание, хотя и не приведены в источниках и нуждаются в дополнительной экспертной проверке. Поэтому необходимо дополнительно провести сравнение использованных алгоритмов с другими статистическими метриками и увеличить количество словосочетаний, которые привлечены в качестве золотого стандарта.
KW - ГЛАГОЛЬНЫЕ КОЛЛОКАЦИИ
KW - АТРИБУТИВНЫЕ КОЛЛОКАЦИИ
KW - МАШИННОЕ ОБУЧЕНИЕ
KW - АЛГОРИТМЫ
KW - КОРПУСЫ ТЕКСТОВ
KW - РУССКИЙ ЯЗЫК
KW - verbal collocations
KW - noun collocations
KW - machine learning
KW - algorithms
KW - text corpora
KW - RUSSIAN language
UR - https://www.elibrary.ru/item.asp?id=44584678
M3 - статья в журнале по материалам конференции
SP - 54
EP - 60
JO - Компьютерная лингвистика и вычислительные онтологии
JF - Компьютерная лингвистика и вычислительные онтологии
SN - 2541-9781
IS - 4
ER -
ID: 85788425