Исследование методов автоматического извлечения лексических конструкций на основе машинного обучения: 2019 г. этап 2

Enikeeva, Ekaterina (CoI)
Khokhlova, Mariia (PI)

Description

Целью научного исследования является разработка и анализ методов машинного обучения, используемых для извлечения информации о сочетаемости лексических единиц в терминах конструкций, на материале русскоязычных корпусов.

Key findings for the project

В ходе работы были проанализированы алгоритмы машинного обучения, которые используются для извлечения лексических конструкций. Данная методика была апробирована для нахождения для нахождения ближайшего коллоката в векторном пространстве, то есть для оценки синтагматических отношений в рамках лексических конструкций. Были использованы модели, полученные с помощью инструмента word2vec, а также иные статистические критерии, включающие оценку ожидаемых частот относительно наблюдаемых (критерий хи-квадрат, мера Фишера, коэффициенты логарифмического правдоподобия и Дайса и др.).
В ходе работы был создан программный комплекс на языке Python, содержащий модули:
• для извлечения биграмм-кандидатов по заданным шаблонам;
• для обучения моделей аналогии и линейного преобразования по списку образцов;
• для оценки лексических конструкций.
Была проведена серия экспериментов по тестированию алгоритмов. В качестве кандидатов для оценки были извлечены биграммы, соответствующие следующим морфосинтаксическим шаблонам:
1) прилагательное + существительное;
2) субъект (существительное в именительном падеже в пре- и постпозиции) + глагол;
3) глагол + объект (существительное в косвенном падеже в пре- и постпозиции);
4) наречие + глагол.
Векторные представления были получены с помощью инструмента word2vec, обученного на текстах Национального корпуса русского языка (НКРЯ). Список образцов лексических конструкций собран по данным синтаксически размеченного подкорпуса НКРЯ СинТагРус.
Результаты показали, что точность предсказания коллоката в рамках лексической конструкции с использованием линейного преобразования может достигать 90%. Кроме того, этот метод позволяет моделировать значение главного и зависимого слова по разным корпусам текстов. Также был сделан вывод о том, что использование более разнообразного в жанровом отношении корпуса для моделирования значения коллокатов и более однородного (соответственно, более однозначного) корпуса для моделирования значений главных слов увеличивает точность оценки. Среди иных статистических тестов наиболее высокие результаты были продемонстрированы коэффициентом логарифмического правдоподобия и мерой Фишера.

Koppel K., Kallas J., Khokhlova M., Suchomel V., Baisa V., Michelfeit J. SkELL Corpora as a Part of the Language Portal Sõnaveeb: Problems and Perspectives. In Kosem, I., Zingano Kuhn, T., Correia, M., Ferreria, J. P., Jansen, M., Pereira, I., Kallas, J., Jakubíček, M., Krek, S. & Tiberius, C. (eds.) 2019. Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference. 1-3 October 2019, Sintra, Portugal. Brno: Lexical Computing CZ, s.r.o. P. 763-782. (октябрь 2019)
Khokhlova M. On Similarity between Association Measures for Automatic Extraction: A Case Study of Verbal Collocations. In Horak, A., Osolsobe, K., Rambousek, A. and Rychly, P. (editors): Slavonic Natural Language Processing in the 21st Century, Tribun EU, Brno, Czech Republic, 2019. P. 133-141. (июль 2019)
Хохлова М.В. К вопросу о сходстве мер ассоциации применительно к задаче автоматического извлечения глагольных коллокаций // Компьютерная лингвистика и вычислительные онтологии. Выпуск 3 (Труды XXII Международной объединенной научной конференции «Интернет и современное общество», IMS-2019, Санкт-Петербург, 19 – 22 июня 2019 г. Сборник научных трудов). — СПб: Университет ИТМО, 2019. С. 9-18. (декабрь 2019)
Хохлова М.В. Статистический подход применительно к исследованию сочетаемости: от мер ассоциации к машинному обучению // Структурная и прикладная лингвистика. Выпуск 13. СПб., 2019. С. 106–122. (05.11.2019)

Khokhlova M. Similarity between the Association Measures: a Case Study of Noun Phrases. In Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018. Edited by Horák A., Rychlý P., Rambousek A. Brno: Tribun EU, 2018. P. 21–27. (декабрь 2018)
Khokhlova M. Building a Gold Standard for a Russian Collocations Database. In Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts. Ljubljana, 2018. P. 863–869. (июль 2018)
Хохлова М.В., Попов А.М. База данных сочетаемости коллокаций: от предварительных замечаний к проекту // Структурная и прикладная лингвистика. Выпуск 12. СПб., 2019. С. 212–220. (25.03.2019)
Хохлова М.В., Попов А.М. К вопросу о репрезентации данных о сочетаемости в электронных лексикографических ресурсах // Компьютерная лингвистика и вычислительные онтологии. Выпуск 2. 2018. (Труды XXI Международной объединенной конференции «Интернет и современное общество, IMS-2018, Санкт-Петербург, 30 мая - 2 июня 2018 г. Сборник научных статей). — СПб: Университет ИТМО, 2018. С. 124–130. (декабрь 2018)

Academic ownership of participants (text description)

Хохлова М. В.: исследование методов и алгоритмов машинного обучения для автоматического извлечения конструкций. Обработка текстовых коллекций, синтаксическая разметка. Проведение экспериментов по выделению конструкций. Оценка и описание лексических конструкций, их сравнение со словарями и экспертными данными. Описание использованных алгоритмов и выделенных ими конструкций. Написание статей по результатам проекта.

Еникеева Е. В.: исследование методов и алгоритмов машинного обучения для автоматического извлечения конструкций. Разработка программ для предварительной обработки корпусных данных и для автоматического извлечения конструкций, для извлечения биграмм-кандидатов, а также для оценки близости векторов с использованием разных моделей. Тестирование алгоритмов.

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

не разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

разрешается

Short title	__
Acronym	PresidentMK_2018 - 2
Status	Finished
Effective start/end date	1/01/19 → 31/12/19

ID: 37271582