Автоматическое извлечение коллокаций из больших корпусов русского и немецкого языков: сравнение со словарями

Project: Grant fulfilmentTotal grant fulfilment

Description

Актуальность исследования заключается в том, что применение статистических методов к большим языковым данным дает возможность по-новому взглянуть на явление сочетаемости, определяющееся как грамматическими и лексическими особенностями, так и вероятностными характеристиками. В рамках исследования будет проведено автоматическое извлечение сочетаний из корпусов и произведен сопоставительный анализ результатов двух языков.

Layman's description

Работа посвящена автоматическому нахождению устойчивых словосочетаний в коллекциях текстов на русском и немецком языках. Тексты сопровождаются специальной разметкой, которая позволяет извлекать сочетания слов при помощи заданных моделей. Далее они оцениваются при помощи статистических методов с привлечением словарных данных.

Key findings for the project

Мною были проведены консультации с проф. Ш. Эвертом по тем результатам, которые были получены его группой при извлечении коллокаций в рамках предыдущих исследований, а также в ходе выполнения предыдущего совместного исследования. Обсуждались результаты совместного доклада, с которым я выступила на международной лексикографической конференции Euralex 2018 (Любляна, Словения). Определенную сложность вызвало создание эталонного стандарта сочетаемости русского языка, который должен быть использован для оценки автоматически полученных результатов.
AcronymD. Mendeleev 2018
StatusFinished
Effective start/end date15/09/1815/12/18