Автоматическое извлечение коллокаций из больших корпусов русского и немецкого языков: сравнение со словарями

Проект: исполнение гранта/договораисполнение гранта/договора в целом

описание

Актуальность исследования заключается в том, что применение статистических методов к большим языковым данным дает возможность по-новому взглянуть на явление сочетаемости, определяющееся как грамматическими и лексическими особенностями, так и вероятностными характеристиками. В рамках исследования будет проведено автоматическое извлечение сочетаний из корпусов и произведен сопоставительный анализ результатов двух языков.

описание для неспециалистов

Работа посвящена автоматическому нахождению устойчивых словосочетаний в коллекциях текстов на русском и немецком языках. Тексты сопровождаются специальной разметкой, которая позволяет извлекать сочетания слов при помощи заданных моделей. Далее они оцениваются при помощи статистических методов с привлечением словарных данных.

основные результаты по проекту в целом

Мною были проведены консультации с проф. Ш. Эвертом по тем результатам, которые были получены его группой при извлечении коллокаций в рамках предыдущих исследований, а также в ходе выполнения предыдущего совместного исследования. Обсуждались результаты совместного доклада, с которым я выступила на международной лексикографической конференции Euralex 2018 (Любляна, Словения). Определенную сложность вызвало создание эталонного стандарта сочетаемости русского языка, который должен быть использован для оценки автоматически полученных результатов.
АббревиатураD. Mendeleev 2018
СтатусЗавершено
Действительная дата начала/окончания15/09/1815/12/18

Ключевые слова

  • коллокации;
  • статистика;
  • автоматический анализ текстов;
  • корпусы текстов;
  • русский язык;
  • немецкий язык;