Целью данного проекта является получение и оценка количественных данных о сочетаемости. В рамках нашей работы планируется провести совместные эксперименты по выделению словосочетаний в разных корпусах русского языка (НКРЯ, Araneum Russicum) и использованию нескольких статистических метрик (MI, t-score, log-likelihood, частота совместной встречаемости). Также запланировано выступление с докладом, отражающем результаты работы, которая была нами проведена в СПбГУ в рамках разных проектов, связанных с применением квантитативных методов.
Настоящий проект нацелен на получение количественных данных о разнообразных словосочетаниях в русском языке, в особенности тех, которые (например, "крепкий чай", "клятва Гиппократа", "принять решение", "вести беседу"). Для его выполнения будут использованы специальные программы, которые позволяют получить частотные данные на материале коллекций текстов (корпусов текстов). На основе количественных данных словосочетания будут найдены в текстах. Далее будет проведен анализ того, какие из характеристик являются важными для автоматического нахождения сочетаний слов в текстах. Результаты данной работы могут быть использовании при автоматическом исправлении ошибок, в информационном поиске, в машинном переводе, а также при составлении словарей и грамматик.
Место проведения стажировки:
Университет Хельсинки (Хельсинки, Финляндия), гуманитарный факультет, отделение современных языков.
В ходе выполнения проекта были получены следующие результаты.
1. Были проведены совещания по проекту "Collocations, colligations and corpora", который посвящен извлечению словосочетаний и конструкций автоматическими методами. Обсуждение тем, связанных с автоматическим выявлением словосочетаний, было важно для реализации моего исследования, так как я занимаюсь тем же направлением, мною так же разрабатывается база данных сочетаемости русского языка при помощи статистических методов. Поездка дала возможность продолжить многолетнее сотрудничество с университетом Хельсинки, в частности, с проф. М.В. Копотевым и его группой.
2. Выступила: 1) с докладом на междисциплинарном семинаре на тему: “Collocations. What's that and how to deal with them?”; 2) с сообщением, посвященным созданию базы данных сочетаемости и разработке золотого
стандарта.
3. Обсуждались вопросы, связанные с оценкой сочетаемости при автоматическом выделении биграмм и триграмм. Речь идет о сочетаниях слов трех типов: коллокациях, коллигациях и конструкциях. Были проведены эксперименты, в ходе которых выяснялось наличие корреляции между распределением единиц по закону Ципфа и значениями их статистических метрик.
По результатам поездки нами запланировано продолжение экспериментов на данных, полученных нами и коллегами, с использованием статистических мер.
Acronym | Exchange 2018 |
---|
Status | Finished |
---|
Effective start/end date | 4/06/18 → 15/06/18 |
---|