Второй год реализации проекта был посвящен разработке базы сочетаемости, которая содержит коллокации из рассмотренных в ходе первого этапа словарей, снабженные информацией из корпусов текстов. Согласно плану, работы включали следующие этапы: 1) проектирование базы данных и пользовательских режимов; 2) разработка методики представления информации в базе данных, в том числе специальной разметки; 3) создание списков словосочетаний с разметкой согласно лексикографическим источникам; 4) создание базы данных с загруженными эталонными данными и данными из корпусов; 5) разработка визуализации.
Второй год реализации проекта был посвящен разработке базы сочетаемости, которая включила коллокации из рассмотренных в ходе первого этапа словарей. Нами были объединены лемматизированные словосочетания, полученные из 9 разных источников, а также добавлена информация из корпусов текстов. База данных русскоязычных коллокаций включает в себя около 90 тыс. примеров различных синтаксических структур.
Были исследованы особенности лексических коллокаций, найденных в словарях, и их реализация в корпусах текстов. Словарные коллокации являются в статистическом смысле редкими (и даже в большинстве случаев уникальными в определенной степени) явлениями. Например, около 12% проанализированных атрибутивных коллокаций отличаются также очень низкими частотами (менее 0,01 ipm) даже в сверхбольшом Интернет-корпусе ruTenTen. Присутствие коллокаций в нескольких словарях указывает на их более высокие частоты в корпусах и, следовательно, воспроизводимость в речи. По итогам выполнения работ данного этапа было опубликовано 2 статьи и подготовлены к печати еще 2 публикации, а также сделаны доклады на международных семинарах и конференциях. На сайте collocations.spbu.ru представлена информация по проекту, а также доступен поиск по разработанной базе данных.
Хохлова Мария Владимировна, доцент: научное руководство проектом, подготовка материала, выделение словосочетаний из словарей, описание лексических и статистических коллокаций, проектирование базы данных, разработка методики представления словосочетаний, в том числе специальной разметки.
Мамаев Иван Дмитриевич, аспирант: проектирование пользовательских режимов базы данных, загрузка данных в систему, проверка словосочетаний, разработка визуализации.
| Acronym | RSF_MOL_2019 - 2 |
|---|
| Status | Finished |
|---|
| Effective start/end date | 1/07/20 → 30/06/21 |
|---|