Layman's description

Второй год реализации проекта был посвящен разработке базы сочетаемости, которая содержит коллокации из рассмотренных в ходе первого этапа словарей, снабженные информацией из корпусов текстов. Согласно плану, работы включали следующие этапы: 1) проектирование базы данных и пользовательских режимов; 2) разработка методики представления информации в базе данных, в том числе специальной разметки; 3) создание списков словосочетаний с разметкой согласно лексикографическим источникам; 4) создание базы данных с загруженными эталонными данными и данными из корпусов; 5) разработка визуализации.

Key findings for the stage (summarized)

Второй год реализации проекта был посвящен разработке базы сочетаемости, которая включила коллокации из рассмотренных в ходе первого этапа словарей. Нами были объединены лемматизированные словосочетания, полученные из 9 разных источников, а также добавлена информация из корпусов текстов. База данных русскоязычных коллокаций включает в себя около 90 тыс. примеров различных синтаксических структур.
Были исследованы особенности лексических коллокаций, найденных в словарях, и их реализация в корпусах текстов. Словарные коллокации являются в статистическом смысле редкими (и даже в большинстве случаев уникальными в определенной степени) явлениями. Например, около 12% проанализированных атрибутивных коллокаций отличаются также очень низкими частотами (менее 0,01 ipm) даже в сверхбольшом Интернет-корпусе ruTenTen. Присутствие коллокаций в нескольких словарях указывает на их более высокие частоты в корпусах и, следовательно, воспроизводимость в речи. По итогам выполнения работ данного этапа было опубликовано 2 статьи и подготовлены к печати еще 2 публикации, а также сделаны доклады на международных семинарах и конференциях. На сайте collocations.spbu.ru представлена информация по проекту, а также доступен поиск по разработанной базе данных.

Academic ownership of participants (text description)

Хохлова Мария Владимировна, доцент: научное руководство проектом, подготовка материала, выделение словосочетаний из словарей, описание лексических и статистических коллокаций, проектирование базы данных, разработка методики представления словосочетаний, в том числе специальной разметки.
Мамаев Иван Дмитриевич, аспирант: проектирование пользовательских режимов базы данных, загрузка данных в систему, проверка словосочетаний, разработка визуализации.

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

не разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

разрешается
AcronymRSF_MOL_2019 - 2
StatusFinished
Effective start/end date1/07/2030/06/21

ID: 60401376