описание для неспециалистов

Второй год реализации проекта был посвящен разработке базы сочетаемости, которая содержит коллокации из рассмотренных в ходе первого этапа словарей, снабженные информацией из корпусов текстов. Согласно плану, работы включали следующие этапы: 1) проектирование базы данных и пользовательских режимов; 2) разработка методики представления информации в базе данных, в том числе специальной разметки; 3) создание списков словосочетаний с разметкой согласно лексикографическим источникам; 4) создание базы данных с загруженными эталонными данными и данными из корпусов; 5) разработка визуализации.

основные результаты по этапу (кратко)

Второй год реализации проекта был посвящен разработке базы сочетаемости, которая включила коллокации из рассмотренных в ходе первого этапа словарей. Нами были объединены лемматизированные словосочетания, полученные из 9 разных источников, а также добавлена информация из корпусов текстов. База данных русскоязычных коллокаций включает в себя около 90 тыс. примеров различных синтаксических структур.
Были исследованы особенности лексических коллокаций, найденных в словарях, и их реализация в корпусах текстов. Словарные коллокации являются в статистическом смысле редкими (и даже в большинстве случаев уникальными в определенной степени) явлениями. Например, около 12% проанализированных атрибутивных коллокаций отличаются также очень низкими частотами (менее 0,01 ipm) даже в сверхбольшом Интернет-корпусе ruTenTen. Присутствие коллокаций в нескольких словарях указывает на их более высокие частоты в корпусах и, следовательно, воспроизводимость в речи. По итогам выполнения работ данного этапа было опубликовано 2 статьи и подготовлены к печати еще 2 публикации, а также сделаны доклады на международных семинарах и конференциях. На сайте collocations.spbu.ru представлена информация по проекту, а также доступен поиск по разработанной базе данных.

описание вклада в работу каждого из участников (учётная форма ЦИТиС)

Хохлова Мария Владимировна, доцент: научное руководство проектом, подготовка материала, выделение словосочетаний из словарей, описание лексических и статистических коллокаций, проектирование базы данных, разработка методики представления словосочетаний, в том числе специальной разметки.
Мамаев Иван Дмитриевич, аспирант: проектирование пользовательских режимов базы данных, загрузка данных в систему, проверка словосочетаний, разработка визуализации.

передача полной копии отчёта третьим лицам для некоммерческого использования: разрешается/не разрешается (учётная форма ЦИТиС)

не разрешается

проверка отчёта на неправомерные заимствования во внешних источниках: разрешается/не разрешается (учётная форма ЦИТиС)

разрешается
АкронимRSF_MOL_2019 - 2
СтатусЗавершено
Эффективные даты начала/конца1/07/2030/06/21

    Области исследований

  • коллокации, сочетаемость, база данных, лексика, словари, корпус текстов, русский язык

ID: 60401376