Ссылки

В статье обсуждаются частотные характеристики соотношения предлогов и их значений в базе данных русских предложных конструкций и решается задача разработки эффективного семантического классификатора предложных конструкций. Представленный в статье ресурс был создан в рамках проекта кафедры математической лингвистики Санкт-Петербургского государственного университета «Квантитативная грамматика русских предложных конструкций». Дополнительным источником данных для исследования послужил корпус из 200 синтаксически неоднозначных предложений, заимствованных из диссертационного исследования Д.А. Черновой «Процесс обработки синтаксически неоднозначных предложений: психолингвистическое исследование». В данной работе предлагается принципиально новая древовидная архитектура классификатора, состоящая из главного многоклассового и вспомогательного бинарного классификаторов. Данное решение значительно улучшает качество классификации по сравнению с предыдущими исследованиями. В серии экспериментов лучшее решение основано на классификаторе SVM и модели DeepPavlov/rubert-base-cased, что обеспечивает значение F1-меры 0,76.
Язык оригиналарусский
Страницы (с-по)85-95
Число страниц11
ЖурналInternational Journal of Open Information Technologies
Том12
Номер выпуска12
СостояниеОпубликовано - дек 2024

    Области исследований

  • предложные конструкции, синтаксемы, разрешение неоднозначности, классификация контекстов, языковые модели

ID: 140489144