Research output: Contribution to journal › Article › peer-review
Семантическая классификация русских предложных конструкций с использованием моделей Transformer. / Белый, Андрей Владимирович; Бойцова, Дарья Валерьевна; Ботвиньева, Екатерина Александровна; Выборная, Вероника Витальевна; Гончарова, Алина Максимовна; Митрофанова, Ольга Александровна; Родина, Анна Андреевна.
In: International Journal of Open Information Technologies, Vol. 12, No. 12, 12.2024, p. 85-95.Research output: Contribution to journal › Article › peer-review
}
TY - JOUR
T1 - Семантическая классификация русских предложных конструкций с использованием моделей Transformer
AU - Белый, Андрей Владимирович
AU - Бойцова, Дарья Валерьевна
AU - Ботвиньева, Екатерина Александровна
AU - Выборная, Вероника Витальевна
AU - Гончарова, Алина Максимовна
AU - Митрофанова, Ольга Александровна
AU - Родина, Анна Андреевна
PY - 2024/12
Y1 - 2024/12
N2 - В статье обсуждаются частотные характеристики соотношения предлогов и их значений в базе данных русских предложных конструкций и решается задача разработки эффективного семантического классификатора предложных конструкций. Представленный в статье ресурс был создан в рамках проекта кафедры математической лингвистики Санкт-Петербургского государственного университета «Квантитативная грамматика русских предложных конструкций». Дополнительным источником данных для исследования послужил корпус из 200 синтаксически неоднозначных предложений, заимствованных из диссертационного исследования Д.А. Черновой «Процесс обработки синтаксически неоднозначных предложений: психолингвистическое исследование». В данной работе предлагается принципиально новая древовидная архитектура классификатора, состоящая из главного многоклассового и вспомогательного бинарного классификаторов. Данное решение значительно улучшает качество классификации по сравнению с предыдущими исследованиями. В серии экспериментов лучшее решение основано на классификаторе SVM и модели DeepPavlov/rubert-base-cased, что обеспечивает значение F1-меры 0,76.
AB - В статье обсуждаются частотные характеристики соотношения предлогов и их значений в базе данных русских предложных конструкций и решается задача разработки эффективного семантического классификатора предложных конструкций. Представленный в статье ресурс был создан в рамках проекта кафедры математической лингвистики Санкт-Петербургского государственного университета «Квантитативная грамматика русских предложных конструкций». Дополнительным источником данных для исследования послужил корпус из 200 синтаксически неоднозначных предложений, заимствованных из диссертационного исследования Д.А. Черновой «Процесс обработки синтаксически неоднозначных предложений: психолингвистическое исследование». В данной работе предлагается принципиально новая древовидная архитектура классификатора, состоящая из главного многоклассового и вспомогательного бинарного классификаторов. Данное решение значительно улучшает качество классификации по сравнению с предыдущими исследованиями. В серии экспериментов лучшее решение основано на классификаторе SVM и модели DeepPavlov/rubert-base-cased, что обеспечивает значение F1-меры 0,76.
KW - предложные конструкции
KW - синтаксемы
KW - разрешение неоднозначности
KW - классификация контекстов
KW - языковые модели
M3 - статья
VL - 12
SP - 85
EP - 95
JO - International Journal of Open Information Technologies
JF - International Journal of Open Information Technologies
SN - 2307-8162
IS - 12
ER -
ID: 140489144