Кыргызский (киргизский) язык, как один из малоресурсных, требует значительных усилий для создания качественных синтаксических корпусов. В данной работе предложен вариант подхода, упрощающего процесс разработки синтаксического корпуса для кыргызского языка. В настоящей работе представлен инструмент для переноса синтаксической разметки с турецкого языка на кыргызский, основанный на методе машинного перевода трибанков. Эффективность предложенного инструмента была оценена с использованием трибанка TueCL. Результаты исследования показывают, что данный подход обеспечивает более высокую точность синтаксической разметки по сравнению с моноязычной моделью, обученной на кыргызском трибанке KTMU. Кроме того, в работе предлагается метод оценки сложности ручного аннотирования полученных синтаксических деревьев.
Original languageRussian
Pages (from-to)252-275
JournalЗаписки научных семинаров ПОМИ
Volume540
Issue numberИсследования по прикладной математике и информатике. IV
StatePublished - 2024

    Scopus subject areas

  • Information Systems
  • Artificial Intelligence
  • Language and Linguistics

ID: 132514657