Research output: Contribution to journal › Article › peer-review
Применение синтаксических парсеров для турецкого языка в задаче разметки кыргызских синтаксических корпусов. / Алексеев, Антон Михайлович; Тиллабаева, Алина; Кабаева, Гульнара; Николенко, Сергей.
In: Записки научных семинаров ПОМИ, Vol. 540, No. Исследования по прикладной математике и информатике. IV, 2024, p. 252-275.Research output: Contribution to journal › Article › peer-review
}
TY - JOUR
T1 - Применение синтаксических парсеров для турецкого языка в задаче разметки кыргызских синтаксических корпусов
AU - Алексеев, Антон Михайлович
AU - Тиллабаева, Алина
AU - Кабаева, Гульнара
AU - Николенко, Сергей
N1 - Англоязычная версия этой статьи будет опубликована в журнале Journal of Mathematical Sciences (Springer), вероятно, в 2025 году
PY - 2024
Y1 - 2024
N2 - Кыргызский (киргизский) язык, как один из малоресурсных, требует значительных усилий для создания качественных синтаксических корпусов. В данной работе предложен вариант подхода, упрощающего процесс разработки синтаксического корпуса для кыргызского языка. В настоящей работе представлен инструмент для переноса синтаксической разметки с турецкого языка на кыргызский, основанный на методе машинного перевода трибанков. Эффективность предложенного инструмента была оценена с использованием трибанка TueCL. Результаты исследования показывают, что данный подход обеспечивает более высокую точность синтаксической разметки по сравнению с моноязычной моделью, обученной на кыргызском трибанке KTMU. Кроме того, в работе предлагается метод оценки сложности ручного аннотирования полученных синтаксических деревьев.
AB - Кыргызский (киргизский) язык, как один из малоресурсных, требует значительных усилий для создания качественных синтаксических корпусов. В данной работе предложен вариант подхода, упрощающего процесс разработки синтаксического корпуса для кыргызского языка. В настоящей работе представлен инструмент для переноса синтаксической разметки с турецкого языка на кыргызский, основанный на методе машинного перевода трибанков. Эффективность предложенного инструмента была оценена с использованием трибанка TueCL. Результаты исследования показывают, что данный подход обеспечивает более высокую точность синтаксической разметки по сравнению с моноязычной моделью, обученной на кыргызском трибанке KTMU. Кроме того, в работе предлагается метод оценки сложности ручного аннотирования полученных синтаксических деревьев.
KW - обработка естественного языка
KW - обработка кыргызского языка
KW - машинный перевод
KW - грамматика зависимостей
KW - языки с малым количеством ресурсов
UR - http://www.pdmi.ras.ru/znsl/2024/v540/abs252.html
UR - https://arxiv.org/pdf/2412.13146
M3 - статья
VL - 540
SP - 252
EP - 275
JO - ЗАПИСКИ НАУЧНЫХ СЕМИНАРОВ САНКТ-ПЕТЕРБУРГСКОГО ОТДЕЛЕНИЯ МАТЕМАТИЧЕСКОГО ИНСТИТУТА ИМ. В.А. СТЕКЛОВА РАН
JF - ЗАПИСКИ НАУЧНЫХ СЕМИНАРОВ САНКТ-ПЕТЕРБУРГСКОГО ОТДЕЛЕНИЯ МАТЕМАТИЧЕСКОГО ИНСТИТУТА ИМ. В.А. СТЕКЛОВА РАН
SN - 0373-2703
IS - Исследования по прикладной математике и информатике. IV
ER -
ID: 132514657