Выделение русских заимствований в якутских текстах

Якутский язык включает в себя значительное количество русских заимствований. В процессе адаптации к якутскому языку русские основы могут претерпевать различные трансформации в соответствии с принципами якутского письма или сохранять исходное написание. Часто оба написания более или менее одинаково распространены для одних и тех же лексических единиц, и носители якутского языка сталкиваются с вопросом, какой вариант использовать. Правописание заимствований из русского языка актуально не только для областей языковой политики и языкового планирования: параллельно с усилиями по регламентации правильного написания ведутся исследования по установлению тенденции употребления. Для этого лексикографы должны просмотреть огромное количество письменного материала. Задачу выделения русских заимствований в якутских текстах можно сформулировать в рамках области исследования автоматической идентификации языка (language identification). Автоматическая идентификация языка (LI) относится к проблеме определения языка, на котором написан документ или его часть. В целом, LI может быть рассмотрена как задача классификации текста, то есть сопоставление документа с заранее определенным набором классов. В данной статье представлены результаты эксперимента по обучению классификатора для автоматического выделения русских заимствований в якутских текстах, сохранивших исходную орфографию. Классификатор реализован на основе модели 3-грамм.

Переведенное название	IDENTIFICATION OF RUSSIAN BORROWINGS IN YAKUT TEXTS
Язык оригинала	русский
Страницы (с-по)	41-54
Журнал	Компьютерная лингвистика и вычислительные онтологии
Номер выпуска	6
Состояние	Опубликовано - 2022
Событие	CompLing-2022 - ITMO University, Санкт-Петербург, Российская Федерация Продолжительность: 23 июн 2022 → 24 июн 2022 http://ims.ifmo.ru/ru/pages/2/programma.htm http://ims.ifmo.ru/ru

Области исследований

якутский язык, РУССКИЕ ЗАИМСТВОВАНИЯ, ИДЕНТИФИКАЦИЯ ЯЗЫКА, 3-ГРАММЫ, лексикография

ID: 104746232