Якутский язык включает в себя значительное количество русских заимствований. В процессе адаптации к якутскому языку русские основы могут претерпевать различные трансформации в соответствии с принципами якутского письма или сохранять исходное написание. Часто оба написания более или менее одинаково распространены для одних и тех же лексических единиц, и носители якутского языка сталкиваются с вопросом, какой вариант использовать. Правописание заимствований из русского языка актуально не только для областей языковой политики и языкового планирования: параллельно с усилиями по регламентации правильного написания ведутся исследования по установлению тенденции употребления. Для этого лексикографы должны просмотреть огромное количество письменного материала. Задачу выделения русских заимствований в якутских текстах можно сформулировать в рамках области исследования автоматической идентификации языка (language identification). Автоматическая идентификация языка (LI) относится к проблеме определения языка, на котором написан документ или его часть. В целом, LI может быть рассмотрена как задача классификации текста, то есть сопоставление документа с заранее определенным набором классов. В данной статье представлены результаты эксперимента по обучению классификатора для автоматического выделения русских заимствований в якутских текстах, сохранивших исходную орфографию. Классификатор реализован на основе модели 3-грамм.
Переведенное названиеIDENTIFICATION OF RUSSIAN BORROWINGS IN YAKUT TEXTS
Язык оригиналарусский
Страницы (с-по)41-54
ЖурналКомпьютерная лингвистика и вычислительные онтологии
Номер выпуска6
СостояниеОпубликовано - 2022
СобытиеInternational Conference "Internet and Modern Society" (IMS-2022): International Workshop «Computational Linguistics» (CompLing-2022) - ITMO University, Санкт-Петербург, Российская Федерация
Продолжительность: 23 июн 202224 июн 2022
Номер конференции: XXIV
http://ims.ifmo.ru/ru/pages/2/programma.htm
http://ims.ifmo.ru/ru

    Области исследований

  • якутский язык, РУССКИЕ ЗАИМСТВОВАНИЯ, ИДЕНТИФИКАЦИЯ ЯЗЫКА, 3-ГРАММЫ, лексикография

ID: 104746232