Research output: Contribution to journal › Conference article › peer-review
Выделение русских заимствований в якутских текстах. / Кортегосо Виссио, Николас; Захаров, Виктор Павлович.
In: Компьютерная лингвистика и вычислительные онтологии, No. 6, 2022, p. 41-54.Research output: Contribution to journal › Conference article › peer-review
}
TY - JOUR
T1 - Выделение русских заимствований в якутских текстах
AU - Кортегосо Виссио, Николас
AU - Захаров, Виктор Павлович
N1 - Conference code: XXIV
PY - 2022
Y1 - 2022
N2 - Якутский язык включает в себя значительное количество русских заимствований. В процессе адаптации к якутскому языку русские основы могут претерпевать различные трансформации в соответствии с принципами якутского письма или сохранять исходное написание. Часто оба написания более или менее одинаково распространены для одних и тех же лексических единиц, и носители якутского языка сталкиваются с вопросом, какой вариант использовать. Правописание заимствований из русского языка актуально не только для областей языковой политики и языкового планирования: параллельно с усилиями по регламентации правильного написания ведутся исследования по установлению тенденции употребления. Для этого лексикографы должны просмотреть огромное количество письменного материала. Задачу выделения русских заимствований в якутских текстах можно сформулировать в рамках области исследования автоматической идентификации языка (language identification). Автоматическая идентификация языка (LI) относится к проблеме определения языка, на котором написан документ или его часть. В целом, LI может быть рассмотрена как задача классификации текста, то есть сопоставление документа с заранее определенным набором классов. В данной статье представлены результаты эксперимента по обучению классификатора для автоматического выделения русских заимствований в якутских текстах, сохранивших исходную орфографию. Классификатор реализован на основе модели 3-грамм.
AB - Якутский язык включает в себя значительное количество русских заимствований. В процессе адаптации к якутскому языку русские основы могут претерпевать различные трансформации в соответствии с принципами якутского письма или сохранять исходное написание. Часто оба написания более или менее одинаково распространены для одних и тех же лексических единиц, и носители якутского языка сталкиваются с вопросом, какой вариант использовать. Правописание заимствований из русского языка актуально не только для областей языковой политики и языкового планирования: параллельно с усилиями по регламентации правильного написания ведутся исследования по установлению тенденции употребления. Для этого лексикографы должны просмотреть огромное количество письменного материала. Задачу выделения русских заимствований в якутских текстах можно сформулировать в рамках области исследования автоматической идентификации языка (language identification). Автоматическая идентификация языка (LI) относится к проблеме определения языка, на котором написан документ или его часть. В целом, LI может быть рассмотрена как задача классификации текста, то есть сопоставление документа с заранее определенным набором классов. В данной статье представлены результаты эксперимента по обучению классификатора для автоматического выделения русских заимствований в якутских текстах, сохранивших исходную орфографию. Классификатор реализован на основе модели 3-грамм.
KW - якутский язык
KW - РУССКИЕ ЗАИМСТВОВАНИЯ
KW - ИДЕНТИФИКАЦИЯ ЯЗЫКА
KW - 3-ГРАММЫ
KW - лексикография
KW - YAKUT LANGUAGE
KW - RUSSIAN LOANWORDS
KW - language identification
KW - 3-GRAM MODEL
KW - lexicography
UR - https://elibrary.ru/item.asp?id=50188912
M3 - статья в журнале по материалам конференции
SP - 41
EP - 54
JO - Компьютерная лингвистика и вычислительные онтологии
JF - Компьютерная лингвистика и вычислительные онтологии
SN - 2541-9781
IS - 6
Y2 - 23 June 2022 through 24 June 2022
ER -
ID: 104746232