Выделение русских заимствований в якутских текстах

Standard

Выделение русских заимствований в якутских текстах. / Кортегосо Виссио, Николас ; Захаров, Виктор Павлович.

In: Компьютерная лингвистика и вычислительные онтологии, No. 6, 2022, p. 41-54.

Research output: Contribution to journal › Conference article › peer-review

BibTeX

@article{f88f31f1ba1b4547806dbf58be55f7d6,

title = "Выделение русских заимствований в якутских текстах",

abstract = "Якутский язык включает в себя значительное количество русских заимствований. В процессе адаптации к якутскому языку русские основы могут претерпевать различные трансформации в соответствии с принципами якутского письма или сохранять исходное написание. Часто оба написания более или менее одинаково распространены для одних и тех же лексических единиц, и носители якутского языка сталкиваются с вопросом, какой вариант использовать. Правописание заимствований из русского языка актуально не только для областей языковой политики и языкового планирования: параллельно с усилиями по регламентации правильного написания ведутся исследования по установлению тенденции употребления. Для этого лексикографы должны просмотреть огромное количество письменного материала. Задачу выделения русских заимствований в якутских текстах можно сформулировать в рамках области исследования автоматической идентификации языка (language identification). Автоматическая идентификация языка (LI) относится к проблеме определения языка, на котором написан документ или его часть. В целом, LI может быть рассмотрена как задача классификации текста, то есть сопоставление документа с заранее определенным набором классов. В данной статье представлены результаты эксперимента по обучению классификатора для автоматического выделения русских заимствований в якутских текстах, сохранивших исходную орфографию. Классификатор реализован на основе модели 3-грамм.",

keywords = "якутский язык, РУССКИЕ ЗАИМСТВОВАНИЯ, ИДЕНТИФИКАЦИЯ ЯЗЫКА, 3-ГРАММЫ, лексикография, YAKUT LANGUAGE, RUSSIAN LOANWORDS, language identification, 3-GRAM MODEL, lexicography",

author = "{Кортегосо Виссио}, Николас and Захаров, {Виктор Павлович}",

note = "Кортегосо Виссио Н., Захаров В.П. Выделение русских заимствований в якутских текстах // Компьютерная лингвистика и вычислительные онтологии. Выпуск 6 (Труды XXV Международной объединенной конференции «Интернет и современное общество, IMS-2022, Санкт-Петербург, 24 - 25 июня 2022 г. Сборник научных статей). СПб: Университет ИТМО, 2022. С. 41-54.; CompLing-2022 ; Conference date: 23-06-2022 Through 24-06-2022",

year = "2022",

language = "русский",

pages = "41--54",

journal = "Компьютерная лингвистика и вычислительные онтологии",

issn = "2541-9781",

publisher = "НИУ ИТМО",

number = "6",

url = "http://ims.ifmo.ru/ru/pages/2/programma.htm, http://ims.ifmo.ru/ru",

}

RIS

TY - JOUR

T1 - Выделение русских заимствований в якутских текстах

AU - Кортегосо Виссио, Николас

AU - Захаров, Виктор Павлович

N1 - Кортегосо Виссио Н., Захаров В.П. Выделение русских заимствований в якутских текстах // Компьютерная лингвистика и вычислительные онтологии. Выпуск 6 (Труды XXV Международной объединенной конференции «Интернет и современное общество, IMS-2022, Санкт-Петербург, 24 - 25 июня 2022 г. Сборник научных статей). СПб: Университет ИТМО, 2022. С. 41-54.

PY - 2022

Y1 - 2022

N2 - Якутский язык включает в себя значительное количество русских заимствований. В процессе адаптации к якутскому языку русские основы могут претерпевать различные трансформации в соответствии с принципами якутского письма или сохранять исходное написание. Часто оба написания более или менее одинаково распространены для одних и тех же лексических единиц, и носители якутского языка сталкиваются с вопросом, какой вариант использовать. Правописание заимствований из русского языка актуально не только для областей языковой политики и языкового планирования: параллельно с усилиями по регламентации правильного написания ведутся исследования по установлению тенденции употребления. Для этого лексикографы должны просмотреть огромное количество письменного материала. Задачу выделения русских заимствований в якутских текстах можно сформулировать в рамках области исследования автоматической идентификации языка (language identification). Автоматическая идентификация языка (LI) относится к проблеме определения языка, на котором написан документ или его часть. В целом, LI может быть рассмотрена как задача классификации текста, то есть сопоставление документа с заранее определенным набором классов. В данной статье представлены результаты эксперимента по обучению классификатора для автоматического выделения русских заимствований в якутских текстах, сохранивших исходную орфографию. Классификатор реализован на основе модели 3-грамм.

AB - Якутский язык включает в себя значительное количество русских заимствований. В процессе адаптации к якутскому языку русские основы могут претерпевать различные трансформации в соответствии с принципами якутского письма или сохранять исходное написание. Часто оба написания более или менее одинаково распространены для одних и тех же лексических единиц, и носители якутского языка сталкиваются с вопросом, какой вариант использовать. Правописание заимствований из русского языка актуально не только для областей языковой политики и языкового планирования: параллельно с усилиями по регламентации правильного написания ведутся исследования по установлению тенденции употребления. Для этого лексикографы должны просмотреть огромное количество письменного материала. Задачу выделения русских заимствований в якутских текстах можно сформулировать в рамках области исследования автоматической идентификации языка (language identification). Автоматическая идентификация языка (LI) относится к проблеме определения языка, на котором написан документ или его часть. В целом, LI может быть рассмотрена как задача классификации текста, то есть сопоставление документа с заранее определенным набором классов. В данной статье представлены результаты эксперимента по обучению классификатора для автоматического выделения русских заимствований в якутских текстах, сохранивших исходную орфографию. Классификатор реализован на основе модели 3-грамм.

KW - якутский язык

KW - РУССКИЕ ЗАИМСТВОВАНИЯ

KW - ИДЕНТИФИКАЦИЯ ЯЗЫКА

KW - 3-ГРАММЫ

KW - лексикография

KW - YAKUT LANGUAGE

KW - RUSSIAN LOANWORDS

KW - language identification

KW - 3-GRAM MODEL

KW - lexicography

UR - https://elibrary.ru/item.asp?id=50188912

M3 - статья в журнале по материалам конференции

SP - 41

EP - 54

JO - Компьютерная лингвистика и вычислительные онтологии

JF - Компьютерная лингвистика и вычислительные онтологии

SN - 2541-9781

IS - 6

T2 - CompLing-2022

Y2 - 23 June 2022 through 24 June 2022

ER -

ID: 104746232