Моделирование зон частотного словаря для оценки лексической сложности русских текстов | Modeling lemma frequency bands for lexical complexity assessment of Russian texts

Блинова, О. В. (Докладчик), Тарасов, Н. А. (Докладчик), Модина, В. В. (Докладчик), Блеканов, И. С. (Докладчик)

Деятельность: выступлениевыступление с устной презентацией

Описание

Доклад посвящён проблеме моделирования общеязыковой частотности с использованием данных больших русских корпусов. Нашей целью является выработка методики формирования общего частотного списка, который в дальнейшем можно будет использовать в том числе для оценки лексической сложности русских текстов.
Мы сравнили 4 частотных списка, основанных на материале 4-х корпусов (Национального корпуса русского языка (НКРЯ), ruTenTen11, Araneum Russicum III Maximum, Taiga). Во-первых, мы применили классический ранговый корреляционный анализ. Во-вторых, мы использовали меры «coverage» и «enrichment». В-третьих, мы применили меру «сумма минимальных частот». Мы выяснили, что между сравниваемыми списками есть существенные различия и в рангах лемм, и в их относительных частотах. Применение меры «coverage» показало, что частотные списки ни в коем случае не взаимозаменяемы. Следовательно, при составлении сводного частотного списка мы не можем обойтись без какого-либо из сравниваемых корпусов.
Для более подробного сравнения частотных списков по различным частотным диапазонам мы разделили ранжированный частотный список НКРЯ на 4 равных части. Затем мы сформировали 4 случайных выборки (содержащие по 20 лемм из каждого квартиля). Из-за большого диапазона показателей ipm конкретные показатели относительных частот трудно интерпретировать. Кроме того, не существует надёжных порогов, отделяющих высокочастотные, среднечастотные и низкочастотные леммы. Между тем, для оценки лексической сложности текстов полезно иметь удобный способ распределения лемм с определёнными частотами по зонам частотного списка. Поэтому мы вслед за [Chen, Meurers 2016] решили присваивать леммам значения «Zipf-value», см. [Van Heuven et al. 2014], что сделало данные о частотности интерпретируемыми, поскольку диапазон значений меры невелик.
Результатом нашей работы должен стать справочный ресурс под названием «Фреквентатор», который позволит получать интерпретируемую информацию о частотности слов.

Результаты

Исследование выполнено при поддержке гранта РНФ № 19-18-00525 «Понятность официального русского языка: юридическая и лингвистическая проблематика».
Период17 июн 202020 июн 2020
Название события26-я Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог» : null
Тип мероприятияконференция
Степень признанияМеждународная

Ключевые слова

  • Russian
  • linguistic corpora
  • lemma frequency lists
  • general-language frequency
  • frequency bands
  • low-frequency word
  • lexical complexit