Моделирование зон частотного словаря для оценки лексической сложности русских текстов | Modeling lemma frequency bands for lexical complexity assessment of Russian texts

Доклад посвящён проблеме моделирования общеязыковой частотности с использованием данных больших русских корпусов. Нашей целью является выработка методики формирования общего частотного списка, который в дальнейшем можно будет использовать в том числе для оценки лексической сложности русских текстов.
Мы сравнили 4 частотных списка, основанных на материале 4-х корпусов (Национального корпуса русского языка (НКРЯ), ruTenTen11, Araneum Russicum III Maximum, Taiga). Во-первых, мы применили классический ранговый корреляционный анализ. Во-вторых, мы использовали меры «coverage» и «enrichment». В-третьих, мы применили меру «сумма минимальных частот». Мы выяснили, что между сравниваемыми списками есть существенные различия и в рангах лемм, и в их относительных частотах. Применение меры «coverage» показало, что частотные списки ни в коем случае не взаимозаменяемы. Следовательно, при составлении сводного частотного списка мы не можем обойтись без какого-либо из сравниваемых корпусов.
Для более подробного сравнения частотных списков по различным частотным диапазонам мы разделили ранжированный частотный список НКРЯ на 4 равных части. Затем мы сформировали 4 случайных выборки (содержащие по 20 лемм из каждого квартиля). Из-за большого диапазона показателей ipm конкретные показатели относительных частот трудно интерпретировать. Кроме того, не существует надёжных порогов, отделяющих высокочастотные, среднечастотные и низкочастотные леммы. Между тем, для оценки лексической сложности текстов полезно иметь удобный способ распределения лемм с определёнными частотами по зонам частотного списка. Поэтому мы вслед за [Chen, Meurers 2016] решили присваивать леммам значения «Zipf-value», см. [Van Heuven et al. 2014], что сделало данные о частотности интерпретируемыми, поскольку диапазон значений меры невелик.
Результатом нашей работы должен стать справочный ресурс под названием «Фреквентатор», который позволит получать интерпретируемую информацию о частотности слов.

17 июн 2020 → 20 июн 2020

Событие (конференция)

Заголовок	26-я Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог»
Период	17/06/20 → 20/06/20
Веб-адрес (URL-адрес)	http://www.dialog-21.ru/
Местоположение
Город
Степень признания	международный уровень

Ссылки

https://www.youtube.com/watch?reload=9&v=pCLxwPp_lvA

ID: 73139147