Ольга Владимировна Блинова - Докладчик

Никита Андреевич Тарасов - Докладчик

Валерия Викторовна Модина - Докладчик

Иван Станиславович Блеканов - Докладчик

Доклад посвящён проблеме моделирования общеязыковой частотности с использованием данных больших русских корпусов. Нашей целью является выработка методики формирования общего частотного списка, который в дальнейшем можно будет использовать в том числе для оценки лексической сложности русских текстов.
Мы сравнили 4 частотных списка, основанных на материале 4-х корпусов (Национального корпуса русского языка (НКРЯ), ruTenTen11, Araneum Russicum III Maximum, Taiga). Во-первых, мы применили классический ранговый корреляционный анализ. Во-вторых, мы использовали меры «coverage» и «enrichment». В-третьих, мы применили меру «сумма минимальных частот». Мы выяснили, что между сравниваемыми списками есть существенные различия и в рангах лемм, и в их относительных частотах. Применение меры «coverage» показало, что частотные списки ни в коем случае не взаимозаменяемы. Следовательно, при составлении сводного частотного списка мы не можем обойтись без какого-либо из сравниваемых корпусов.
Для более подробного сравнения частотных списков по различным частотным диапазонам мы разделили ранжированный частотный список НКРЯ на 4 равных части. Затем мы сформировали 4 случайных выборки (содержащие по 20 лемм из каждого квартиля). Из-за большого диапазона показателей ipm конкретные показатели относительных частот трудно интерпретировать. Кроме того, не существует надёжных порогов, отделяющих высокочастотные, среднечастотные и низкочастотные леммы. Между тем, для оценки лексической сложности текстов полезно иметь удобный способ распределения лемм с определёнными частотами по зонам частотного списка. Поэтому мы вслед за [Chen, Meurers 2016] решили присваивать леммам значения «Zipf-value», см. [Van Heuven et al. 2014], что сделало данные о частотности интерпретируемыми, поскольку диапазон значений меры невелик.
Результатом нашей работы должен стать справочный ресурс под названием «Фреквентатор», который позволит получать интерпретируемую информацию о частотности слов.
17 июн 202020 июн 2020

Событие (конференция)

Заголовок26-я Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог»
Период17/06/2020/06/20
Веб-адрес (URL-адрес)
Местоположение
Город
Степень признаниямеждународный уровень

ID: 73139147