Ссылки

Целью статьи является выработка методики формирования списков низкочастотных слов путем сравнения данных, предоставляемых русскими корпусами. В статье сравниваются частотные списки лемм, представленные в «Новом частотном словаре русской лексики» на базе НКРЯ и полученные на базе веб-корпуса ruTenTen11. Перед сравнением исходные списки были преобразованы; в результате преобразования получены списки общей длиной, соответственно, 51 681 слово и 457 935 слов. Сопоставлены списки слов, имеющих относительные частоты <5 ipm по данным хотя бы одного из корпусов. В качестве нижнего порога отсечения вынужденно выбрано значение абсолютной частоты, равное 37. Посчитаны значения мер «coverage» (охват) и «enrichment» (обогащение). Выяснилось, что мера «coverage», отражающая долю перекрытия между списками лемм, принимает значение в 9,4%.Исследование проведено при поддержке гранта РНФ, проект № 19-18-00525 «Понятность официального русского языка: юридическая и лингвистическая проблематика».
Язык оригиналарусский
Номер статьи1
Страницы (с-по)7-13
Число страниц7
ЖурналСОЦИО- И ПСИХОЛИНГВИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ
Номер выпуска7
СостояниеОпубликовано - 2019

    Области исследований

  • русский язык, языковые корпусы, веб-корпусы, частотный список лемм, общеязыковая частотность, низкочастотные слова, лексическая сложность

    Предметные области Scopus

  • Гуманитарные науки и искусство (все)

ID: 49022243