Целью статьи является выработка методики формирования списков низкочастотных слов путем сравнения данных, предоставляемых русскими корпусами. В статье сравниваются частотные списки лемм, представленные в «Новом частотном словаре русской лексики» на базе НКРЯ и полученные на базе веб-корпуса ruTenTen11. Перед сравнением исходные списки были преобразованы; в результате преобразования получены списки общей длиной, соответственно, 51 681 слово и 457 935 слов. Сопоставлены списки слов, имеющих относительные частоты <5 ipm по данным хотя бы одного из корпусов. В качестве нижнего порога отсечения вынужденно выбрано значение абсолютной частоты, равное 37. Посчитаны значения мер «coverage» (охват) и «enrichment» (обогащение). Выяснилось, что мера «coverage», отражающая долю перекрытия между списками лемм, принимает значение в 9,4%.Исследование проведено при поддержке гранта РНФ, проект № 19-18-00525 «Понятность официального русского языка: юридическая и лингвистическая проблематика».
Original languageRussian
Article number1
Pages (from-to)7-13
Number of pages7
JournalСОЦИО- И ПСИХОЛИНГВИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ
Issue number7
StatePublished - 2019

    Scopus subject areas

  • Arts and Humanities(all)

ID: 49022243