DOI


Finding variables and statistical metrics to describe rank distributions of lexemes is a relevant linguistic task. We analyze the validity of lingvo-statistical parameters (the rank mean and entropy) for describing frequency dictionary of fiction. The comparative use of the Weibull and Haustein functions as approximating ones for the values of the parameters in question is also investigated. The research draws on a representative sample from the Corpus of the Russian Short Stories (1900–1930) (total volume is more than 1,000,000 tokens). The rank mean is shown to be only a relative valid parameter for describing a large-scale corpus of fiction, while the relative validity of entropy is greatly affected by the nature of the texts analyzed. TheWeibull function is proved to be the preferable one for the approximation of the parameters’ growth.
Язык оригиналаанглийский
Название основной публикацииLiterature, Language and Computing
Подзаголовок основной публикацииRussian Contribution from the LiLaC-2023
Место публикацииSingapore
ИздательSpringer Nature
Страницы15-21
Число страниц7
ISBN (электронное издание)978-981-96-0990-1
ISBN (печатное издание)978-981-96-0989-5
DOI
СостояниеОпубликовано - мар 2025
СобытиеМеждународная конференция «Литература, язык и
компьютерные технологии» (LiLaC: Literature, Language and Computing: Russian Contribution)
- СПбГУ, Санкт-Петербург, Российская Федерация
Продолжительность: 9 ноя 202311 ноя 2023
https://conference-spbu.ru/conference/49/

конференция

конференцияМеждународная конференция «Литература, язык и
компьютерные технологии» (LiLaC: Literature, Language and Computing: Russian Contribution)
Сокращенное названиеLiLaC 2023
Страна/TерриторияРоссийская Федерация
ГородСанкт-Петербург
Период9/11/2311/11/23
Сайт в сети Internet

ID: 133399730