Сложность русских правовых текстов: методы оценки и языковые данные

Ссылки

https://elibrary.ru/item.asp?id=47945380

Для создания модели автоматического определения сложности русских правовых текстов было необходимо собрать коллекцию таких текстов, разметить их, выделить параметры оценки сложности в применении к выбранному формату разметки. Эти шаги описываются в настоящей работе. Обозначается состав корпусов современных русских юридических текстов СorRIDA, CorDeс, CorCodex общим объемом 8,5 млн токенов. Описываются основания выбора инструментов лингвистической разметки (UDPipe, pymorphy2). Кратко характеризуются языковые признаки оценки сложности, среди которых: простейшие базовые метрики; пять формул читабельности; параметры оценки лексической сложности (значения TTR, Yule’s K, количество гапаксов, аббревиатур, абстрактных слов и мн. др.); параметры оценки морфосинтаксической и дискурсивной сложности (значения Noun-Verb Ratio; количество граммем генитива, среднего рода, пассива; относительных предложений, аппозитивных модификаторов, лексических средств дискурсивной связности и пр.).

Язык оригинала	русский
Страницы	175-182
Число страниц	7
Состояние	Опубликовано - 2021
Событие	Корпусная лингвистика - 2021: международная научная конференция - СПбГУ, Санкт-Петербург, Российская Федерация Продолжительность: 30 июн 2021 → 3 июл 2021

конференция

конференция	Корпусная лингвистика - 2021: международная научная конференция
Страна/Tерритория	Российская Федерация
Город	Санкт-Петербург
Период	30/06/21 → 3/07/21

Области исследований

языковая сложность, правовые документы, читабельность, лексическая сложность, морфосинтаксическая сложность, дискурсивная сложность, русские синхронные юридические корпусы

Предметные области Scopus

Гуманитарные науки и искусство (все)

ID: 93138164