Сложность русских правовых текстов: методы оценки и языковые данные

Ольга Владимировна Блинова - Основной докладчик

Для создания модели автоматического определения сложности русских правовых текстов было необходимо: собрать коллекцию таких текстов, разметить их, выделить параметры оценки сложности в применение к выбранному формату разметки. Эти шаги описываются в настоящей работе. Обозначается состав корпусов современных русских юридических текстов “СorRIDA”, “CorDeс”, “CorCodex” общим объёмом 8,5 млн токенов. Описываются основания выбора инструментов лингвистической разметки (UDPipe, pymorphy2). Кратко характеризуются языковые признаки оценки сложности, среди которых: простейшие базовые метрики; пять формул читабельности; параметры оценки лексической сложности (значения TTR, Yule's K, количество гапаксов, аббревиатур, абстрактных слов и мн. др.); параметры оценки морфосинтаксической и дискурсивной сложности (значения Noun-Verb Ratio; количество граммем генитива, среднего рода, пассива; относительных предложений, аппозитивных модификаторов, лексических средств дискурсивной связности и пр.).

3 июл 2021

Событие (конференция)

Заголовок	Корпусная лингвистика - 2021: международная научная конференция
Период	30/06/21 → 3/07/21
Местоположение	СПбГУ
Город	Санкт-Петербург
Страна/Tерритория	Российская Федерация
Степень признания	международный уровень

Ссылки

ID: 86420721