Документы

  • Blinova_MIRS0222_inet

    Конечная издательская версия, 195 KB, Документ PDF

В статье описана основанная на метриках модель оценки сложности русских правовых текстов. Архитектура модели подразумевает использование 130 метрик, разделённых на следующие категории: «базовые метрики», «формулы читабельности», «учёт слов разных частеречных классов», «n-граммы частеречных помет», «частотность лемм», «словообразовательные модели», «отдельные граммемы», «лексические и семантические признаки, неоднословные выражения», «синтаксические признаки», «оценки связности». Две метрики учитывают гипертекстовые связи и наличие неопределённых контекстов. Модель способна оценивать и структурную, и понятийную, и интертекстуальную сложность, привлекая и традиционно используемые для предсказания сложности неспецифичные метрики, и метрики стилеспецифичные, разработанные с оглядкой на особенности организации официально-деловых текстов. При подсчёте морфологических и синтаксических признаков модель обращается к слоям разметки, выполненной UDPipe (“ru-syntagrus”) и pymorphy2. Для обеспечения работы модели создан ряд пользовательских словарей, среди которых: список лексических средств текстового дейксиса, список графических сокращений (1,5 тыс. единиц), список аббревиатур (2 тыс. единиц), список юридических терминов (10 тыс. единиц), список абстрактных лемм (17 тыс. единиц), список однословных лексических показателей деонтической возможности и необходимости, список конструкций с лёгкими глаголами. Значения метрик сложности подсчитаны для всех документов корпуса законов CorCodex, корпуса решений конституционного суда CorDeс и корпуса локальных актов СorRIDA (всего порядка 8 млн токенов). Размеченные юридические корпусы, значения метрик сложности и пользовательские словари доступны для скачивания с сайта plaindocument.org.
Язык оригиналарусский
Номер статьи1
Страницы (с-по)4-13
Число страниц10
ЖурналМИР РУССКОГО СЛОВА
Номер выпуска2
СостояниеОпубликовано - 2022

    Предметные области Scopus

  • Гуманитарные науки и искусство (все)

    Области исследований

  • русские правовые тексты, модель оценки сложности, языковые метрики, читабельность

ID: 100576823