Documents

В статье описана основанная на метриках модель оценки сложности русских правовых текстов. Архитектура модели подразумевает использование 130 метрик, разделённых на следующие категории: «базовые метрики», «формулы читабельности», «учёт слов разных частеречных классов», «n-граммы частеречных помет», «частотность лемм», «словообразовательные модели», «отдельные граммемы», «лексические и семантические признаки, неоднословные выражения», «синтаксические признаки», «оценки связности». Две метрики учитывают гипертекстовые связи и наличие неопределённых контекстов. Модель способна оценивать и структурную, и понятийную, и интертекстуальную сложность, привлекая и традиционно используемые для предсказания сложности неспецифичные метрики, и метрики стилеспецифичные, разработанные с оглядкой на особенности организации официально-деловых текстов. При подсчёте морфологических и синтаксических признаков модель обращается к слоям разметки, выполненной UDPipe (“ru-syntagrus”) и pymorphy2. Для обеспечения работы модели создан ряд пользовательских словарей, среди которых: список лексических средств текстового дейксиса, список графических сокращений (1,5 тыс. единиц), список аббревиатур (2 тыс. единиц), список юридических терминов (10 тыс. единиц), список абстрактных лемм (17 тыс. единиц), список однословных лексических показателей деонтической возможности и необходимости, список конструкций с лёгкими глаголами. Значения метрик сложности подсчитаны для всех документов корпуса законов CorCodex, корпуса решений конституционного суда CorDeс и корпуса локальных актов СorRIDA (всего порядка 8 млн токенов). Размеченные юридические корпусы, значения метрик сложности и пользовательские словари доступны для скачивания с сайта plaindocument.org.
Original languageRussian
Article number1
Pages (from-to)4-13
Number of pages10
JournalМИР РУССКОГО СЛОВА
Issue number2
StatePublished - 2022

    Scopus subject areas

  • Arts and Humanities(all)

ID: 100576823