Для создания модели автоматического определения сложности русских правовых текстов было необходимо собрать коллекцию таких текстов, разметить их, выделить параметры оценки сложности в применении к выбранному формату разметки. Эти шаги описываются в настоящей работе. Обозначается состав корпусов современных русских юридических текстов СorRIDA, CorDeс, CorCodex общим объемом 8,5 млн токенов. Описываются основания выбора инструментов лингвистической разметки (UDPipe, pymorphy2). Кратко характеризуются языковые признаки оценки сложности, среди которых: простейшие базовые метрики; пять формул читабельности; параметры оценки лексической сложности (значения TTR, Yule’s K, количество гапаксов, аббревиатур, абстрактных слов и мн. др.); параметры оценки морфосинтаксической и дискурсивной сложности (значения Noun-Verb Ratio; количество граммем генитива, среднего рода, пассива; относительных предложений, аппозитивных модификаторов, лексических средств дискурсивной связности и пр.).
Original languageRussian
Pages175-182
Number of pages7
StatePublished - 2021
EventКорпусная лингвистика - 2021: международная научная конференция - СПбГУ, Санкт-Петербург, Russian Federation
Duration: 30 Jun 20213 Jul 2021

Conference

ConferenceКорпусная лингвистика - 2021: международная научная конференция
Country/TerritoryRussian Federation
CityСанкт-Петербург
Period30/06/213/07/21

    Scopus subject areas

  • Arts and Humanities(all)

ID: 93138164