Понятность официального русского языка: юридическая и лингвистическая проблематика: 2022 г. этап 4

Blinova, Olga (PI)
Belov, Sergei (CoI)
Tarasov, Nikita (CoI)
Troshchenkova, Ekaterina (CoI)
Rudneva, Ekaterina (CoI)
Чеповецкая, София (CoI)
Малышева, Дарья (CoI)
Ревазов, Михаил Аркадиевич (PI)

Description

Настоящий проект нацелен на изучение языковой сложности и жанрового разнообразия русских правовых текстов. Под сложностью понимается объективная характеристика текста, измеримая с помощью специальных метрик. Разрабатывается автоматическая модель оценки сложности, подразумевающую использование более 130 метрик, обращающихся к лексике, семантике, синтаксису и связности текста, учитывающих частеречную сочетаемость, словообразовательные характеристики и общеязыковую частотность слов документа. Кроме того, учитываются гипертекстовые связи (что особенно важно при рассмотрении корпуса законов).
Первым направлением работы станет превращение основанной на метриках модели в гибридную. Использование метрик в совокупности с эффективным кодированием языка (нейросетевой кодировкой) позволит оценивать сложность как по языковым параметрам, так и по скрытым признакам текстов. Предлагаемая в рамках проекта архитектура модели оценки сложности для русского языка применяется впервые.
Вторым направлением станет создание жанрово-разнообразного и репрезентативного юридического корпуса размером не менее чем в 100 млн слов, снабжённого разметкой (предусмотрена лемматизация UDPipe, частеречная разметка UDPipe, дополнительная частеречная разметка и подробный морфологический анализ pymorphy2, синтаксическая разметка UDPipe).
Наличие разнообразного и обширного корпуса позволит задуматься об анализе юридического жанра. Проект предполагает формирование списка жанрово-специфичных особенностей правовых текстов и создание автоматического жанрового классификатора, основанного на языковых метриках, но предполагающего и использование нейросетевого кодировщика. По красноречивому выражению из [Кожина и др., 2008, 329], «количество жанров официально-делового стиля многообразно, труднообозримо и требует систематизации». Работа в области классификации правовых текстов позволит сделать систематизацию жанров более конкретной и в большей степени основанной на языковых, чем на ситуативных характеристиках текстов.
Далее, заявляемый проект позволит восполнить нехватку набора текстов официально-делового стиля с оценкой сложности (читабельности), полученной не с помощью метрик. Планируется подготовка текстовых фрагментов одного размера, которые будут предъявляться пользователям для эксплицитной оценки сложности и с замером времени чтения, в результате будет получен искомый текстовой набор с оценкой сложности.
Наличие описанного текстового набора в свою очередь позволит адаптировать формулу читабельности Флеша-Кинкейда для юридических текстов. Формула будет содержать оптимальные коэффициенты (константы), подобранные с использованием стандартных алгоритмов регрессионного анализа. В дальнейшем формула позволит измерять сложность правовых текстов, не подвергшихся разметке.
Новым как с технологической, так и с идеологической точки зрения компонентом заявляемого исследования станет наращение модели оценки сложности метриками оценки неопределённости (vagueness). Поиск неопределённых контекстов реализуем через идентификацию в тексте хеджей, градуируемых прилагательных (задаваемых лексическими списками и поиском форм компаратива), модификаторов степени проявления признака, нечетких кванторов, нечетких выражений со значением времени, референциально нечетких нарицательных существительных и др.
Автоматическая оценка неопределённости особенно актуальна для юридических текстов (с их постулируемой идеологией ясности, точности, определённости, однозначности) и для русского языка реализуется впервые.

Acronym	RSF_RG_2019 - 4
Status	Finished
Effective start/end date	17/05/22 → 31/12/22

ID: 95224627