Настоящий проект нацелен на изучение языковой сложности и жанрового разнообразия русских правовых текстов. Под сложностью понимается объективная характеристика текста, измеримая с помощью специальных метрик. Разрабатывается автоматическая модель оценки сложности, подразумевающую использование более 130 метрик, обращающихся к лексике, семантике, синтаксису и связности текста, учитывающих частеречную сочетаемость, словообразовательные характеристики и общеязыковую частотность слов документа. Кроме того, учитываются гипертекстовые связи (что особенно важно при рассмотрении корпуса законов).
Первым направлением работы станет превращение основанной на метриках модели в гибридную. Использование метрик в совокупности с эффективным кодированием языка (нейросетевой кодировкой) позволит оценивать сложность как по языковым параметрам, так и по скрытым признакам текстов. Предлагаемая в рамках проекта архитектура модели оценки сложности для русского языка применяется впервые.
Вторым направлением станет создание жанрово-разнообразного и репрезентативного юридического корпуса размером не менее чем в 100 млн слов, снабжённого разметкой (предусмотрена лемматизация UDPipe, частеречная разметка UDPipe, дополнительная частеречная разметка и подробный морфологический анализ pymorphy2, синтаксическая разметка UDPipe).
Наличие разнообразного и обширного корпуса позволит задуматься об анализе юридического жанра. Проект предполагает формирование списка жанрово-специфичных особенностей правовых текстов и создание автоматического жанрового классификатора, основанного на языковых метриках, но предполагающего и использование нейросетевого кодировщика. По красноречивому выражению из [Кожина и др., 2008, 329], «количество жанров официально-делового стиля многообразно, труднообозримо и требует систематизации». Работа в области классификации правовых текстов позволит сделать систематизацию жанров более конкретной и в большей степени основанной на языковых, чем на ситуативных характеристиках текстов.
Далее, заявляемый проект позволит восполнить нехватку набора текстов официально-делового стиля с оценкой сложности (читабельности), полученной не с помощью метрик. Планируется подготовка текстовых фрагментов одного размера, которые будут предъявляться пользователям для эксплицитной оценки сложности и с замером времени чтения, в результате будет получен искомый текстовой набор с оценкой сложности.
Наличие описанного текстового набора в свою очередь позволит адаптировать формулу читабельности Флеша-Кинкейда для юридических текстов. Формула будет содержать оптимальные коэффициенты (константы), подобранные с использованием стандартных алгоритмов регрессионного анализа. В дальнейшем формула позволит измерять сложность правовых текстов, не подвергшихся разметке.
Новым как с технологической, так и с идеологической точки зрения компонентом заявляемого исследования станет наращение модели оценки сложности метриками оценки неопределённости (vagueness). Поиск неопределённых контекстов реализуем через идентификацию в тексте хеджей, градуируемых прилагательных (задаваемых лексическими списками и поиском форм компаратива), модификаторов степени проявления признака, нечетких кванторов, нечетких выражений со значением времени, референциально нечетких нарицательных существительных и др.
Автоматическая оценка неопределённости особенно актуальна для юридических текстов (с их постулируемой идеологией ясности, точности, определённости, однозначности) и для русского языка реализуется впервые.