Description

Проект посвящен прежде всего языковой сложности официально-деловых (правовых, юридических) текстов. Специального различения между понятиями «официальные тексты / тексты, принадлежащие официально-деловому стиля» и «правовые / юридические тексты» не проводится, хотя вторые могут быть поняты как подмножество первых.
Языковой сложности посвящена обширная научная литература. По уровню сложности могут сопоставляться идиомы (языки, диалекты), языковые регистры (или стили) конкретного языка, тексты или коллекции текстов на конкретном языке и определённые лингвистические единицы (слова, предложения, …), принадлежащие конкретному языку.
Вслед за [Dahl, 2004] в исследовании последовательно различаются «сложность» (complexity) – абстрактная объективная мера и «трудность» (difficulty) – мера относительная. При сравнительной оценке текстов, стилей, регистров сложность может пониматься как текстовая переменная, оказывающая влияние на восприятие текста читающим или слушающим (т. е. на трудность). Трудность в свою очередь – перцептивная характеристика текста, стиля или регистра. На трудность влияет не только объективная сложность текста, но и языковой (или, шире, – когнитивный) опыт воспринимающего текст субъекта. Кроме того, в исследовании задействована «понятность» (clarity); этим понятием оперируют прежде всего юристы, описывая, насколько правовой текст доступен для так называемого «простого гражданина» (неюриста), и каковы юридические последствия непонимания.
Для оценки сложности как текстовой переменной лингвисты используют различные языковые параметры (признаки, features) и метрики, с помощью которых эти признаки оцениваются. При этом все параметры вслед за [Tuldava, 2004] можно разделить на латентные (скрытые) и формально-статистические (поверхностные). Первые поддаются измерению, хотя и не поддаются непосредственному наблюдению в форме отдельных языковых сущностей, присутствующих в текстах на языке.
Обращение к языку правовых текстов в контексте изучения сложности неслучайно. Юридический язык (особенно – язык законов) обладает плохой репутацией и критикуется как сложный, тёмный, запутанный и для неюриста непонятный, ср. остроумную цитату из [Assy, 2011, 376]: “Complaints about the excessive complexity of the law are as old as the law itself” (жалобы на чрезмерную сложность закона стары, как сам закон).
Представители сообщества профессионалов (юристов, носителей специального знания) более или менее виртуозно пользуются своим сложным языком, который может рассматриваться как принадлежность сообщества и средство укрепления внутригрупповой солидарности (и одновременно – средство дистанцирования от непрофессионалов). Защищая сложный язык, юристы опираются на центральное требование, выдвигаемое к языку права, – требование точности, определённости. Борясь со сложным языком, юристы апеллируют к особенностям бытования правовых текстов, адресованных всем гражданам.
В рамках исследования создана модель оценки сложности русских правовых текстов, подразумевающая использование 130 метрик, обращающихся к лексике, семантике, синтаксису и связности текста, частично учитывающих сочетаемость и некоторые словообразовательные модели. Кроме того, добавлена метрика, учитывающая гипертекстовые связи (что особенно важно при рассмотрении корпуса законов), а также метрика, способная диагностировать неопределённые (vague) контексты.
Предусмотрена оценка т. наз. скрытых параметров текста, она производится при помощи базовых метрик, традиционно используемых в задачах классификации по сложности (среди них: средняя длина предложения в словах, средняя длина слова в слогах, метрики лексического разнообразия, доля гапаксов и т. п. – всего 28 метрик); к области оценки скрытых периметров текста можно причислить и формулы читабельности (в модели используется 5 формул читабельности, ранее адаптированных для русского другими исследователями).
Учтены и поверхностные параметры. Они разделены на категории «учёт слов разных частеречных классов», «n-граммы частеречных тегов (частеречная сочетаемость)», «частотность лемм», «словообразование», «отдельные граммемы», «лексические и семантические признаки, неоднословные выражения», «синтаксические признаки», «оценки связности».
В рамках масштабного социолингвистического опроса изучена трудность локальных документов (информированных согласий, договоров, правил постувления в вузы и пр.) для восприятия и понимания. Получены результаты анализа опроса четырёхсот респондентов, которые читали официальные документы и заполняли анкеты, отвечая на вопросы к текстам. Выполнен качественный и количественный анализ ответов, выявлены корреляции между социальными параметрами (пол, возраст, уровень образования, а также тип занятости и опыт работы с документами) и продемонстрированными в ходе заполнения анкеты компетенциями в работе с трудными текстами. Исследовано отношение к языку документов.
Разработана методика мониторинга и выполнен мониторинг 371 сайта государственных органов.
Подготовлена «Концепция использования государственного языка в деятельности государственных и муниципальных органов и организаций».
Все запланированные работы выполнены, результаты достигнуты, отражены в публикациях по проекту, на сайте проекта plaindocument.org и в коллективной монографии, подготовленной к публикации.

Layman's description

Актуальность задач проекта определяется важностью и высокой практической значимостью решения проблемы непонятности официальных текстов для их адресатов. Развитие информационного общества, формирование общества знаний, национальной цифровой экономики относятся к приоритетным направлениям политики Российской Федерации. Активно реализуются меры по развитию информационной и коммуникационной инфраструктуры. Это развитие предполагает переход государственных органов и органов местного самоуправления к использованию инфраструктуры электронного правительства, внедрение цифровых платформ работы сданными. Для этого необходимо единое коммуникативное информационное пространство, то есть необходимо обеспечить доступность и понятность официальных текстов, их ориентированность на адресата.

Key findings for the project

В настоящем исследовании последовательно различается «сложность» (complexity) – абстрактная объективная мера и «трудность» (difficulty) – мера относительная. При сравнительной оценке текстов, стилей, регистров сложность может пониматься как переменная, оказывающая влияние на восприятие текста читающим или слушающим (т. е. на трудность). Трудность – перцептивная характеристика текста. На трудность влияет не только объективная сложность текста, но и опыт воспринимающего текст субъекта. Кроме того, в исследовании задействована «понятность» (clarity); этим понятием оперируют прежде всего юристы, описывая, насколько правовой текст доступен для так называемого «простого гражданина» (неюриста), и каковы юридические последствия непонятности. Понятность (как и трудность) можно считать функцией от сложности текста и опыта адресата.
Обращение к языку правовых текстов при изучении сложности, трудности и понятности неслучайно. Юридический язык (особенно – язык законов) имеет плохую репутацию и критикуется как сложный, тёмный, запутанный, для неюриста непонятный, ср. остроумную цитату из [Assy, 2011, 376]: “Complaints about the excessive complexity of the law are as old as the law itself” (жалобы на чрезмерную сложность закона стары, как сам закон).
Проект развивался по трём основным направлениям: I. Исследование объективной сложности, II. Исследование перцептивной трудности, III. Мониторинг сайтов государственных органов в контексте рассмотрения доступности (понятности) контента сайтов для граждан. В первом направлении работали корпусный лингвист и специалист по машинному обучению и обработке естественного языка, во втором – социолингвисты и антропологи, в третьем – юристы.
I.1. Для оценки сложности как текстовой переменной используются различные языковые параметры (признаки, features) и метрики, с помощью которых эти признаки оцениваются. При этом все параметры можно разделить на латентные (скрытые) и формально-статистические (поверхностные). Первые поддаются измерению, хотя и не поддаются непосредственному наблюдению в форме отдельных языковых сущностей, присутствующих в текстах на языке.
Разработана модель оценки сложности русских правовых текстов, подразумевающую использование 130 метрик, обращающихся к лексике, семантике, синтаксису и связности текста, частично учитывающих сочетаемость и некоторые словообразовательные модели. Кроме того, добавлена метрика, учитывающая гипертекстовые связи (что особенно важно при рассмотрении корпуса законов), а также метрика, способная диагностировать неопределённые (vague) контексты.
Предусмотрена оценка скрытых параметров текста, она производится при помощи базовых метрик, традиционно используемых в задачах классификации по сложности (среди них: средняя длина предложения в словах, средняя длина слова в слогах, метрики лексического разнообразия, доля гапаксов и т. п. – всего 28 метрик); к области оценки скрытых параметров текста можно причислить и формулы читабельности (в модели используется 5 формул читабельности, ранее адаптированных для русского другими исследователями).
Учтены и поверхностные параметры. Они разделены на категории «учёт слов разных частеречных классов», «n-граммы частеречных тегов (частеречная сочетаемость)», «частотность лемм», «словообразование», «отдельные граммемы», «лексические и семантические признаки, неоднословные выражения», «синтаксические признаки», «оценки связности».
Для аккуратного учёта данных о частотности лемм на базе больших русских корпусов создан частотный список, в котором с применением меры Ципфа (Zipf value) все леммы (примерно 1 млн) распределены по 9-ти частотным диапазонам. Соответственно, наша модель оценки сложности способна учитывать доли лемм, принадлежащих каждой из 9-ти частотных зон и различать высокочастотные, среднечастотные и низкочастотные леммы.
Для обеспечения работы метрик «лексические и семантические признаки, неоднословные выражения» создан ряд пользовательских словарей и списков, среди которых:
- список лексических средств текстового дейксиса типа ‘(выше / ниже)названный’, ‘(выше / ниже)описанный’, ‘(выше / ниже)перечисленный’, ‘(выше / ниже) упомянутый’, ‘данный’;
- список графических сокращений (1,5 тыс. единиц) и аббревиатур (2 тыс. единиц),
- список юридических терминов (10 тыс. однословных и неоднословных терминов),
- список абстрактных лемм (17 тыс. единиц),
- список однословных лексических показателей деонтической возможности и необходимости, ср.: ср.: ‘дозволить’, ‘должен’, ‘допустимо’, ‘запрещать’, ‘можно’, ‘надлежащий’, ‘неподобающий’, ‘неправомерно’, ‘приемлемо’, ‘противоправный’, ‘следовать’ (‘следует’) и т. д.,
- список конструкций с лёгкими глаголами (учтено 6 тыс. уникальных последовательностей лемм с пунктуацией типа ‘оказывать содействие’, ‘давать оценка’, ‘осуществлять свой деятельность’, ‘принять решение’, ‘осуществлять подготовка , переподготовка’).
Важным компонентом модели является учёт признаков, основанных на разметке UDPipe (22 метрики). В метриках учтены, в частности:
- организация отдельных синтаксических групп (ср. «Amod_p», доля адъективных модификаторов имени; «Advmod_pr», доля наречных модификаторов предиката);
- наличие сочинённых рядов (будь то сочинённые клаузы или однородные члены предложения; ср. признак «Cc», описывающий союзные средства, а также признак «Conj», описывающий количество конъюнктов, в том числе вводимых бессоюзно);
- вхождения сентенциальных определений (причастий и причастных оборотов «Acl» отдельно от относительных клауз «Acl:relcl»), сентенциальных обстоятельств (деепричастий и зависимых клауз с личными формами глагола, «Advcl»), различных сентенциальных дополнений («Ccomp», «Xcomp»), а также так называемых конструкций с сентенциальным субъектом; отдельно учитываются единицы, способные вводить зависимые клаузы («Mark»);
-вхождения пассивных конструкций (признаки «Aux:pass», «Nsubj:pass», «Csubj:pass».
I.2. Значения 130 метрик сложности подсчитаны для документов юридических корпусов, собранных и размеченных в рамках проекта. Это корпус законов CorCodex, корпус решений конституционного суда CorDeс и корпус локальных актов СorRIDA (всего 8 млн токенов, для разметки использованы UDPipe и pymorphy2). Таким образом получен набор юридических текстов с разметкой и оценкой сложности.
Принципиально важно, что три корпуса различаются в соответствии с типической фигурой адресата, на которого направлен конкретный юридический текст (СorRIDA включает документы, с которыми периодически сталкиваются носители языка-неюристы, а тексты CorCodex читают прежде всего профессиональные юристы).
I.3. Модель оценки сложности протестирована, выявлены метрики, наиболее эффективные для решения задачи классификации по сложности.
II. В рамках перцептивного направления получены результаты анализа опроса четырёхсот респондентов, которые читали официальные документы и заполняли анкеты, отвечая на вопросы к текстам. Выполнен качественный и количественный анализ ответов, выявлены корреляции между социальными параметрами (пол, возраст, уровень образования, а также тип занятости и опыт работы с документами) и продемонстрированными в ходе заполнения анкеты компетенциями в работе с трудными текстами. Исследовано отношение к языку документов.
III. Разработана методика мониторинга и выполнен мониторинг 371 сайта государственных органов.
Важным итогом проекта является подготовленная «Концепция использования государственного языка в деятельности государственных и муниципальных органов и организаций».
Все запланированные результаты получены, отражены в публикациях коллектива проекта, в коллективной монографии, подготовленной к публикации, а также на сайте plaindocument.org.

Key findings for the stage (in detail)

Результаты отчётного этапа в целом таковы (в разделах I, II, III и IV ниже излагаются соответственно результаты корпусного, перцептивного направления, результаты мониторинга и результаты работы по формированию «Концепции использования государственного языка в деятельности государственных и муниципальных органов и организаций»).

I.1. Основным результатом работы корпусного направления стала модель оценки сложности русских правовых текстов, подразумевающая оценку 130 параметров, разделённых на 10 категорий. При выборе параметров учитывались языковые свойства текстов официально-делового стиля, описанные в работах по функциональной стилистике (и языковые характеристики, хорошо отделяющие русские тексты официально-делового стиля (далее – ОДС) от текстов других стилей при решении задачи автоматической классификации по стилям). Кроме того, учтён опыт исследований сложности.
В пунктах ниже метрики описываются согласно выделенным категориям.
I. 1.1. Базовые метрики
В число базовых метрик включены как собственно рабочие метрики оценки сложности, так и «промежуточные» метрики, значения которых необходимы для подстановки в формулы читабельности.
Пример базовых метрик:
word_long_pr — доля длинных слов
ASL — средняя длина предложения в словах
ASS — средняя длина предложения в слогах
ASW — средняя длина слова в слогах
ACW — средняя длина слова в буквах
L — среднее число букв на 100 словоформ
S — среднее число предложений на 100 словоформ
TTR_word — SimpleTTR (словоформы)
Yule'sK_word — Yule's K (словоформы), производная от TTR метрика
Yule'sI_word — Yule's I (словоформы), производная от TTR метрика
hapax1_pr — доля hapax legomena (леммы)
hapax2_pr — доля hapax dislegomena (леммы)
I.1.2. Формулы читабельности
В нашей модели используется пять формул: адаптированная формула Флеша-Кинкейда (Flesch-Kincaid) [Solnyshkina et al., 2018], адаптированная формула SMOG (Simple Measure of Gobbledygook), адаптированная формула подсчёта автоматизированного индекса читабельности ARI, индекс Дейла-Чейл (Dale-Chale), индекс Колман-Лиау (Coleman-Liau), см. [Бегтин, 2016].
Стоит добавить, что некоторые психолингвистические исследования свидетельствуют, что диагностическая сила формул читабельности для оценки актуальной понятности в эксперименте невысока [Charrow, Charrow, 1979, 1341].
I.1.3. Учёт слов разных частеречных классов
Метрики разработаны с учётом различий между использованными инструментами разметки – UDPipe и pymorphy2 (то есть различий между наборами тегов частеречного слоя разметки). Стоит отметить, что некоторые метрики не обращаются к информации о представленности частеречных классов напрямую, например, метрика Comp_pr выбрана с прицелом на оценку вхождений прилагательных и наречий в форме сравнительной степени (то есть градуируемых прилагательных и наречий, потенциально участвующих в формировании неопределённых (vague) контекстов, см. об этом раздел __ выше, а также [Блинова, Белов, 2020]).
Названия некоторых метрик («индекс аналитичности», «индекс глагольности» и пр.) и собственно некоторые метрики (индекс автосемантичности, индекс именной лексики и пр.) взяты из литературы по квантитативному описанию стиля, в частности, работ [Журавлёв, 1988], [Поспелова, Ягунова, 2014, 351] и др. Полный список метрик этой категории таков:
1. Func_word_pr — индекс аналитичности
2. Verb_pr — индекс глагольности
3. Noun_pr — индекс субстантивности
4. Adj_pr — индекс адъективности
5. Pron_pr — индекс местоименности
6. Autosem_pr — индекс автосемантичности
7. Nouns_pr — индекс именной лексики
8. NVR — Noun-Verb ratio
9. Cconj_ pr — доля сочинительных союзов
10. Sconj_pr — доля подчинительных союзов
11. Adjs_pr — доля кратких прилагательных
12. Prtf_pr — доля полных причастий
13. Prts_pr — доля кратких причастий
14. Npro_pr — доля местоимений-существительных
15. Pred_pr — доля предикативов
16. Grnd_pr — доля деепричастий
17. Infn_pr — доля инфинитивов
18. Numr_pr — доля числительных
19. Prcl_pr — доля частиц
20. Prep_pr — доля однословных предлогов
21. Comp_pr — доля форм компаратива
I.1.4. N-граммы частеречных тегов (частеречная сочетаемость)
Информацию о встречаемости n-грамм частеречных тегов решено привлечь для анализа сложности под влиянием литературы о квантитативном анализе стиля, а именно работ [Клышинский и др., 2013], [Антонова и др., 2011], [Дубовик, 2017]. В [Антонова и др., 2011] предложена так называемая «формула динамичности / статичности», призванная отделить тексты, в которых описывается множество событий («динамические тексты») от текстов «статических». Эта метрика хорошо противопоставляет тексты ОДС другим текстам (тексты ОДС более «статичны»), как и некоторые другие метрики, учитывающие частеречную сочетаемость, см. об этом, например, [Tang, Cao, 2015].
I.1.5. Частотность лемм. См. об этом пункт I.5.1 формы 1.3 настоящего отчёта.
I.1.6. Словообразование
Метрика «Word_form»: в каждом документе подсчитываются доли лемм вида *ция, *ние, *вие, *тие, *ист, *изм, *ура, *ище, *ство, *ость, *овка, *атор, *итор, *тель, *льный, *овать (то есть целого ряда отглагольных, отадъективных и некоторых других существительных, а также избранных отглагольных прилагательных и производных глаголов).
I.1.7. Отдельные граммемы
Полный список метрик этой категории таков:
1. Gen_pr — доля словоформ в родительном падеже
2. Ablt_pr — доля словоформ в творительном падеже
3. datv — доля словоформ в дательном падеже
4. nomn — доля словоформ в именительном падеже
5. loct — доля словоформ в предложном падеже
6. Neut_pr — доля существительных среднего рода
7. Inan_pr — доля неодушевлённых существительных
8. 1P_pr — доля глаголов в форме 1-го лица
9. 3P_pr — доля глаголов в форме 3-го лица
10. Pres_pr — доля глаголов в форме настоящего времени
11. Futr_pr — доля глаголов в форме будущего времени
12. Past_pr — доля глаголов в форме прошедшего времени
13. Impf_pr — доля глаголов несовершенного вида
14. Perf_pr — доля глаголов совершенного вида
15. Pssv_prtf_pr — доля полных страдательных причастий
16. Pssv_prts_pr — доля кратких страдательных причастий
17. Sja_verb_pr — доля личных глагольных форм на -ся
Род существительных учитывается в метриках, так как абстрактные существительные, в том числе существительные на -ение, -ство и пр., употребительные в ОДС, часто среднего рода. Ср. пример ниже с данными частотного списка (общего для CorCodex, CorDes, CorRIDA). Здесь приведены ранги (стоит учесть, что в используемом списке высокие позиции занимают знаки пунктуации), значения абсолютной и относительной частоты, значение меры дисперсии D Жуйана.
ранг — лемма — абс. частота — ipm — D
20 — лицо — 28120 — 4983,482 — 93,12208
25 — право — 23860 — 4228,516 — 91,7048
44 — соответствие — 15998 — 2835,197 — 95,20188
64 — решение — 11340 — 2009,697 — 88,89812
66 — законодательство — 10882 — 1928,53 — 93,95698
В описываемых метриках оценки сложности учитывается доля словоформ в родительном падеже (точнее, разборов типа 'NOUN,*gent'), в творительном, дательном, именительном и предложном падежах. Граммема родительного падежа хорошо диагностирует сложность (это известно из литературы вопроса). Творительный падеж кодирует агенса в пассивных конструкциях. Именительный падеж в составе пассивных конструкций кодирует пациенса; сами пассивные конструкции частотны в ОДС и в целом оцениваются как более сложные, чем активные (особенно – в зависимых клаузах).
Употребительные в ОДС предлоги ‘по’, ‘соответственно’, ‘согласно’ и др. управляют дативом. Оценка доли вхождений предложного падежа также является осмысленным из-за частотности конструкций с ним, ср., в частности, ‘в указанном реестре’, ‘в указанном порядке’, ‘в указанной статье’.
Отдельно учитывается доля личных глагольных форм на ся (метрика «Sja_verb_pr»). Это связано с активностью в текстах ОДС как пассивных конструкций с выраженным агенсом вида ‘правила устанавливаются уполномоченным органом’, так и пассивных конструкций с невыраженным агенсом.
I.1.8. Лексические и семантические признаки, неоднословные выражения
Метрики этой категории таковы:
Yavl_pr — доля леммы "являться"
Textdeixis_pr — доля слов текстового дейксиса, обеспечивающих связность
Sokr_pr — доля графических сокращений
Abbr_pr — доля аббревиатур
FZ_pr — доля указаний на федеральные законы типа "231-ФЗ"
Term_pr — доля юридических терминов
Abstr_pr — доля абстрактных лемм
Deont_pr — доля лексических показателей деонтической возможности и необходимости
Prep_mw_pr — доля неоднословных предлогов
Conj_mw_pr — доля неоднословных оборотов в функции союза или союзного слова
LVC_pr — доля конструкций с лёгкими глаголами
Способы формирования пользовательских словарей описаны в пункте 1.3 настоящего отчёта (подпункт I.5).
I.1.9. Синтаксические признаки
«Синтаксическая усложнённость» – традиционно упоминаемая черта деловой прозы.
В применение к русскому языку признаками сложности принято считать причастные и деепричастные клаузы, сложноподчинённые и сложносочинённые предложения, а также длинные именные группы и другие длинные и сложно устроенные составляющие, см., например, [Ляшевская, 2017], [Ivanov et al. 2018].
Исследователи сложности правовых текстов оценивают максимальное расстояние между главным и зависимым по синтаксическому дереву зависимости, вычисляемое так: «для каждого конкретного текста взято одно значение, которое является максимальным для всех предложений текста» [Кучаков, Савельев, 2018], [Савельев, Кучаков, 2019] или (в числе прочего) среднее расстояние между зависимыми словами в предложении [Кнутов и др., 2020].
Ясно, что возможности анализа сложности обуславливаются и ограничиваются форматом синтаксической разметки, возможностями парсера. Отобранные признаки подробно описаны в монографии, прилагаемой к настоящему отчёту.
I.1.10. Оценки связности
Для грубой оценки референциальной связности в состав метрик введена мера «Cohes_1» (количество повторов существительных в соседних предложениях). Кроме того, использована метрика «Cohes_2», учитывающая количество повторов граммем времени и вида у глаголов в личной форме (в соседних предложениях).
I.2. Следующим важным результатом отчётного этапа является результат тестирования модели.
I.2.1. Тестирование на текстовом наборе “plainrussian”
Тесты проводились на стандартном текстовом наборе “plainrussian” И. Бегтина, включающем тексты, распределённые на группы по уровню образования (с 3-го класса начальной школы до 6 курса вуза).
Из-за ограниченного размера тестового набора (68 текстов) для тестирования данные были разбиты на 3 класса: «простые тексты» – до 6-го класса, «средние по сложности тексты» – с 6 по 11 классы, «сложные тексты» – тексты уровня высшего образования. Итоговое число документов для каждой группы: «простые» – 14, «средние» – 32, «сложные» – 22.
В качестве тестовой модели классификации использован XGBoost [Tianqi Chen et al., 2016].
I.2.2. Классификация с использованием в качестве параметров векторов языковой модели
Сравнение производилось с языковой моделью USE (Universal Sentence Encoder) [Yang et al. 2019], представляющей качественный предобученный мультиязычный кодировщик текстовых данных, с использованием современной нейросетевой архитектуры “Transformer”. Проведённое сравнение позволило получить базовое представление об эффективности выбранных метрик в задаче классификации по сложности. Таким образом проверено качество кодирования сложности текстов в описанном подходе по сравнению с подходом, кодирующим тексты на основе выбранных 130 метрик, отражающих знания о естественном языке.
Модель тестировалась с предварительным разбиением на тестовую и тренировочную выборки с последующим подбором гиперпараметров с помощью библиотеки “Hyperopt” [Bergstra et al. 2013], представляющей метод эффективной оптимизации параметров с использованием байесовской оптимизации. Для подбора параметров было обучено 1000 моделей с различными параметрами.
Следующие показатели качества приводятся для оптимизированной модели с использованием кросс-валидации [Refaeilzadeh et al., 2016] с разбиением данных на 10 групп. Данный подход позволяет показать результаты более объективно, учесть генерализацию модели для ранее не использованных данных, что особенно важно в случае работы с небольшими наборами данных.
Итоговые показатели качества таковы:
- для кодирования с использованием метрик (130 параметров): средняя точность – 88% со среднеквадратичным отклонением 9%;
- для кодирования с использованием языковой модели (768 параметров): средняя точность – 70% со среднеквадратичным отклонением 15%.
Таким образом, полученные метрики позволяют получить более точные и согласованные оценки сложности текстов.
I.2.3. Тестирование на текстовом наборе учебников обществознания
Вторая итерация тестов проводилась проводились на наборе учебников обществознания, распределённые на группы по классам общеобразовательной школы (5 – 11 классы) [Solovyev et al., 2018]. Данные также были разбиты на 3 класса: «более простые тексты» – 5, 6, 7 классы, «средние по сложности тексты» – 8, 9 классы, «более сложные тексты» – 10, 11 классы. Итоговое число документов для каждой группы: «более простые» – 5, «средние» – 4, «более сложные» – 5, размер датасета – 716 тыс. слов, средняя длина документа – приблизительно 1200 строк (по предложению на строку, предложения расположены в случайном порядке).
Все документы были разбиты на фрагменты длиной в 100 строк. Затем данные были размечены по образцу наших корпусов, для каждого фрагмента вычислены значения 130 метрик. После этого была выполнена классификация (см. предыдущий раздел).
Итоговые показатели качества для кодирования с использованием метрик (130 параметров): средняя точность – 90% со среднеквадратичным отклонением 5%. Таким образом, второй эксперимент подтвердил, что использование метрик позволяет оценивать сложность текстов более точно и согласованно, чем в эксперименте с использованием языковой модели.
I.3. Получены оценки отдельных метрик
В экспериментах, описанных в предыдущих разделах, получены данные об эффективности работы 130 метрик в задаче классификации по сложности. Важно заметить, что тестирование проводилось на наборах данных, существенно отличающихся от наших. Между тем, метрики были целенаправленно разработаны прежде всего для применения к юридическим текстам (текстам ОДС). Сказанное значит, что в текстах других стилей некоторые учитываемые признаки могут описывать редкие или сверхредкие явления.
Эксперимент с текстовым набором “plainrussian” показал, что для задачи классификации значимы 72 метрики.
Эксперимент с учебниками обществознания показал, что для классификации важна прежде всего формула Флеша-Кинкейда, коэффициенты (константы) которой вычислялись как раз на датасете с учебниками обществознания его создателями [Solovyev et al., 2018], а также (в разной степени) 94 других признака.
В наборах работающих на классификацию по сложности признаков совпадает 57 признаков. Наиболее эффективными в задаче классификации (по итогам двух экспериментов) стали следующие признаки (приводится 20 наиболее значимых):
1. FRE_GL – адаптированная формула Флеша-Кинкейда,
2. SMOG – адаптированная формула SMOG,
3. ARI – адаптированная формула подсчёта автоматизированного индекса читабельности,
4. Nouns_pr – индекс именной лексики,
5. Inan_pr – доля неодушевлённых существительных,
6. Adjif_pr – доля полных прилагательных,
7. ACW – средняя длина словоформы в буквах,
8. Gen_pr – доля словоформ в родительном падеже,
9. CLI – адаптированный индекс Колман-Лиау,
10. word_long_pr – доля длинных слов,
11. Adj_pr – индекс адъективности,
12. Amod_pr – доля адъективных модификаторов имени,
13. Nsubjpass_pr – доля вхождений пассивного подлежащего главной или зависимой клаузы,
14. ASS – средняя длина предложения в слогах,
15. Word_form – доля лемм с «хвостами», включающими определённые словообразовательные аффиксы (или их фрагменты),
16. Dyn_Stat – формула динамичности / статичности,
17. Prtf_pr – доля полных причастий,
18. Abstr_pr – доля абстрактных лемм.
19. Pos_ngrams_1_pr – доля биграмм тегов глагола в личной форме и существительного
20. DCI – индекс Дейла-Чейл (Dale-Chale)
Нетрудно заметить, что в задачах классификации хорошо сработали формулы читабельности. Это можно было бы объяснить тем, что формулы действительно хорошо справляются с предсказанием сложности. Однако, как уже было сказано выше, текстовые наборы, на которых мы проверяли эффективность метрик, – это и есть наборы, на которых используемые формулы читабельности разрабатывались. Таким образом, для дальнейшей проверки эффективности нашей модели оценки сложности разумно использовать (пока не существующий) датасет с оценками сложности, полученными с помощью работы экспертов и экспериментально.
I.4. Подготовлены, размечены, опубликованы на сайте проекта три юридических корпуса (всего 8 млн токенов):
1) “СorRIDA”, содержащий документы, с которыми периодически сталкиваются носители языка-неюристы (формы информированных согласий, договоров, правил поведения и пр., скачанные с сайтов государственных учреждений);
2) Корпус решений Конституционного Суда РФ “CorDeс” объёмом 3 427 тыс. токенов, включающая 584 документа. Решения пишутся высокопрофессиональными юристами и адресованы широкому кругу граждан.
3) Корпус нормативных документов (федерального законодательства) “CorCodex”, см. форму 1.3 настоящего отчёта, подпункт I.2.
I.5. Для документов корпусов с помощью скрипта на языке Python подсчитаны значения 130 метрик сложности, результаты записаны в таблицы с метаданными.
I.6. Сформированы частотные списки лемм трёх корпусов со значениями абсолютных и относительных частот, мер дисперсии D Жуйана и DP Гриса. Подготовлен общий частотный список по трём корпусам (в том же формате). Данные опубликованы на сайте проекта plaindocument.org.
I.7. Подготовлена размеченная база данных конструкций с лёгкими глаголами (на материале корпуса законов CorCodex, размечено 25 тыс. употреблений конструкции). Информация из базы данных использовалась для оценки частотности конструкций с лёгкими глаголами в разработанной модели оценки сложности.
I.8. По результатам обработки данных больших русских корпусов подготовлен сводный частотный список лемм с условным названием «Фреквентатор» (примерно 1 млн строк) с информацией о распределении лемм по зонам частотного словаря (для распределения использовались две меры частотности – Zipf Value и FClass), подробнее см пункт I.5.1 формы 1.3 настоящего отчёта. Результаты отражены в докладе “In search for Russian low-frequency words” на конференции QUALICO (и в тезисах конференции).
I.9. В рамках изучения неопределённости (vagueness), точнее, адъективной неопределённости, подготовлена размеченная база данных контекстов, взятых из корпуса законов и содержащих оценочные прилагательные. Для формирования списка оценочных прилагательных использовались тональный словарь “kartaslovsent” (https://github.com/dkulagin/kartaslov). Рассмотрено 95 тыс. предложений, как содержащие неопределённость маркированы 4,5 тыс. предложений. Так как принимать решение о наличии неопределённости непросто, в качестве неясных маркировано 1,6 тыс. предложений. Примеры неопределённых контекстов: ‘Заработная плата, излишне выплаченная работнику (в том числе при НЕПРАВИЛЬНОМ применении законов или иных нормативных правовых актов), не может быть с него взыскана, за исключением случаев’, ‘Работник обязан возместить затраты, понесенные работодателем при направлении его на обучение за счет средств работодателя, в случае увольнения без УВАЖИТЕЛЬНЫХ причин до истечения срока, обусловленного трудовым договором или соглашением об обучении работника за счет средств работодателя’.
Результаты этой работы предполагается использовать при дополнении модели оценки сложности параметрами оценками неопределённости (vagueness).

II. Итоги работы перцептивного направления в 2021 году вкратце таковы.
II.1. Уточнены принципы подсчета финального балла, отражающего понимание текстов и компетенцию работы с официальными документами. Сумма баллов, полученных каждым респондентом по каждой из анкет в отдельности и по всем анкетам вместе, отражает степень понимания представленных документов и компетенцию информантов при работе с текстом в целом. Чем больше сумма баллов, тем успешнее респондент заполнил анкету или все анкеты, соответственно, тем выше уровень его языковой компетенции в отношении текста официальных документов. Наличие значимых различий между распределениями ответов в зависимости от социального параметра определялось с помощью дисперсионного анализа; далее проводились posthoc попарные сравнения средних для выявления статистически значимых различий полученных сумм баллов между отдельными подгруппами респондентов.
II.2. Выполнена оценка ответов респондентов в соответствии с базовыми социальными параметрами (возрастом, образованием, полом), а также опытом работы с документами и типом занятости.
II.3. Оценена значимость пяти параметров
II.4. Исследовано отношение к языку официальных документов
Отношение к языку также влияет на восприятие текста. В рамках нашего опроса сведения об отношении к языковым особенностям были получены с помощью ряда вопросов, носящих оценочный характер. В частности, рассмотрены ответы на вопрос об отношении к разновидности языка, представленном в информированном согласии. Люди не только описывали свои эмоции, но и давали оценочную характеристику документу и предлагали суждения более общего характера. При этом текст оценивался с точки зрения разных критериев, которые отражают различные ожидания и нормативные установки. Почти половина респондентов испытала негативные эмоции при чтении информированного согласия. Многие респонденты нейтрально отнеслись к документу (28%).
II.5. Выявлено наличие зависимости между проявленным отношением к представленному в Правилах поведения (Анкета-2) языковому варианту и социальными параметрами респондентов.
II.6. Получены результаты исследования функционирование официального медицинского документа (на материале опроса и на материале полуструктурированных интервью с врачами, проведённых на этапе 2020 г.)
Проанализированные интервью с врачами позволили сделать следующие выводы о функционировании информированного согласия и реальной процедуре его заполнения. Смысл, который придают информированному согласию суды, не совпадает с тем смыслом, который вменяется ему юристами исходя из его содержания и правового предназначения. Врачи и пациенты чаще всего рассматривают подписание информированного согласия как ненужную и непонятную формальность, особенно с учетом того, что в российской медицинской практике сильны традиции патерналистской модели взаимоотношений врача и пациента. Смысл, который и врачи, и пациенты придают данному документу, – перекладывание рисков неблагоприятного исхода медицинского вмешательства с медицинской организации на пациента – не соответствует тем правовым последствиям, которые порождает информированное согласие.
II.7. В результате анализа опроса получены данные о субъективной сложности (трудности) исследуемых текстов
В соответствии с инструкцией, если при ответе на какие-то вопросы у респондентов возникали затруднения, они могли поставить в соответствующей графе прочерк (или оставить ячейку незаполненной), в дальнейшем подобные ответы классифицировались как «отказ отвечать», если ответы на вопросы оценивались в баллах, то в такой ситуации респондент получал «0» за ответ. Отказ мог отражать не только нежелание человека отвечать, но и затруднение, возникшее у него при ответе. Таким образом, общее количество отказов, полученное на какой-то вопрос или анкету в целом, может служить показателем их сложности в принципе. По Анкете-1 из общего количества полученных ответов отказы составили 11%, их число в ответах на различные вопросы варьировало от 2,9% до 27,9%. По Анкете-2 процент отказов был 5,8% – от 0,8% до 9,5% по отдельным вопросам. Количество отказов по Анкете-3 было самым большим – 25,2% от общего числа ответов, их число по конкретным вопросам варьировало от 4% до 61,4%.
II.8. Описаны стратегии ответов респондентов, объединённых в группы по параметрам возраст, пол, образование, опыт работы с документами и тип занятости
II.9. Результаты работы перцептивного направления изложены в публикациях:
«Понимание российскими гражданами официальных документов (по результатам анкетирования)»;
«Как россияне понимают текст информированного согласия на медицинское вмешательство»;
«How Russian Speakers Comprehend Documents».
«Студентка vs водитель в возрасте, или почему никто не любит читать официальные документы».

III. По результатам мониторига сайтов подготовлена аналитическая записка (см. Дополнительные материалы https://drive.google.com/file/d/15OGIcq5Jen52Y1IIPL1k6cpCxegWG5lo/view?usp=sharing), результаты мониторинга частично в монографии по итогам работы над проектом.

IV. Подготовлен финальный вариант «Концепции использования государственного языка в деятельности государственных и муниципальных органов и организаций», см. дополнительные материалы (https://drive.google.com/file/d/15OGIcq5Jen52Y1IIPL1k6cpCxegWG5lo/view?usp=sharing).
Структура текста Концепции сохранила при доработке следующие основные разделы: «I. Общие положения», «II. Основные принципы использования государственного языка», «III. Методические рекомендации». При изменении Концепции уточнялись формулировки конкретных рекомендаций юридического, лингвистического и информационного характера, адресованные составителям документов.
Концепция учитывает разнообразие видов правовых актов, особенности их коммуникативных характеристик, а также полученные в рамках других направлений настоящего исследования результаты выявления проблем понятности официальных документов и причин их возникновения.

V. По результатам работы над проектом подготовлена коллективная монография (см. приложение к настоящему отчёту). Часть результатов отражена на сайте plaindocument.org.

Key findings for the stage (summarized)

В 2021 г. исследование продолжено в рамках трёх основных направлений:
I. «корпусного», ориентированного на изучение объективной сложности русских правовых текстов,
II. «перцептивного», ориентированного на изучение субъективной трудности русских официальных документов,
III. мониторинга официальных сайтов государственных органов.
Кроме того, подготовлен итоговый вариант «Концепции использования государственного языка в деятельности государственных и муниципальных органов и организаций».
Основные результаты таковы.
I.1. Завершено создание автоматической модели оценки сложности русских правовых текстов. В ней используется 130 метрик, разделённых на следующие категории:
«базовые метрики»,
«формулы читабельности»,
«учёт слов разных частеречных классов»,
«биграммы и триграммы частеречных тегов (частеречная сочетаемость)»,
«частотность лемм»,
«словообразование»,
«отдельные граммемы»,
«лексические и семантические признаки, неоднословные выражения»,
«синтаксические признаки»,
«оценки связности».
При выборе параметров учтён накопленный опыт исследований сложности и языковые свойства официально-деловых текстов, описанные в работах по функциональной стилистике, а также языковые характеристики, хорошо отделяющие русские тексты официально-делового стиля от текстов других стилей при решении задач автоматической классификации текстов по стилям или регистрам.
I.2. Расширен исследовательский материал. На этапе 2021 г. размечен корпус решений Конституционного суда РФ, собран и размечен корпус законов. Общий размер юридических корпусов достиг 8 млн токенов. Формат разметки: лемматизация UDPipe, частеречная разметка в терминах UDPipe, частеречная и морфологическая разметка pymorphy2, синтаксическая разметка UDPipe. Таким образом, использована двойная частеречная разметка; это обусловлено разницей в наборе частеречных тегов: каждый из наборов по-своему используется для оценок сложности.
I.3. Все тексты собранных юридических корпусов оценены с помощью разработанной модели (то есть каждому документу присвоены значения 130 метрик сложности).
I.4. Выполнено тестирование разработанной модели оценки сложности.
Для определения качества выбранных 130 метрик, их способности предсказывать сложность текстов произведены такие тесты и сравнения:
1. Классификация с использованием полученных метрик в качестве параметров (тестирование проведено на текстовом наборе “plainrussian” и на текстовом наборе школьных учебников); в качестве тестовой модели классификации использован XGBoost.
2. Классификация с использованием в качестве параметров векторов языковой модели USE (Universal Sentence Encoder). Модель тестировалась с предварительным разбиением на тестовую и тренировочную выборки с последующим подбором гиперпараметров с помощью библиотеки “Hyperopt”, представляющей метод эффективной оптимизации параметров с использованием байесовской оптимизации. Для подбора параметров было обучено 1000 моделей с различными параметрами.
Итоговые показатели качества таковы:
- для кодирования с использованием метрик (130 параметров), эксперимент на текстовом наборе “plainrussian”: средняя точность – 88% со среднеквадратичным отклонением 9%;
- для кодирования с использованием метрик (130 параметров), эксперимент на текстовом наборе учебников обществознания: средняя точность – 90% со среднеквадратичным отклонением 5%;
- для кодирования с использованием языковой модели (768 параметров): средняя точность – 70% со среднеквадратичным отклонением 15%.
Таким образом, тестирование подтвердило, что использование метрик позволяет оценивать сложность текстов более точно и согласованно, чем в эксперименте с использованием языковой модели.
I.5. Получены данные об эффективности работы 130 метрик в задаче классификации по сложности. Эксперимент с текстовым набором “plainrussian” показал, что для задачи классификации значимы 72 метрики. Эксперимент с учебниками показал, что для классификации важны 95 признаков. Эффективно сработали: некоторые формулы читабельности; индекс именной лексики; доля неодушевлённых существительных; доля полных прилагательных; средняя длина словоформы в буквах; доля словоформ в родительном падеже; доля длинных слов (4 и более слога); индекс адъективности; доля адъективных модификаторов имени; доля вхождений пассивного подлежащего; средняя длина предложения в слогах; доля лемм с «хвостами», включающими определённые словообразовательные суффиксы; формула динамичности / статичности; доля полных причастий; доля абстрактных лемм; доля биграмм тегов глагола в личной форме и существительного.

Итоги работы перцептивного направления в 2021 г. вкратце таковы.
II.1. Уточнены принципы подсчета финального балла, отражающего понимание текстов и компетенцию работы с официальными документами. Чем больше сумма баллов, тем успешнее респондент заполнил исследовательские анкеты, соответственно, тем выше уровень его компетенции в чтении и понимании официальных документов.
II.2. Выполнена оценка ответов респондентов в соответствии с базовыми социальными параметрами (возрастом, образованием, полом), а также опытом работы с документами и типом занятости.
«Возраст». Уровень компетенции группы «молодежь» был значимо выше, чем людей среднего возраста (средняя сумма баллов по всему опросу – 11,12 vs 9,43, p=0,01).
«Образование». Компетенция группы со средним образованием была значимо ниже компетенции группы с неоконченным высшим образованием по всем трем анкетам в отдельности и по опросу в целом. Респонденты с неоконченным высшим образованием как группа, выделенная и по возрасту, и по уровню образования, чаще отвечают по тексту, демонстрируя лучшие навыки его обработки.
«Гендер». Наблюдались значимые различия сумм баллов, полученных женщинами и мужчинами по всем трем анкетам в отдельности и по опросу в целом: средняя сумма баллов по всему опросу – 10,96 vs 9,5 (p=0,007). Таким образом, можно говорить, что в целом в рамках данного исследования женщины продемонстрировали значимо более высокий уровень компетенции, чем мужчины.
«Тип занятости» (выявлены подгруппы, для которых были выявлены значимые различия средних баллов при попарном сопоставлении). Хуже всех отвечали неработающие, занятые в сфере промышленности, строительства, транспорта и обслуживании, торговле и охране, а стабильно лучше отвечали учащиеся, занятые в области права, гуманитарных областей и культуры (в этой группе были юристы и филологи), бизнеса, управления и администрирования (в этой группе были люди, постоянно работающие с документами на руководящих должностях) и занятые в сфере информационно-коммуникационных технологий.
«Опыт работы с документами». По всем анкетам отдельно и по опросу в целом прослеживается следующая тенденция: лучше всех отвечают люди с небольшим опытом работы с документами, хуже всего – люди с отсутствием опыта работы с документами, а те, кто описал свой опыт как «значительный», стабильно набирает среднее количество баллов. Наиболее высокие навыки обработки текстов демонстрируют студенты, которые чаще всего описывали свой опыт как «незначительный».
II.3. Оценена значимость пяти параметров
Параметр «образование» чаще всего оказывался значимым; «возраст» давал значимое различие по подгруппам реже всего.
II.4. Исследовано отношение к языку официальных документов
Почти половина респондентов испытала негативные эмоции при чтении информированного согласия. Респонденты описали свое впечатление как «омерзительное» и «тягостное», указав среди эмоций «тоску и безысходность», «уныние» и зачастую «страх». Это связано прежде всего с организацией и содержанием документа, в котором подробно прописаны негативные последствия и риски, но не уделяется внимания положительному исходу лечения. 28 % респондентов нейтрально отнеслись к документу. Около 10 % описали свое впечатление как положительное: «Грамотный документ, удовлетворение от чтения»; «Позитивное, информация искореняет страх».
II.5. Выявлено наличие зависимости между проявленным отношением к представленному в Правилах поведения (Анкета-2) языковому варианту и социальными параметрами респондентов. Чем выше уровень образования, тем больше негативных и меньше позитивных оценок языка представленных правил, различие статистически значимо (p=0,0028). Количество нейтральных оценок для всех групп составляет подавляющее большинство (около 50%).
II.6. Получены данные о субъективной сложности (трудности) исследуемых текстов
Если при ответе на какие-то вопросы у респондентов возникали затруднения, они могли поставить в соответствующей графе прочерк (или оставить ячейку незаполненной), в дальнейшем подобные ответы классифицировались как «отказ отвечать». Таким образом, общее количество отказов, полученное на какой-то вопрос или анкету в целом, может служить показателем их сложности в принципе. По Анкете-1 из общего количества полученных ответов отказы составили 11%, их число в ответах на различные вопросы варьировало от 2,9% до 27,9%. По Анкете-2 процент отказов был 5,8% – от 0,8% до 9,5% по отдельным вопросам. Количество отказов по Анкете-3 было самым большим – 25,2% от общего числа ответов.

III. По результатам мониторинга 166 сайтов государственных органов подготовлена аналитическая записка.
IV. Кроме того, подготовлена «Концепция использования государственного языка в деятельности государственных и муниципальных органов и организаций»
V. Результаты третьего года работ по проекту отражены в монографии и на сайте проекта plaindocument.org.

Academic ownership of participants (text description)

- Блинова Ольга Владимировна, доц. Кафедры общего языкознания им Л.А. Вербицкой СПбГУ. Общее руководство проектом. Разработка архитектуры модели оценки сложности русских правовых текстов: выбор метрик, описание параметров подсчёта их значений (130 метрик). Формирование сводного частотного списка русских лемм по результатам анализа данных больших русских корпусов, формирование списков лемм, принадлежащих разным зонам частотного списка (по значениям Zipf value); создание пользовательского словаря юридических терминов, абстрактных слов, аббревиатур, графических сокращений, лексических показателей деонтической возможности и необходимости и др. (в качестве компонентов модели оценки сложности). Разработка схемы тестирования модели. Написание первой главы коллективной монографии по итогам проекта. Написание итогового отчёта.
- Алексеева Юлия Евгеньевна, лаборант-исследователь. Обработка материалов корпуса CorCodex, выделение контекстов, содержащих редуцированные референциальные средства (в объёме не менее 1000 контекстов). Анализ средств организации референциальной связности (редуцированных референциальных средств. Анализ корпусных данных, в том числе с применением статистических методов. Написание научной публикации, посвящённых редуцированным референциальным средствам в юридических текстах.
- Белов Сергей Александрович, декан юридического ф-та СПбГУ, зав. Кафедрой конституционного права СПбГУ. Руководство процессом мониторинга официальных сайтов. Мониторинг официальных сайтов государственных органов и органов местного самоуправления по параметру соответствия информационного наполнения официального сайта требованиям нормативно-правовых актов (подразумевающий на этапе 2021 г. мониторинг 168 сайтов). Разработка финального варианта «Концепции использования государственного языка в деятельности государственных и муниципальных органов и организаций». Написание разделов одной из глав коллективной монографии по итогам проекта. Участие в написании итогового отчёта.
- Глазанова Евгения Валентиновна, ст. преподаватель Кафедры теории и методики преподавания искусств и гуманитарных наук ФСИиН СПбГУ. Участие в качественном анализе данных массового социолингвистического опроса. Статистический анализ корреляций между баллами оценки компетенции в работе со сложными текстами, полученными респондентами по группам, и принадлежностью респондента к группе (по возрасту, гендеру, уровню образования, занятиям и опыту работы с официальными документами). Написание разделов одной из глав коллективной монографии по итогам проекта. Участие в написании итогового отчёта.
- Гулида Виктория Борисовна, науч. сотр. СПбГУ, зав. Лаборатории антропологической лингвистики ИЛИ РАН. Руководство группой, занимающейся обработкой данных с массового социолингвистического опроса. Качественный анализ данных опроса (в том числе анализ вопросов, на которые респонденты отвечают реже всего или отказываются отвечать). Написание научных публикаций. Написание разделов одной из глав коллективной монографии по итогам проекта.
- Кощенко Екатерина Михайловна, лаборант-исследователь. Мониторинг официальных сайтов государственных органов и органов местного самоуправления по параметру соответствия информационного наполнения официального сайта требованиям нормативно-правовых актов (подразумевающий на этапе 2021 г. мониторинг 168 сайтов судов). Участие в написании итогового отчёта.
- Руднева Екатерина Алексеевна, лаборант-исследователь, науч. сотр. Лаборатории антропологической лингвистики ИЛИ РАН. Участие в качественном анализе данных массового социолингвистического опроса. На материале опроса и на материале полуструктурированных интервью с врачами, проведённых на этапе 2020 г. -- исследование функционирование официального медицинского документа (информационного согласия на медицинское вмешательство). Подготовка и обновление текстового содержимого страницы сайта проекта, посвящённой опросу. Написание научных публикаций. Написание разделов одной из глав коллективной монографии по итогам проекта. Участие в написании итогового отчёта.
- Тарасов Никита Андреевич, лаборант-исследователь. Автоматическая лемматизация, частеречная, морфологическая и синтаксическая разметка юридических корпусов. Участие в формировании сводного частотного списка русских лемм по результатам анализа данных больших русских корпусов. Создание модели автоматического определения сложности текстов, обученной на размеченных в рамках проекта данных: написание программного кода на языке Python, предназначенного для автоматического анализа сложности официальных документов. Тестирование модели. Автоматическое определение значений параметров оценки сложности для всех текстов корпуса CorRIDA, CorDec и CorCodex, запись значений параметров в таблицы, содержащие метаданных ко всем текстам двух корпусов.
- Тарасова Кристина Владимировна, лаборант-исследователь. Мониторинг официальных сайтов государственных органов и органов местного самоуправления по параметру наличия юридико-лингвистической неопределенности в текстах официальных сайтов и по параметру читабельности текстов (подразумевающий на этапе 2021 г. мониторинг 168 сайтов). Написание аналитической записки по результатам мониторинга. Написание разделов одной из глав коллективной монографии по итогам проекта.

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

не разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

разрешается

Rationale of the interdisciplinary approach

Проект является принципиально междисциплинарным и предполагает сотрудничество между лингвистами, юристами и программистами. Сказанное касается не только общей идеологии проекта (см. пункт "описание проекта" выше, где эксплицируются понятия "сложность", "трудность" и "понятность"), но и конкретных совместных действий.
Так, например, созданные в рамках проекта языковые корпусы -- корпус нормативных документов (CorCodex) и корпус решений конституционного суда РФ (CorDes) -- собраны руками юристов, а затем размечены лингвистом и программистом.
В рамках мониторинга сайтов государственных органов использована не только информация юридического характера, но и оценка языкового контента сайтов (с применением формул читабельности).
Лингвисты участвовали в обсуждении "Концепции использования государственного языка в деятельности государственных и муниципальных органов и организаций", юристы -- предлагали списки существующих словарей юридических терминов (пользовательский словарь, включающий примерно 10 тыс. терминов, стал одним из компонентов модели оценки сложности русских правовых текстов).
AcronymRSF_RG_2019 - 3
StatusFinished
Effective start/end date1/01/2131/12/21

Documents

ID: 72674776