Алгоритмы восстановления редуцированных форм: роль системы языка: 2021 г. этап 3

Риехакайнен, Елена Игоревна (руководитель)
Венцов, Анатолий Владимирович (исполнитель)
Дайтер, Мария Владимировна (исполнитель)
Раева, Ольга Васильевна (исполнитель)
Шарыгина, Софья Сергеевна (исполнитель)

описание

Несмотря на значительные достижения в области автоматического распознавания звучащей речи, ни одна из существующих автоматических систем до сих пор не справляется с задачей распознавания непринужденной естественной звучащей речи так же эффективно, как носитель языка. Одной из основных проблем при этом остается фонетическая редукция словоформ в естественной речи. Изучение того, как носитель языка обрабатывает редуцированные словоформы, разработка с учетом полученных данных компьютерных программ и их последующая апробация актуальны как с точки зрения получения новых данных о процессе обработки естественной речи человеком, так и для усовершенствования существующих автоматических систем распознавания речи.

описание для неспециалистов

Когда мы говорим на родном языке мы не всегда произносим все слова полностью: мы пропускаем некоторые звуки, в результате чего возникают так называемые редуцированные слова. Одни слова встречаются в редуцированном виде в нашей речи достаточно часто и имеют типичный вариант произнесения (например, «щас» вместо «сейчас», «када» вместо «когда» и т.д.), другие же редуцируются разными носителями языка (или даже одним и тем же человеком в пределах одной фразы) по-разному. В среднем – по данным, полученным на материале разных языков, – около 20% всех слов подвергаются редукции в устной речи. Причем редукция встречается не только в неподготовленной спонтанной речи, но и при чтении (и даже в речи дикторов радио и телевидения). Чтобы получить представление о том, что на самом деле произносят носители русского языка, можно обратиться к Корпусу русской устной речи (http://russpeech.spbu.ru/), который был создан в рамках настоящего проекта. Все тексты в корпусе снабжены орфографической и полной акустико-фонетической расшифровкой, имеется возможность скачать звуковой файл для каждого примера. Кроме того, на сайте представлен частотный словарь орфографических словоформ с указанием всех встретившихся в корпусе вариантов их произнесения, в котором можно увидеть, например, что для слова «это» есть 40 разных вариантов произнесения, а для «потому что» – 37. Корпус может использоваться как источник примеров на занятиях по русскому языку как иностранному, а также служить материалом для научных исследований в области фонетики, психолингвистики, прикладной лингвистики.
Подобные исследования были проведены в рамках настоящего проекта. Основной целью проекта было разработать и протестировать на материале корпуса компьютерную программу, которая бы реализовывала наши представления о том, как носитель русского языка восстанавливает редуцированные словоформы при восприятии речи. Программа, написанная на языке Python, включает в себя 1) словарь, в котором каждому варианту транскрипции соответствуют все возможные (встретившиеся в Корпусе) интерпретации в орфографии (при этом единицами словаря являются не только однословные единицы, но и некоторые неоднословные – те, которые в речи воспроизводятся как целое, например: «потому что», «может быть» и др.); 2) морфологический словарь, в котором содержится полное описание морфологических характеристик словоформ Корпуса русской устной речи, и 3) правила обработки морфологической информации (за время реализации проекта были протестированы три варианта алгоритма: анализ слева-направо, анализ «от предиката» и сопоставление соседних элементов). Применение этой программы к фрагментам из корпуса, содержащим редуцированные словоформы, продемонстрировало, что треть всех фрагментов интерпретируется алгоритмом просто путем обращения к словарю, поскольку каждая из образующих фрагмент редуцированных словоформ представлена в словаре единственным орфографическим вариантом. Следовательно, в таких случаях можно обойтись без морфологического анализа. Из оставшихся фрагментов большая часть восстанавливается процедурой сопоставления морфологических параметров соседних элементов или при анализе «от предиката», который учитывает в том числе валентности глагола. И только 15% фрагментов не удалось восстановить разработанными алгоритмами: в большинстве из них для разрешения неоднозначности требуется привлечение семантической информации из более широкого контекста, что не предполагалось делать в рамках текущего проекта.
Параллельно с разработкой компьютерной программы мы изучали лингвистические факторы, влияющие на возникновение фонетической редукции. С помощью методов машинного обучения было установлено, что наиболее важными факторами являются количество слогов (чем больше слогов в слове, тем выше вероятность того, что оно будет редуцировано) и частеречная принадлежность слова. При этом набор полученных признаков различался для однословных и неоднословных единиц из корпуса. Так, для однословных единиц важно, является слово прилагательным или нет: прилагательные склонны к большей редукции, чем другие части речи. Среди неоднословных же единиц, согласно полученным данным, более других частей речи к редукции склонны вводные слова. Кроме того, в рамках проекта были получены интересные данные о редукции предлогов: оказалось, что первообразные предлоги могут полностью выпадать в устной речи (прежде всего это характерно для предлога «в»: он выпал примерно в 22% всех примеров из нашего корпуса), при этом носители языка при восприятии речи в большинстве случаев без труда восстанавливают пропущенный предлог.

основные результаты по проекту в целом

1. Был существенно пополнен и доработан Корпус русской устной речи, который создается в СПбГУ с 2009 года и используется для создания функциональной модели восприятия речи. На настоящий момент он содержит звучащие тексты общим объёмом около 30 тыс. словоупотреблений, отражающие разные стили речи. Все звуковые файлы снабжены орфографической расшифровкой и акустико-фонетической транскрипцией. На базе корпуса создан частотный словарь орфографических словоформ с указанием всех встретившихся вариантов их акустической реализации. Для представления результатов проекта создан сайт http://russpeech.spbu.ru/. Корпус использовался как основной материал для всех исследований, проведенных в рамках проекта.
2. Разработан предполагаемый алгоритм восстановления редуцированных словоформ в рамках клаузы; программа включает в себя следующие составляющие:
2.1. словарь, имитирующий перцептивный словарь слушающего, в котором каждому варианту транскрипции соответствуют все возможные (встретившиеся в Корпусе) интерпретации в орфографии; единицами словаря являются как однословные единицы, так и неоднословные;
2.2. морфологический словарь, в котором содержится полное описание морфологических характеристик словоформ Корпуса русской устной речи;
2.3. непосредственно программу, которая имитирует процесс распознавания редуцированных единиц в рамках клаузы посредством обращения к словарям и применения ряда грамматических правил. В ходе реализации проекта тестировались три варианта работы алгоритма на данном этапе: анализ слева-направо, анализ «от предиката» (в том числе с учетом синтаксических валентностей глаголов, информация о которых также была получена в рамках настоящего проекта) и сопоставление морфологических описаний соседних элементов. Код текущей версии программы на языке Python размещён в свободном доступе: https://github.com/dayterr/algorithm_of_perception.
3. Алгоритм протестирован на материале 120 цельных (не «расчлененных» паузами) дискурсивных единиц из Корпуса русской устной речи. 40 из них интерпретируется алгоритмом однозначно просто путем обращения к словарю, поскольку каждая из образующих клаузу редуцированных словоформ представлена в словаре единственным орфографическим вариантом. Следовательно, в таких случаях можно обойтись без морфологического анализа. Из оставшихся 80-ти 38 восстанавливаются процедурой сопоставления соседей, из оставшихся 42-х 24 восстанавливаются процедурой «от предиката». И только 18 (15%) не удалось восстановить разработанными алгоритмами. В большинстве из них для разрешения неоднозначности требуется привлечение семантической информации из более широкого контекста.
4. В ходе работы над алгоритмом были проведены дополнительные корпусные и экспериментальные исследования, которые не только были учтены в рамках текущего проекта, но и позволили наметить пути дальнейшего изучения процесса восприятия естественной устной речи.
4.1. Создан словарь синтаксических валентностей для тех глаголов, которые тестировались в алгоритме распознавания редуцированных словоформ. Валентностная структура формировалась на основе анализа примеров употребления каждого из глаголов в устных текстах. Валентности были учтены в алгоритме при анализе «от предиката». Наиболее детально и на наиболее представительном материале (353 клаузы) была проанализирована валентностная структура глагола «быть» в русской устной речи.
4.2. Отдельно был рассмотрен вопрос о неоднословных единицах в перцептивном словаре. Изначально в корпус в качестве самостоятельных были включены только неоднословные единицы в соответствии с перечнем, представленным в (Рогожникова 2003) («потому_что», «может_быть» и т.п., по аналогии с тем, как это было сделано при создании Корпуса русского литературного языка). По результатам анализа записей Корпуса к ним были добавлены фонетические слова, образованные соединением совпадающих с приставками предлогов со следующим знаменательным словом и объединением частицы «не» со следующим знаменательным словом. Кроме того, был рассмотрен вопрос о включении в корпус двусловных сочетаний, имеющих омофоничные пары среди однословных единиц. В качестве наиболее вероятных кандидатов на вхождение в ментальный лексикон носителя русского языка выделены (и добавлены в словарь) четыре неоднословных сочетания, которые являются высокочастотными или сопоставимы по частотности со своими однословными «парами» («от того», «и так», «за то», «так же»).
4.3. С использованием методов корпусного анализа и машинного обучения было проведено исследование лингвистических факторов, способствующих редукции слов в русской устной речи. Набор данных для однословных единиц включал в себя 14933 единицы, неоднословных – 428 единиц. Наиболее значимыми факторами для однословных единиц оказались количество слогов (чем слово длиннее, чем вероятнее возникновение редукции в нем) и является ли слово прилагательным (прилагательные более склонны к редукции, чем словоформы, относящиеся к другим частям речи). Для неоднословных единиц в список наиболее значимых признаков попали количество слогов, а также частотность в устной речи в целом и в конкретном тексте (чем она выше, тем выше вероятность возникновения редукции).
5. Результаты исследования были представлены в 23 докладах на профильных конференциях и семинарах; опубликовано 6 статей в изданиях, индексируемых РИНЦ (в том числе две в изданиях, индексируемых Scopus), и 8 тезисов докладов (еще одни тезисы приняты в печать и будут опубликованы в первом квартале 2022 года). Участниками проекта защищены три выпускные квалификационные работы по теме проекта: Коробейникова И.И. «Алгоритмы распознавания дискурсивных единиц с редуцированными словоформами (на материале русской устной речи)» (ВКР магистра лингвистики, СПбГУ, 2019), Дайтер М.В. «Автоматическое предсказание фонетической редукции словоформ в русской спонтанной речи» (ВКР бакалавра лингвистики, СПбГУ, 2020), Шарыгина С.С. «Клаузы с формами глагола “быть” в русской устной речи: корпусное исследование» (ВКР магистра лингвистики, СПбГУ, 2021).
6. Результаты проекта внедряются в учебный процесс: Корпус русской устной речи используется на занятиях по фонетике в СПбГУ, затронутые в проекте теоретические вопросы обсуждаются в курсах по психолингвистике и фонетике устной речи в СПбГУ и Гамбургском университете (Гамбург, Германия). Организован научный семинар для студентов и аспирантов под руководством Е.И. Риехакайнен, посвященный проблемам восприятия естественной устной речи (в 2021 году проведено 26 заседаний).

основные результаты по этапу (кратко)

1. Разработан предполагаемый алгоритм восстановления редуцированных словоформ в рамках клаузы; программа включает в себя следующие составляющие:
1.1. словарь, имитирующий перцептивный словарь слушающего, в котором каждому варианту транскрипции соответствуют все возможные интерпретации в орфографии; единицами словаря являются как однословные единицы, так и неоднословные;
1.2. морфологический словарь, в котором содержится полное описание морфологических характеристик словоформ Корпуса русской устной речи;
1.3. непосредственно программу, которая имитирует процесс распознавания редуцированных единиц в рамках клаузы посредством обращения к словарям и применения ряда грамматических правил. Тестировались три варианта работы алгоритма на данном этапе: анализ слева-направо, анализ «от предиката» (в том числе с учетом синтаксических валентностей глаголов, информация о которых также была получена в рамках настоящего проекта) и сопоставление морфологических описаний соседних элементов. Код текущей версии программы на языке Python размещён в свободном доступе: https://github.com/dayterr/algorithm_of_perception.
2. Алгоритм протестирован на материале 120 цельных (не «расчлененных» паузами) дискурсивных единиц из Корпуса русской устной речи. 40 из них интерпретируется алгоритмом однозначно просто путем обращения к словарю, поскольку каждая из образующих клаузу редуцированных словоформ представлена в словаре единственным орфографическим вариантом. Из оставшихся 80-ти 38 восстанавливаются процедурой сопоставления соседей, из оставшихся 42-х 24 восстанавливаются процедурой «от предиката». И только 18 (15%) не удалось восстановить разработанными алгоритмами. В большинстве из них для разрешения неоднозначности требуется привлечение семантической информации из более широкого контекста.
3. В ходе работы над алгоритмом были проведены дополнительные корпусные и экспериментальные исследования, которые не только были учтены в рамках текущего проекта, но и позволили наметить пути дальнейшего изучения процесса восприятия естественной устной речи.
3.1. Создан словарь синтаксических валентностей для тех глаголов, которые тестировались в алгоритме распознавания редуцированных словоформ. Валентностная структура формировалась на основе анализа примеров употребления каждого из глаголов в устных текстах. Валентности были учтены в алгоритме при анализе «от предиката». Наиболее детально и на наиболее представительном материале (353 клаузы) была проанализирована валентностная структура глагола «быть» в русской устной речи.
3.2. Отдельно был рассмотрен вопрос о неоднословных единицах в перцептивном словаре. Изначально в корпус в качестве самостоятельных были включены только неоднословные единицы в соответствии с перечнем, представленным в (Рогожникова 2003) («потому_что», «может_быть» и т.п.). По результатам анализа записей Корпуса к ним были добавлены фонетические слова, образованные соединением совпадающих с приставками предлогов со следующим знаменательным словом и объединением частицы «не» со следующим знаменательным словом. Был рассмотрен вопрос о включении в корпус двусловных сочетаний, имеющих омофоничные пары среди однословных единиц. В качестве наиболее вероятных кандидатов на вхождение в ментальный лексикон носителя русского языка выделены четыре неоднословных сочетания, которые являются высокочастотными или сопоставимы по частотности со своими однословными «парами» («от того», «и так», «за то», «так же»).
3.3. С использованием методов корпусного анализа и машинного обучения было проведено исследование лингвистических факторов, способствующих редукции слов в русской устной речи. Наиболее значимыми факторами для однословных единиц оказались количество слогов (чем слово длиннее, чем вероятнее возникновение редукции в нем) и является ли слово прилагательным (прилагательные более склонны к редукции, чем словоформы, относящиеся к другим частям речи). Для неоднословных единиц в список наиболее значимых признаков попали количество слогов, а также частотность в устной речи в целом и в конкретном тексте (чем она выше, тем выше вероятность возникновения редукции).
4. В 2021 году результаты исследования были представлены в 9 докладах на профильных конференциях и семинарах; опубликованы 4 статьи в изданиях, индексируемых РИНЦ (в том числе одна в издании, индексируемом Scopus). С.С. Шарыгина защитила ВКР магистра лингвистики на тему «Клаузы с формами глагола “быть” в русской устной речи: корпусное исследование» (СПбГУ, 2021).
6. Результаты проекта успешно внедряются в учебный процесс: Корпус русской устной речи используется на занятиях по фонетике в СПбГУ, затронутые в проекте теоретические вопросы обсуждаются в курсах по психолингвистике и фонетике устной речи в СПбГУ и Гамбургском университете (Гамбург, Германия). Организован научный семинар для студентов и аспирантов под руководством Е.И. Риехакайнен, посвященный проблемам восприятия естественной устной речи (в 2021 году проведено 26 заседаний).

описание вклада в работу каждого из участников (учётная форма ЦИТиС)

Риехакайнен Елена Игоревна, доцент кафедры общего языкознания им. Л.А. Вербицкой СПбГУ – общее руководство проектом; изучение статуса неоднословных единиц в ментальном лексиконе; исследование факторов, влияющих на возникновение редукции; представление результатов на конференциях; подготовка статей; внедрение полученных результатов в учебный процесс;
Венцов Анатолий Владимирович, инженер-исследователь Института филологических исследований СПбГУ – разработка и тестирование алгоритма распознавания редуцированных словоформ; создание словарей; представление результатов на конференциях;
Дайтер Мария Владимировна, магистрант СПбГУ - разработка и тестирование алгоритма распознавания редуцированных словоформ; исследование факторов, влияющих на возникновение редукции; представление результатов на конференциях; подготовка статей;
Раева Ольга Васильевна, аспирант СПбГУ – расшифровка записей; пополнение Корпуса русской устной речи; описание редуцированных единиц в корпусе;
Шарыгина Софья Сергеевна, магистрант СПбГУ – описание валентностной структуры глаголов в русской устной речи.

передача полной копии отчёта третьим лицам для некоммерческого использования: разрешается/не разрешается (учётная форма ЦИТиС)

Не разрешается.

проверка отчёта на неправомерные заимствования во внешних источниках: разрешается/не разрешается (учётная форма ЦИТиС)

Разрешается.

Краткое название	Алгоритмы восстановления редуцированных форм
Акроним	RFBR_a_2019 - 3
Статус	Завершено
Эффективные даты начала/конца	23/03/21 → 28/12/21

Области исследований

восприятие устной речи, редукция, ментальный лексикон, русский язык, психолингвистика, автоматическое распознавание речи, корпусы устной речи, фонетика

ID: 75323481