Алгоритмы восстановления редуцированных форм: роль системы языка: 2021 г. этап 3

Project: Grant fulfilmentGrant stage fulfilment

Project Details

Description

Несмотря на значительные достижения в области автоматического распознавания звучащей речи, ни одна из существующих автоматических систем до сих пор не справляется с задачей распознавания непринужденной естественной звучащей речи так же эффективно, как носитель языка. Одной из основных проблем при этом остается фонетическая редукция словоформ в естественной речи. Изучение того, как носитель языка обрабатывает редуцированные словоформы, разработка с учетом полученных данных компьютерных программ и их последующая апробация актуальны как с точки зрения получения новых данных о процессе обработки естественной речи человеком, так и для усовершенствования существующих автоматических систем распознавания речи.

Layman's description

Когда мы говорим на родном языке мы не всегда произносим все слова полностью: мы пропускаем некоторые звуки, в результате чего возникают так называемые редуцированные слова. Одни слова встречаются в редуцированном виде в нашей речи достаточно часто и имеют типичный вариант произнесения (например, «щас» вместо «сейчас», «када» вместо «когда» и т.д.), другие же редуцируются разными носителями языка (или даже одним и тем же человеком в пределах одной фразы) по-разному. В среднем – по данным, полученным на материале разных языков, – около 20% всех слов подвергаются редукции в устной речи. Причем редукция встречается не только в неподготовленной спонтанной речи, но и при чтении (и даже в речи дикторов радио и телевидения). Чтобы получить представление о том, что на самом деле произносят носители русского языка, можно обратиться к Корпусу русской устной речи (http://russpeech.spbu.ru/), который был создан в рамках настоящего проекта. Все тексты в корпусе снабжены орфографической и полной акустико-фонетической расшифровкой, имеется возможность скачать звуковой файл для каждого примера. Кроме того, на сайте представлен частотный словарь орфографических словоформ с указанием всех встретившихся в корпусе вариантов их произнесения, в котором можно увидеть, например, что для слова «это» есть 40 разных вариантов произнесения, а для «потому что» – 37. Корпус может использоваться как источник примеров на занятиях по русскому языку как иностранному, а также служить материалом для научных исследований в области фонетики, психолингвистики, прикладной лингвистики.
Подобные исследования были проведены в рамках настоящего проекта. Основной целью проекта было разработать и протестировать на материале корпуса компьютерную программу, которая бы реализовывала наши представления о том, как носитель русского языка восстанавливает редуцированные словоформы при восприятии речи. Программа, написанная на языке Python, включает в себя 1) словарь, в котором каждому варианту транскрипции соответствуют все возможные (встретившиеся в Корпусе) интерпретации в орфографии (при этом единицами словаря являются не только однословные единицы, но и некоторые неоднословные – те, которые в речи воспроизводятся как целое, например: «потому что», «может быть» и др.); 2) морфологический словарь, в котором содержится полное описание морфологических характеристик словоформ Корпуса русской устной речи, и 3) правила обработки морфологической информации (за время реализации проекта были протестированы три варианта алгоритма: анализ слева-направо, анализ «от предиката» и сопоставление соседних элементов). Применение этой программы к фрагментам из корпуса, содержащим редуцированные словоформы, продемонстрировало, что треть всех фрагментов интерпретируется алгоритмом просто путем обращения к словарю, поскольку каждая из образующих фрагмент редуцированных словоформ представлена в словаре единственным орфографическим вариантом. Следовательно, в таких случаях можно обойтись без морфологического анализа. Из оставшихся фрагментов большая часть восстанавливается процедурой сопоставления морфологических параметров соседних элементов или при анализе «от предиката», который учитывает в том числе валентности глагола. И только 15% фрагментов не удалось восстановить разработанными алгоритмами: в большинстве из них для разрешения неоднозначности требуется привлечение семантической информации из более широкого контекста, что не предполагалось делать в рамках текущего проекта.
Параллельно с разработкой компьютерной программы мы изучали лингвистические факторы, влияющие на возникновение фонетической редукции. С помощью методов машинного обучения было установлено, что наиболее важными факторами являются количество слогов (чем больше слогов в слове, тем выше вероятность того, что оно будет редуцировано) и частеречная принадлежность слова. При этом набор полученных признаков различался для однословных и неоднословных единиц из корпуса. Так, для однословных единиц важно, является слово прилагательным или нет: прилагательные склонны к большей редукции, чем другие части речи. Среди неоднословных же единиц, согласно полученным данным, более других частей речи к редукции склонны вводные слова. Кроме того, в рамках проекта были получены интересные данные о редукции предлогов: оказалось, что первообразные предлоги могут полностью выпадать в устной речи (прежде всего это характерно для предлога «в»: он выпал примерно в 22% всех примеров из нашего корпуса), при этом носители языка при восприятии речи в большинстве случаев без труда восстанавливают пропущенный предлог.

Key findings for the project

1. Был существенно пополнен и доработан Корпус русской устной речи, который создается в СПбГУ с 2009 года и используется для создания функциональной модели восприятия речи. На настоящий момент он содержит звучащие тексты общим объёмом около 30 тыс. словоупотреблений, отражающие разные стили речи. Все звуковые файлы снабжены орфографической расшифровкой и акустико-фонетической транскрипцией. На базе корпуса создан частотный словарь орфографических словоформ с указанием всех встретившихся вариантов их акустической реализации. Для представления результатов проекта создан сайт http://russpeech.spbu.ru/. Корпус использовался как основной материал для всех исследований, проведенных в рамках проекта.
2. Разработан предполагаемый алгоритм восстановления редуцированных словоформ в рамках клаузы; программа включает в себя следующие составляющие:
2.1. словарь, имитирующий перцептивный словарь слушающего, в котором каждому варианту транскрипции соответствуют все возможные (встретившиеся в Корпусе) интерпретации в орфографии; единицами словаря являются как однословные единицы, так и неоднословные;
2.2. морфологический словарь, в котором содержится полное описание морфологических характеристик словоформ Корпуса русской устной речи;
2.3. непосредственно программу, которая имитирует процесс распознавания редуцированных единиц в рамках клаузы посредством обращения к словарям и применения ряда грамматических правил. В ходе реализации проекта тестировались три варианта работы алгоритма на данном этапе: анализ слева-направо, анализ «от предиката» (в том числе с учетом синтаксических валентностей глаголов, информация о которых также была получена в рамках настоящего проекта) и сопоставление морфологических описаний соседних элементов. Код текущей версии программы на языке Python размещён в свободном доступе: https://github.com/dayterr/algorithm_of_perception.
3. Алгоритм протестирован на материале 120 цельных (не «расчлененных» паузами) дискурсивных единиц из Корпуса русской устной речи. 40 из них интерпретируется алгоритмом однозначно просто путем обращения к словарю, поскольку каждая из образующих клаузу редуцированных словоформ представлена в словаре единственным орфографическим вариантом. Следовательно, в таких случаях можно обойтись без морфологического анализа. Из оставшихся 80-ти 38 восстанавливаются процедурой сопоставления соседей, из оставшихся 42-х 24 восстанавливаются процедурой «от предиката». И только 18 (15%) не удалось восстановить разработанными алгоритмами. В большинстве из них для разрешения неоднозначности требуется привлечение семантической информации из более широкого контекста.
4. В ходе работы над алгоритмом были проведены дополнительные корпусные и экспериментальные исследования, которые не только были учтены в рамках текущего проекта, но и позволили наметить пути дальнейшего изучения процесса восприятия естественной устной речи.
4.1. Создан словарь синтаксических валентностей для тех глаголов, которые тестировались в алгоритме распознавания редуцированных словоформ. Валентностная структура формировалась на основе анализа примеров употребления каждого из глаголов в устных текстах. Валентности были учтены в алгоритме при анализе «от предиката». Наиболее детально и на наиболее представительном материале (353 клаузы) была проанализирована валентностная структура глагола «быть» в русской устной речи.
4.2. Отдельно был рассмотрен вопрос о неоднословных единицах в перцептивном словаре. Изначально в корпус в качестве самостоятельных были включены только неоднословные единицы в соответствии с перечнем, представленным в (Рогожникова 2003) («потому_что», «может_быть» и т.п., по аналогии с тем, как это было сделано при создании Корпуса русского литературного языка). По результатам анализа записей Корпуса к ним были добавлены фонетические слова, образованные соединением совпадающих с приставками предлогов со следующим знаменательным словом и объединением частицы «не» со следующим знаменательным словом. Кроме того, был рассмотрен вопрос о включении в корпус двусловных сочетаний, имеющих омофоничные пары среди однословных единиц. В качестве наиболее вероятных кандидатов на вхождение в ментальный лексикон носителя русского языка выделены (и добавлены в словарь) четыре неоднословных сочетания, которые являются высокочастотными или сопоставимы по частотности со своими однословными «парами» («от того», «и так», «за то», «так же»).
4.3. С использованием методов корпусного анализа и машинного обучения было проведено исследование лингвистических факторов, способствующих редукции слов в русской устной речи. Набор данных для однословных единиц включал в себя 14933 единицы, неоднословных – 428 единиц. Наиболее значимыми факторами для однословных единиц оказались количество слогов (чем слово длиннее, чем вероятнее возникновение редукции в нем) и является ли слово прилагательным (прилагательные более склонны к редукции, чем словоформы, относящиеся к другим частям речи). Для неоднословных единиц в список наиболее значимых признаков попали количество слогов, а также частотность в устной речи в целом и в конкретном тексте (чем она выше, тем выше вероятность возникновения редукции).
5. Результаты исследования были представлены в 23 докладах на профильных конференциях и семинарах; опубликовано 6 статей в изданиях, индексируемых РИНЦ (в том числе две в изданиях, индексируемых Scopus), и 8 тезисов докладов (еще одни тезисы приняты в печать и будут опубликованы в первом квартале 2022 года). Участниками проекта защищены три выпускные квалификационные работы по теме проекта: Коробейникова И.И. «Алгоритмы распознавания дискурсивных единиц с редуцированными словоформами (на материале русской устной речи)» (ВКР магистра лингвистики, СПбГУ, 2019), Дайтер М.В. «Автоматическое предсказание фонетической редукции словоформ в русской спонтанной речи» (ВКР бакалавра лингвистики, СПбГУ, 2020), Шарыгина С.С. «Клаузы с формами глагола “быть” в русской устной речи: корпусное исследование» (ВКР магистра лингвистики, СПбГУ, 2021).
6. Результаты проекта внедряются в учебный процесс: Корпус русской устной речи используется на занятиях по фонетике в СПбГУ, затронутые в проекте теоретические вопросы обсуждаются в курсах по психолингвистике и фонетике устной речи в СПбГУ и Гамбургском университете (Гамбург, Германия). Организован научный семинар для студентов и аспирантов под руководством Е.И. Риехакайнен, посвященный проблемам восприятия естественной устной речи (в 2021 году проведено 26 заседаний).

Key findings for the stage (summarized)

1. Разработан предполагаемый алгоритм восстановления редуцированных словоформ в рамках клаузы; программа включает в себя следующие составляющие:
1.1. словарь, имитирующий перцептивный словарь слушающего, в котором каждому варианту транскрипции соответствуют все возможные интерпретации в орфографии; единицами словаря являются как однословные единицы, так и неоднословные;
1.2. морфологический словарь, в котором содержится полное описание морфологических характеристик словоформ Корпуса русской устной речи;
1.3. непосредственно программу, которая имитирует процесс распознавания редуцированных единиц в рамках клаузы посредством обращения к словарям и применения ряда грамматических правил. Тестировались три варианта работы алгоритма на данном этапе: анализ слева-направо, анализ «от предиката» (в том числе с учетом синтаксических валентностей глаголов, информация о которых также была получена в рамках настоящего проекта) и сопоставление морфологических описаний соседних элементов. Код текущей версии программы на языке Python размещён в свободном доступе: https://github.com/dayterr/algorithm_of_perception.
2. Алгоритм протестирован на материале 120 цельных (не «расчлененных» паузами) дискурсивных единиц из Корпуса русской устной речи. 40 из них интерпретируется алгоритмом однозначно просто путем обращения к словарю, поскольку каждая из образующих клаузу редуцированных словоформ представлена в словаре единственным орфографическим вариантом. Из оставшихся 80-ти 38 восстанавливаются процедурой сопоставления соседей, из оставшихся 42-х 24 восстанавливаются процедурой «от предиката». И только 18 (15%) не удалось восстановить разработанными алгоритмами. В большинстве из них для разрешения неоднозначности требуется привлечение семантической информации из более широкого контекста.
3. В ходе работы над алгоритмом были проведены дополнительные корпусные и экспериментальные исследования, которые не только были учтены в рамках текущего проекта, но и позволили наметить пути дальнейшего изучения процесса восприятия естественной устной речи.
3.1. Создан словарь синтаксических валентностей для тех глаголов, которые тестировались в алгоритме распознавания редуцированных словоформ. Валентностная структура формировалась на основе анализа примеров употребления каждого из глаголов в устных текстах. Валентности были учтены в алгоритме при анализе «от предиката». Наиболее детально и на наиболее представительном материале (353 клаузы) была проанализирована валентностная структура глагола «быть» в русской устной речи.
3.2. Отдельно был рассмотрен вопрос о неоднословных единицах в перцептивном словаре. Изначально в корпус в качестве самостоятельных были включены только неоднословные единицы в соответствии с перечнем, представленным в (Рогожникова 2003) («потому_что», «может_быть» и т.п.). По результатам анализа записей Корпуса к ним были добавлены фонетические слова, образованные соединением совпадающих с приставками предлогов со следующим знаменательным словом и объединением частицы «не» со следующим знаменательным словом. Был рассмотрен вопрос о включении в корпус двусловных сочетаний, имеющих омофоничные пары среди однословных единиц. В качестве наиболее вероятных кандидатов на вхождение в ментальный лексикон носителя русского языка выделены четыре неоднословных сочетания, которые являются высокочастотными или сопоставимы по частотности со своими однословными «парами» («от того», «и так», «за то», «так же»).
3.3. С использованием методов корпусного анализа и машинного обучения было проведено исследование лингвистических факторов, способствующих редукции слов в русской устной речи. Наиболее значимыми факторами для однословных единиц оказались количество слогов (чем слово длиннее, чем вероятнее возникновение редукции в нем) и является ли слово прилагательным (прилагательные более склонны к редукции, чем словоформы, относящиеся к другим частям речи). Для неоднословных единиц в список наиболее значимых признаков попали количество слогов, а также частотность в устной речи в целом и в конкретном тексте (чем она выше, тем выше вероятность возникновения редукции).
4. В 2021 году результаты исследования были представлены в 9 докладах на профильных конференциях и семинарах; опубликованы 4 статьи в изданиях, индексируемых РИНЦ (в том числе одна в издании, индексируемом Scopus). С.С. Шарыгина защитила ВКР магистра лингвистики на тему «Клаузы с формами глагола “быть” в русской устной речи: корпусное исследование» (СПбГУ, 2021).
6. Результаты проекта успешно внедряются в учебный процесс: Корпус русской устной речи используется на занятиях по фонетике в СПбГУ, затронутые в проекте теоретические вопросы обсуждаются в курсах по психолингвистике и фонетике устной речи в СПбГУ и Гамбургском университете (Гамбург, Германия). Организован научный семинар для студентов и аспирантов под руководством Е.И. Риехакайнен, посвященный проблемам восприятия естественной устной речи (в 2021 году проведено 26 заседаний).

Academic ownership of participants (text description)

Риехакайнен Елена Игоревна, доцент кафедры общего языкознания им. Л.А. Вербицкой СПбГУ – общее руководство проектом; изучение статуса неоднословных единиц в ментальном лексиконе; исследование факторов, влияющих на возникновение редукции; представление результатов на конференциях; подготовка статей; внедрение полученных результатов в учебный процесс;
Венцов Анатолий Владимирович, инженер-исследователь Института филологических исследований СПбГУ – разработка и тестирование алгоритма распознавания редуцированных словоформ; создание словарей; представление результатов на конференциях;
Дайтер Мария Владимировна, магистрант СПбГУ - разработка и тестирование алгоритма распознавания редуцированных словоформ; исследование факторов, влияющих на возникновение редукции; представление результатов на конференциях; подготовка статей;
Раева Ольга Васильевна, аспирант СПбГУ – расшифровка записей; пополнение Корпуса русской устной речи; описание редуцированных единиц в корпусе;
Шарыгина Софья Сергеевна, магистрант СПбГУ – описание валентностной структуры глаголов в русской устной речи.

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

Не разрешается.

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

Разрешается.
Short titleАлгоритмы восстановления редуцированных форм
AcronymRFBR_a_2019 - 3
StatusFinished
Effective start/end date23/03/2128/12/21

Fingerprint

Explore the research topics touched on by this project. These labels are generated based on the underlying awards/grants. Together they form a unique fingerprint.