Description

Теоретический аспект исследования заключается в сравнении культурных особенностей отражения эмоционального состояния в характеристиках речи детей. Практическим выходом будет являться возможность использования полученных данных перцептивного исследования о распознавании взрослыми эмоционального состояния ребенка – для лучшего понимания специалистами состояния ребенка; в качестве нормативных данных – при работе с детьми с нарушением развития разной этиологии. Данные по автоматическому распознаванию эмоционального состояния могут быть использованы при создании интерфейсов, при создании систем для обучения детей с атипичным развитием (в частности – аутистов). Таким образом, по теоретической значимости и практическому применению предлагаемый проект не имеет аналогов и может быть выполнен на высоком профессиональном уровне, соответствующем мировому.
Актуальность исследования обусловлена теоретической значимостью проблемы распознавания эмоционального состояния по характеристикам голоса и речи. Решаемая в рамках проекта проблема выявления параметров речевого сообщения, необходимых и достаточных для определения эмоционального состояния по характеристикам речи, обладает научной новизной и актуальностью, определяемой теоретической и прикладной значимостью исследования. Теоретической значимостью кросс-лингвистического исследования является выявление культурных особенностей отражения эмоционального состояния в характеристиках речи детей на материале двух разных языковых семей - индоевропейских (славянская группа) и дравидийских языков (тамильская группа). Прикладной аспект заключается в получении данных об отражении в характеристиках голоса и речи разных эмоциональных состояний на выборке типично развивающихся детей и возможности дальнейшего использования этих данных при работе с детьми с нарушениями развития. Многие нарушения развития или атипичное развитие детей сопровождаются нарушением эмоциональной сферы, что затрудняет, а в ряде случаев, делает невозможным социальную адаптацию ребенка в обществе. Актуальным является использование разных алгоритмов автоматизированной оценки эмоциональных состояний по характеристикам речи, которые ранее использовались при анализе конкретного языка, что позволит применить данные по автоматическому распознаванию эмоционального состояния при создании интерфейсов и систем для обучения детей с атипичным развитием и нарушением развития, сопровождающихся нарушением эмоциональной сферы.

Layman's description

Фундаментальная задача исследования заключается в распознавании эмоционального состояния детей по характеристикам их речи русскими и индийскими экспертами и автоматически на материале русского и тамильского языков. Разработан комплексный методический подход, включающий методики записи эмоциональной речи детей, проведение перцептивного слухового эксперимента, спектрографический анализ речи, автоматическое распознавание эмоциональной речи детей 8-12 лет, говорящих на русском и тамильском языках. Проведены исследования по межязыковому, внутриязыковому и кросс-языковому распознаванию эмоций по детской актерской эмоциональной речи. Данные экспертного анализа подтверждаются данными автоматического распознавания.

Key findings for the project

Фундаментальная задача исследования заключается в распознавании эмоционального состояния детей по характеристикам их речи русскими и индийскими экспертами и автоматически на материале русского и тамильского языков.
Разработан комплексный методический подход, включающий методики записи эмоциональной речи детей, проведение перцептивного слухового эксперимента, спектрографический анализ речи, автоматическое распознавание эмоциональной речи детей 8-12 лет, говорящих на русском и тамильском языках. С целью изучения кросс-лингвистического распознавания эмоционального состояния индийских и русских детей 8-12 лет по характеристикам их речи человеком и машиной созданы два корпуса эмоциональной детской речи. Каждый корпус содержит записи спонтанной и актерской речи детей 8-12 лет. Русский корпус включает эмоциональную спонтанную и актерскую речь 95 детей, индийский корпус - 40 детей, аннотированную по четырем состояниям. Проведено две серии экспериментов: 1) слуховое перцептивное, осуществляемое людьми 2) автоматическое (машинное).
Результаты перцептивного исследования показали что эксперты, принадлежащие к разным культурам и говорящие на русском и тамильском языках, способны распознавать базовые эмоции «радость - нейтральное состояние - печаль - гнев» по речи русских и индийских детей. По спонтанной речи мнения экспертов сошлись при распознавании состояния печали в речи русских детей, нейтрального состояния – по речи индийских детей. При определении эмоционального состояния русских детей по актерской речи обе группы экспертов хорошо определили состояние печали, по тамильской речи - состояние гнева (84% и 85% ответов русских и индийских экспертов; полнота - 0,84 и 0,85). По речи русских детей русские эксперты с большой точностью определили состояние радости (98%), индийские эксперты по тамильской речи – состояние гнева (85%). При распознавании эмоционального состояния русских детей по актерской речи обе группы экспертов хорошо определили состояние печали, по тамильской речи - состояние гнева. По речи русских детей русские эксперты с большой точностью определили состояние радости, индийские эксперты по тамильской речи – состояние гнева (85%).
Описаны акустические характеристики эмоциональной речи детей, правильно распознанной экспертами. Эти данные имеют большое значение для анализа культурной и языковой специфичности выражения эмоций в речи.
Проведены исследования по межязыковому, внутриязыковому и кросс-языковому распознаванию эмоций по детской актерской эмоциональной речи. Данные экспертного анализа подтверждаются данными автоматического распознавания. Для обучения систем автоматического распознавания эмоционального состояния детей использовался набор из 2505 файлов, содержащих эмоциональную речь детей, говорящих на русском языке, и набор из 418 файлов, содержащих эмоциональную речь детей, говорящих на тамильском языке. С использованием набора признаков, выявленных на основе экспертной оценки, классификаторы на основе машин опорных векторов (SVM) с вероятностью выше 50% на обоих языках классифицируют эмоцию гнева. С использованием различных наборов признаков (при внутриязыковом подходе) точность распознавания четырёх эмоциональных состояний выше 50% получена для русской речи; для речи тамильских детей – для состояний гнева и печали. Классификатор SVM показывает немного лучшие результаты на русском языке, а классификатор на основе многослойных перцептронов (MLP) – на тамильском языке. Точность распознавания эмоций примерно одинакова в внутриязыковом и межязыковом подходах, что согласуется с результатами исследований других авторов. При кросс-культурном подходе обучении системы распознавания эмоций на образцах русской речи и распознавании эмоций на образцах тамильской речи, с вероятностью выше 50% распознается одна эмоция гнева; при обучении системы на образцах тамильской речи и распознавании эмоций на образцах русской речи, с вероятностью выше 50% распознается состояние печали. Эти данные свидетельствует о различиях в выражении эмоций в речи детей, говорящих на русском и тамильском языках, связанных с культурными особенностями.

Key findings for the stage (in detail)

С целью изучения кросс-лингвистического распознавания эмоционального состояния индийских и русских детей 8-12 лет по характеристикам их речи человеком и машиной созданы два корпуса эмоциональной детской речи. Каждый корпус содержит записи спонтанной и актерской речи детей 8-12 лет. Русский корпус включает эмоциональную речь 95 детей, индийский корпус - 40 детей.

Исследование 1: Перцептивное исследование. Спонтанная речь & Актерская речь
Подготовлено 11 тестов для перцептивного исследования, включающих образцы речи (слова, фразы, бессмысленные тексты, n = 352) 12 русских и 18 индийских детей.
Характеристика стимульного материала: Спонтанная речь индийских детей характеризуется более высокими значениями частоты основного тона, чем речь русских детей (Z = 9,119; p<0,00001 - тест Манна-Уитни), и диапазоном ЧОТ для состояний грусти, радости и гнева (p<0,005). Значения ЧОТ актерской речи русских детей выше, чем речи индийских детей (Z = 2,164 p<0,03), диапазон ЧОТ меньше для состояния печали (p<0,05). Отношение интенсивности (E0max / E0min) ударных гласных в словах выше для состояния радости в актерской речи русских детей по сравнению с соответствующими значениями интенсивности для состояния радости в спонтанной речи и для состояния гнева в актерской речи индийских детей. Диапазон значений интенсивности в актерской речи выше для тамильской речи по сравнению с русской (p<0,001). Минимальная скорость речи у русских детей определена для состояния печали; для индийских детей скорость речи не различается значимо в разных эмоциональных состояниях, максимальная скорость - в нейтральной речи.

Спонтанная речь русских детей. Русские эксперты лучше определили состояние радости (60% правильных ответов) и нейтральное состояние (84%) в речи русскоязычных детей по сравнению с состоянием печали (44%) и состоянием гнева (точность 25%). Наибольшее количество речевых образцов они отнесли к нейтральному состоянию. Индийские эксперты распознали эмоциональное состояние гнева (46%) лучше, чем российские. Индийские эксперты хуже, чем российские эксперты, классифицировали состояние радости (39%), состояние печали (36%) и нейтральное состояние (46%) в речи русских детей. Русские и индийские эксперты сошлись во мнении при распознавании состояния печали (полнота - 0,44 и 0,36).
Русские эксперты определили эмоциональное состояние русских детей значимо лучше, чем индийские (p<0,0001 - тест Манна-Уитни) - особенно для нейтрального состояния (p<0,0001) и радости (p<0,01), но не для печали и гнева.

Спонтанная речь индийских детей, говорящих на тамильском языке. Индийские эксперты определили нейтральное состояние (86% правильных ответов), состояние печали (86%) и состояние гнева (81%) в речи детей, говорящих на тамильском языке, лучше, чем состояние радости (80%). Русские эксперты определили нейтральное состояние (72%) и состояние печали (58%) в речи детей, говорящих на тамильском языке, лучше, чем состояния радости и гнева (42%).
Средняя полнота (UAR) определения эмоционального состояния по спонтанной речи российских детей для русских экспертов составила 0,53; для индийских экспертов - 0,42; UAR по спонтанной тамильской речи для русских экспертов - 0,54, для индийских экспертов - 0,83. Выявлено согласие между индийскими и русскими экспертами по определению нейтрального состояния по речи тамильских детей (полнота - 0,72 и 0,86). Индийские эксперты лучше, чем русские, распознали все эмоциональные состояния тамильских детей.
Таким образом, показано, что носители языка лучше распознают эмоции детей, говорящих на одном с ними языке, по характеристикам их речи, - русские эксперты русских детей, индийские эксперты индийских детей. В тоже время индийские эксперты правильно определили эмоциональное состояние русских детей, русские эксперты индийских детей, но с меньшей вероятностью, чем детей, принадлежащих с ними к одной языковой среде.

Актерская речь русских детей – текст бессмыслицы. Русские эксперты лучше распознавали состояние радости (98% правильных ответов), хуже - нейтральное состояние (65%) по актерской речи русских детей. Индийские эксперты лучше распознали состояние печали (88%), хуже - нейтральное состояние (48%). Обе группы экспертов одинаково хорошо определили состояние печали (85% и 88% ответов российских и индийских экспертов; полнота - 0,85 и 0,88).

Актерская речь индийских детей – текст бессмыслицы. Русские эксперты лучше распознавали состояние гнева (84% правильных ответов), хуже - состояние печали (62%) по актерской речи тамильских детей. Индийские эксперты лучше распознавали состояние гнева (85%), хуже - состояние печали (48%). Обе группы экспертов одинаково хорошо определили состояние гнева (84% и 85% ответов российских и индийских экспертов; полнота - 0,84 и 0,85).
UAR определения эмоционального состояния по актерской речи русских детей русскими экспертами составила 0,80; индийскими экспертами - 0,73; UAR определения эмоционального состояния по актерской речи индийских детей для русских экспертов - 0,71, для индийских экспертов - 0,61.

Акустические характеристики речи, правильно классифицированной русскими и индийскими экспертами (вероятность – 0,75-1,0).
A. Для спонтанной речи выявлена корреляция между эмоциональным состоянием детей: и
F0 max - F (1,35) = 4,264 p<0,05 (R2 = 0,109 β = 0,33) - регрессионный анализ;
F0 max-F0min - F (1,35) = 4,212 p<0,05 (R2 = 0,107 β = 0,328).
Б. Для актерской речи:
интенсивностью ЧОТ ударных гласных в словах (E0min / E0) - F (1,18) = 6,972 p<0,02 (R2 = 0,279 β = -0,528), E max / Emin - F (1,18) = 12,379 p<0,003 (R2 = 0,408 β = 0,638);
диапазоном интенсивности Emax-Emin - F (1,11) = 7,807 p<0,02 (R2 = 0,415 β = 0,644).
Акустические характеристики речи детей, правильно распознанной экспертами, принадлежащими к одной с ними языковой среде.
A. Речь индийских детей – индийские эксперты: Для спонтанной речи выявлена корреляция между эмоциональным состоянием детей и
F0 среднее - F (1,60) = 30,317 p<0,000 (R2 = 0,336 β = 0,579);
F0 max - F (1,60) = 31,068 p<0,000 (R2 = 0,341 β = 0,584);
F0 мин - F (1,60) = 6,585 p<0,02 (R2 = 0,099 β = 0,315).
Для актерской речи между эмоциональным состоянием детей и
F0 среднее - F (1,12) = 4,943 p<0,05 (R2 = 0,292 β = 0,54);
F0 max - F (1,12) = 9,55 p<0,01 (R2 = 0,443 β = 0,666);
F0max-F0min - F (1,12) = 17,662 p<0,002 (R2 = 0,595 β = 0,772);
E0max / E0min - F (1,12) = 12,560 p<0,005 (R2 = 0,511 β = 0,715).
Б. Речь русских детей – русские эксперты: Для спонтанной речи выявлена корреляция между эмоциональным состоянием детей и средним значением F0 - F (1,46) = 10,231 p<0,003 (R2 = 0,182 β = 0,427).
Для актерской речи: между эмоциональным состоянием детей и E0 min / E0 ударных гласных слов - F (1,8) = 8,788 p<0,02 (R2 = 0,524 β = -0,724);
диапазоном интенсивности Emax-Emin - F (1,8) = 11,730 p<0,01 (R2 = 0,595 β = 0,771).

Речевые сигналы, которые правильно классифицировали по соответствующим эмоциональным состояниям русские и индийские эксперты, включены в тестовую последовательность, включающую 20 образцов речи (8 – русских детей, 12 – тамильских детей). Тестовая последовательность предъявлена 60 носителям русского языка (возраст 35,4 ± 15,0 лет; без опыта взаимодействия с детьми – 13, с бытовым опытом – 41, с профессиональным – 6), не участвовавшим ранее в данном исследовании. Слушатели лучше определили состояние печали (91% правильных ответов, полнота - 0,91; точность – 0,87), большее затруднение вызвало определение состояния гнева (64% ответов). На основании корреляционного анализа по Спирмену (p<0,05) установлена связь между опытом испытуемого и распознаванием эмоционального состояния ребенка (0,33), распознаванием состояния гнева (0,37). Данные корреляционного анализа подтверждены регрессионным анализом. Определена корреляция между опытом (профессиональным) слушателя и общим правильным распознаванием эмоционального состояния F(1,58) = 11,507 p<,001 (R2 = 0,166, β = 0,407), распознаванием состояния гнева F(1,58) = 10.468 p<0,002 (R2 = 0,153, β = 0,391).

Дополнительные перцептивные эксперименты: С целью определения влияния организации тестового материала на способность определения эмоционального состояния детей по их речи проведены перцептивные эксперименты в которых тестовым материалом выступали слова & фразы и слова, отражающие эмоциональные состояния.
Актерская речь: слова & фразы, отражающие эмоциональное состояние русских детей. Русские эксперты лучше определяли состояние радости и гнева (90% правильных ответов), хуже - нейтральное состояние (80%) при прослушивании эмоциональных слов и фраз русских детей. Индийские эксперты лучше распознали состояние гнева (90% правильных ответов), хуже - нейтральное состояние (40%). Количество правильных ответов русских и индийских экспертов максимально совпадало при определении состояния гнева (90%, 90%) и было близким при определении состояния печали (87% ответов русских экспертов, 70% ответов индийских экспертов). Средняя точность распознавания эмоционального состояния у русских экспертов составила 87,1 ± 10,5%; для индийских специалистов - 64,1 ± 26,0%. Русские эксперты лучше распознавали эмоциональное состояние русских детей по эмоциональным словам и фразам по сравнению с индийскими экспертами (p<0,01 - тест Манна-Уитни) - особенно для нейтрального состояния (p<0,05) и радости (p<0,05).

Актерская речь: слова & фразы, отражающие эмоциональное состояние индийских детей. Русские эксперты лучше определяли состояние гнева (100% правильных ответов), хуже - нейтральное состояние (62,5%) при прослушивании тестовых последовательностей, содержащих слова и фразы индийских детей, отражающих их эмоциональное состояние. Индийские эксперты лучше распознают состояние гнева (90% правильных ответов), хуже - нейтральное состояние (85%). Русские и индийские эксперты сходятся во мнении в отношении распознавания состояния гнева, и их мнения были ближе для состояния печали (75% и 87,5% - для русских и индийских экспертов, соответственно), чем для состояния радости (65% и 87,5% - для русских и индийских экспертов, соответственно) и нейтрального состояния (62,5% и 85%). Средняя точность распознавания эмоционального состояния у русских экспертов составила 75,6 ± 21,6%, у индийских экспертов - 87,5 ± 10,0%. Индийские эксперты распознали эмоциональное состояние тамильских детей по эмоциональным словам и фразам лучше, по сравнению с русскими экспертами (p<0,05 - тест Манна-Уитни) - для нейтрального состояния и радости.

Актерская речь: слова, отражающие эмоциональное состояние русских детей.
Русские эксперты лучше определяют состояние печали и нейтральное состояние (95% и 90% правильных ответов), хуже - состояние радости (85%) по словам русских детей. Индийские эксперты лучше распознавали состояние гнева (97% правильных ответов), состояние печали (85% правильных ответов) и хуже - нейтральное состояние (30%). Ответы русских и индийских экспертов были близкими при определении состояния гнева (87% и 97% ответов – соответственно русских и индийских экспертов) и печали (95% и 85%), различались при определении состояния радости (80% и 40%) и нейтрального состояния (90% и 30%). Средняя точность распознавания эмоционального состояния русских детей русскими экспертами составила 88,9 ± 6%; для индийских экспертов 66,7 ± 32,8%.

Актерская речь: слова, отражающие эмоциональное состояние индийских детей.
При прослушивании теста, содержащего слова индийских детей, отражающие эмоциональное состояние, русские эксперты лучше определяют состояние гнева (100% правильных ответов), хуже - состояние радости (55%). Индийские эксперты лучше распознают нейтральное состояние (90% правильных ответов), хуже - состояние радости (80%). Русские и индийские эксперты сошлись во мнении при распознавании состояния печали (60% и 85% ответов – соответственно русских и индийских экспертов). Средняя точность распознавания эмоционального состояния индийских детей русскими экспертами составила 77,5 ± 18,3%, индийскими экспертами - 85 ± 10,7%.

Результаты перцептивного исследования показали, что русские и индийские эксперты лучше определяют эмоциональные состояния русских детей по актерской речи, чем по спонтанной речи. Показано, что для индийских экспертов тест, содержащий эмоциональные слова и фразы русских детей, вызывает больше затруднений, чем бессмысленные тексты. Индийские эксперты правильно определяли состояние гнева по тестам, содержащим бессмыслицы, слова и фразы, отражающие эмоциональное состояние. Русские эксперты лучше определили эмоциональные состояния тамильских детей по актерской речи, чем по спонтанной речи. Индийские эксперты продемонстрировали худшее распознавание эмоций по актерской речи тамильских детей в «бессмысленном» тексте.


Исследование 2. Автоматическая классификаций четырех эмоциональных состояний «нейтральное (спокойное) – печаль – радость – гнев» русских и индийских детей

Цель исследования - автоматическое распознавание эмоционального состояния детей 8-12 лет по речи на русском и тамильском языках.
Подготовлены речевые файлы для автоматического распознавания: 2505 русской актерской детской речи, 417 тамильской актерской детской речи (записи осуществлены индийскими коллегами), аннотированные на 4 эмоциональных состояния – «радость - нейтральное - печаль - гнев».
Основные характеристики и настройки систем автоматического распознавания эмоционального состояния детей по речи на русском и тамильском языках.
Наборы данных
Для обучения систем автоматического распознавания эмоционального состояния детей использовался набор из 2505 файлов, содержащих эмоциональную речь детей, говорящих на русском языке (639 файлов соответствуют эмоции гнев, 592 – радость, 628 – нейтральное состояние, 646 - печаль), и набор из 418 файлов, содержащих эмоциональную речь детей, говорящих на тамильском языке (114 – гнев, 95 – радость, 104 – нейтральное, 105 - печаль).

Автоматическое распознавание эмоционального состояния детей по речи на русском языке и тамильском языке: Intra-Cultural подход

1. Раздельные эксперименты на наборах русской и тамильской речи. Эксперименты проведены для SVM классификатора и для MLP классификатора.
На основе использования SVM классификатора, для обучения которого использовали схему многократной кросс-валидации по K блокам, получены результаты по распознаванию эмоционального состояния детей. Эксперименты с К=10 блочной кросс-валидацией не дали приемлемых результатов на обоих наборах данных из-за их малого размера. Поэтому были проведены эксперименты с К=6 блочной кросс-валидацией (соотношение объема обучающей выборки к тестовой выборке 5:1). Результаты экспериментов для SVM классификатора, обученного на наборе признаков, использованных в экспертном тестировании [Lyakso, Frolova, Ruban, Mekala, 2021] показали, что с вероятностью более 50% на обоих языках распознается только одна эмоция гнева (64,08% - для русской речи, 59% - для тамильской речи).
Результаты экспериментов для SVM классификатора, обученного на наборе просодических признаков библиотеки DisVoice, который расширяет набор признаков, использованных в экспертном тестировании, показали, что с вероятностью более 50% на русском языке распознаются все эмоции (гнев -70,57%; радость – 56,11%; нейтральное состояние - 51,93%; печаль – 54, 39%) при лучшем распознавании состояния гнева; на тамильском языке распознается только состояние гнева (52%).
Результаты экспериментов для SVM классификатора, обученного на наборе признаков eGeMAPS, показали, что с вероятностью более 50% на русском языке распознаются все эмоции, но с большей точностью (гнев -74,65%; радость – 67,74%; нейтральное состояние – 65,76%; печаль – 64,55%), на материале тамильского языка – состояние гнева (54,39%).
Получены результаты экспериментов на оптимизированном наборе признаков eGeMAPS для SVM классификатора. Отбор признаков осуществлялся с помощью процедуры L1-based feature selection модуля Feature selection библиотеки Scikit-learn (https://scikit-learn.org/stable/modules/feature_selection.html). Результаты показали увеличение точности распознавания: с вероятностью более 50% на материале русского языка распознаются все эмоции (гнев - 75,12 %; радость – 67,40 %; нейтральное состояние – 65,29 %; печаль – 71,21%), на материале тамильского языка с вероятностью более 50% распознаются уже две эмоции - гнев (54,39%) и состояние печали (50,48%).
Получены результаты распознавания эмоциональных состояний раздельно для русских и индийских детей, с использованием SVM и MLP классификаторов, набор признаков eGeMAPS, схема с кросс-валидацией по отдельным объектам (Leave-One-Out, LOO или Leave-One-Subject-Out, LOSO), https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.LeaveOneOut.html
?highlight=loo.
На русском языке при использовании SVM классификатора, схемы кросс-валидации LOO с вероятностью более 50% распознаются все эмоции (гнев - 77,62 %; радость – 71,28 %; нейтральное состояние – 64,65 %; печаль – 71,52%), как и при использовании MLP классификатора (гнев - 74,96 %; радость – 70,27 %; нейтральное состояние – 66,08 %; печаль – 69,04%).
На Тамильском языке оба классификатора SVM и MLP имеют точность предсказания выше 50% только для эмоционального состояния гнева (52,63% - SVM; 52,63% - MLP).
Получены худшие показатели распознавания эмоций по тамильской речи на всех наборах признаков и на всех классификаторах. Классификатор SVM показывает немного лучшие результаты на русском языке, а классификатор MLP – на тамильском языке.

2. Сравнение экспертного и автоматического распознавания эмоционального состояния детей по речи на русском языке и тамильском языках.

При распознавании эмоций экспертами получены результаты: значения точности (overall accuracy) для русских экспертов по актерской эмоциональной речи детей на русском языке составляет 0,898, на тамильском языке – 0,854; для индийских экспертов по актёрской эмоциональной речи детей на русском языке – 0,864, на тамильском языке – 0,804.
Для сравнения экспертного и автоматического распознавания эмоций, было проведено тестирование классификаторов SVM и MLP (набор признаков eGeMAPS), обученных на предыдущем этапе исследований, на тех же образцах речи, которые ранее использовались для экспертного тестирования, но не использовались для обучения автоматических классификаторов. Оба классификатора распознают эмоциональные состояния с точностью выше 50%, но точность у MLP выше, чем у SVM, что объясняется более быстрой сходимостью MLP по сравнению с SVM на выборках малого объема. Классификатор SVM показал overall accuracy для русского языка – 0,833, для тамильского языка - 0,787; классификатор MLP –для русского языка – 0,833, для тамильского языка – 0,875.

Таким образом, точность автоматического распознавания эмоций с использованием современных алгоритмов/классификаторов на основе современных методов машинного обучения, обученных на собранных наборах данных, как минимум сопоставима с точностью оценок экспертного тестирования.

3. Автоматическое распознавание эмоционального состояния детей по речи на русском языке и тамильском языке: Межкультурный (Inter-Cultural) подход.

Получены матрицы спутывания классификаторов SVM и MLP, обученных на наборе признаков eGeMAPS. Извлечение признаков произведено на смешанном наборе данных эмоциональной речи детей, говорящих на русском и тамильском языках, с 2505+418 образцами речи для обучения и тестирования. Для обучения классификаторов используется схема кросс-валидации LOO. Тестирование проводилось раздельно для каждого языка.
Из сравнения результатов следует, что автоматическое распознавание эмоций классификаторами SVM и MLP примерно одинаково по точности. Классификатор SVM для русской речи: гнев - 0,74; радость – 0,689; нейтральное состояние – 0,611; печаль – 0,692, для тамильской речи: гнев - 0,588; радость – 0,274; нейтральное состояние – 0,375; печаль – 0,295. Классификатор MLP для русской речи: гнев - 0,742; радость – 0,696; нейтральное состояние – 0,631; печаль – 0,673; для тамильской речи: гнев - 0,526; радость – 0,326; нейтральное состояние – 0,365; печаль – 0,305.
Далее в данном разделе результаты экспериментов представлены только для классификатора SVM.
Чтобы оценить точность распознавания в Inter-Cultural подходе, приведены результаты экспериментов по оценке точности распознавания классификатора SVM на смешанном наборе данных без разделения тестовых наборов на образцы разных языков. Точность распознавания по смешанному набору русской и индийской речи падает пропорционально доли образцов индийской речи в смешанном наборе, но точность распознавания всех эмоций остается выше 50% (гнев - 0,717; радость – 0,632; нейтральное состояние – 0,578; печаль – 0,636).
Классовая точность мульти-классовой классификации, классификатор SVM, набор признаков eGeMAPS, двуязычный набор данных: гнев - 0,832; радость – 0,838; нейтральное состояние – 0,808; печаль – 0,804.
Средняя точность мульти-классовой классификации, классификатор SVM, набор признаков eGeMAPS: overall accuracy - для русского языка – 0,842, для тамильского языка – 0,691, для смешанного набора русского и тамильского языков - 0,820.
Точность распознавания эмоций примерно одинакова в подходах Intra-Cultural и Inter-Cultural, что согласуется с результатами исследований других авторов [Neumann, Vu, 2018].
Данные подготовлены к публикации.

4. Автоматическое распознавание эмоционального состояния детей по речи на русском языке и тамильском языке: Cross-Cultural подход.

Задача кросс-языкового/кросс-культурного распознавания эмоций является одной из самых сложных при создании систем SER из-за различий в выражении эмоций на разных языках и в разных культурах.
При обучении SER на образцах русской речи и распознавании эмоций на образцах тамильской речи, с вероятностью выше 50% распознается только одна эмоция гнева (0,69 –SVM; 0,57- MLP), но она путается с эмоцией, отражающей состояние радости (0,6- SVM). При обучении SER на образцах тамильской речи и распознавании эмоций на образцах русской речи, с вероятностью выше 50% также распознается только состояние печали (0,778 –SVM; 0, 797 – MLP) , но она путается с нейтральным состоянием (0,82- MLP).
Наши эксперименты по кросс-культурному подходу, где для обучения использовался набор из 2505 образцов русской речи (считаем высоко-ресурсным), для тестирования набор из 418 образцов тамильской речи (считаем низко-ресурсным), показали низкие результаты по точности распознавания. Хотя в экспериментах с обучением и тестированием раздельно по языкам была достигнута точность распознавания всех эмоций выше 50%. Это свидетельствует о том, что существует различие в выражении эмоций в речи детей, говорящих на русском и тамильском языках, связанные с культурными особенностями.
Для преодоления проблемы кросс-культурного распознавания эмоций используются следующие подходы, которые мы планируем исследовать в наших дальнейших проектах:
1) Двухэтапная схема распознавания эмоций в случае нескольких языков [Heracleous, Yoneyama 2019]. В системе распознавания эмоций классификаторы обучаются раздельно на каждом языке (разных корпусах речи). На первом этапе распознавания эмоций сначала осуществляется идентификация языка. На втором этапе осуществляется распознавание эмоций классификатором идентифицированного языка. Данный подход эффективен в случае наличия обучающих наборов данных достаточного объема для всех языков в SER. В случае мало-ресурсных языков это подход не решает проблему.
2) Аугментация данных для решения проблемы мало-ресурсных языков. Одним из широко используемых подходов является генерация образов речи с помощью генеративно-состязательного подхода [Chatziagap et al., 2019; Latif et al., 2020; Abbaschian et al., 2021]. Мы планируем продолжать наши собственные исследования в этом направлении [Kaliyev et al., 2021], а также использовать ряд других, более простых, методов аугментации, таких, например, как Mixup [Latif et al., 2020].
3) Методы контролируемого и неконтролируемого трансферного обучения (transfer learning) [Feng, Chaspari, 2020; Abbaschian et al., 2021], а также использование адаптации [Neumann, Vu, 2018], когда классификатор обучается на одном из высоко-ресурсных языков. А затем осуществляется его тонкая настройка с использованием небольшого количества образцов из целевого мало-ресурсного языка, которые могут помочь преодолеть проблемы, связанные с ограниченным количеством образцов данных, нехваткой размеченных данных и несовпадением условий записи образцов эмоциональной речи.
Результаты индийских коллег по автоматическому распознаванию эмоциональных состояний русских и индийских детей
(Заключительный отчет по проекту в Департамент науки и технологий правительства Индии индийские коллеги представят в феврале 2022 года. На данном этапе работы, в связи с эпидемиологической обстановкой в стране, нам предоставлены данные по ограниченному корпусу тамильской эмоциональной детской речи. После проведения экспериментов планируется совместная публикация в высокорейтинговом журнале).

Автоматическое распознавание эмоций детей по русской речи:

Всего было использовано 2505 образцов речи русских детей. Данные разделили на 70% (1753 образца) для обучения и 30% (752 образца) для тестирования моделей классификации. Использовали такие оценочные метрики – точность системы в пределах класса (Precision), полнота системы (Recall), F1-scores.
Для актёрской эмоциональной речи русских детей (5-слойная модель CNN) получена точность системы в пределах класса: 0,77 – гнев, 0,73 – радость, 0,64 – нейтральное, 0,67 – печаль; полнота: 0,66 – гнев, 0,64 – радость, 0,72 – нейтральное, 0,77 – печаль; F1-scores: 0,71 – гнев, 0,68 – радость, 0,67 – нейтральное, 0,72 - печаль.
В машинном обучении использовали XG Boost Classifier, всего - 2505 образцов русской речи. Разделили данные на 70% (1753 образца) для обучения и 30% (752 образца) для тестирования. Для актёрской эмоциональной речи русских детей (XG Boost Classifier) получена точность системы: 0,61 – гнев, 0,52 – радость, 0,56 – нейтральное, 0,55 – печаль; полнота: 0,59 – гнев, 0,51 – радость, 0,54 – нейтральное, 0,59 – печаль; F1-scores: 0,60 – гнев, 0,51 – радость, 0,55 – нейтральное, 0,57 - печаль. Точность составила примерно 56% для тестирования и 68% для обучения.
Автоматическое распознавание эмоций индийских детей по тамильской речи:
Данные разделены на 80% (334 образца) для обучения и 20% (84 образца) для тестирования моделей классификации. Для актёрской эмоциональной речи тамильских детей (5-слойная модель CNN) получена точность: 0,67 – гнев, 0,44 – радость, 0,45 – нейтральное, 0,45 – печаль; полнота: 0,43 – гнев, 0,42 – радость, 0,43 – нейтральное, 0,67 – печаль; F1-scores: 0,53 – гнев, 0,43 – радость, 0,44 – нейтральное, 0,54 - печаль. При разделении индийских данных на 80:20 для обучения и тестирования получили точность примерно - 49% для тестирования и 68% для обучения.

Key findings for the stage (summarized)

Разработан комплексный методический подход, включающий методики записи эмоциональной речи детей, проведение перцептивного слухового эксперимента, спектрографический анализ речи, автоматическое распознавание эмоциональной речи детей 8-12 лет, говорящих на русском и тамильском языках. С целью изучения кросс-лингвистического распознавания эмоционального состояния индийских и русских детей 8-12 лет по характеристикам их речи человеком и машиной созданы два корпуса эмоциональной детской речи. Проведены серии перцептивных экспериментов и автоматическое (машинное)распознавание эмоций по речи с использованием разных алгоритмов.

Academic ownership of participants (text description)

Ляксо Елена Евгеньевна - профессор, д.б.н. - руководитель проекта - разработка методологии исследования, акустический спектрографический анализ речи детей, статистический анализ данных, написание отчетов по этапам проекта.
Матвеев Юрий Николаевич - профессор, д.т.н. - автоматическое (машинное) распознавание эмоций по речи детей с использованием разных классификаторов, алгоритмов и подходов.
Фролова Ольга Владимировна - научный сотрудник, к.б.н. - запись эмоциональной речи детей, подготовка аудиофайлов для введения в речевой корпус и автоматического распознавания, обработка данных перцептивного исследования.
Григорьев Алексей Сергеевич - доцент, к.б.н. - подготовка аудиофайлов для введения в речевой корпус и автоматического распознавания, обработка данных перцептивного исследования.
Городный Виктор Александрович - аспирант - запись эмоциональной речи детей, подготовка аудиофайлов для введения в речевой корпус.

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

разрешается
Short titleРаспознавание эмоционального состояния ребенка человеком и машиной
AcronymRFBR_DST_2019 - 2
StatusFinished
Effective start/end date29/01/2131/12/21

ID: 73557360