Основной целью проекта является разработка и апробация формальных методов моделирования коммуникативного поведения жителей российского мегаполиса в реальной жизни с учетом их социальных характеристик, прагматических задач и других условий повседневной речевой коммуникации.
В рамках выполнения проекта решаются следующие основные задачи.
1. Анализ и нормализация существующих методов и практик формального построения моделей коммуникативного поведения говорящих, оценка потенциала расширения возможностей этих методик с использованием современных методов машинного обучения и искусственного интеллекта.
2. Выявление оптимальной классификационной схемы разных типов диалога, пригодной для адекватного описания реалий повседневной речевой коммуникации. Разработка методов формального определения диагностирующих признаков коммуникативных эпизодов разного типа (бытовых, профессиональных, разговоров по типу «клиент-сервис», разговоров на частные или общие темы) и их экспертной разметки.
3. Отбор и подготовка речевого материала для проведения исследования, включая экспертное аннотирование записей на определенных диагностических уровнях. Ручная сегментация коммуникативных эпизодов на структурные составляющие, вплоть до коммуникативных актов, экспертное тегирование этих единиц.
4. Применение методов машинного обучения для автоматической атрибуции по тексту коммуникативного эпизода его основного типа и особенностей (социальных ролей участников, прагматических задач, общего эмоционального фона). Оценка эффективности построенной модели на неразмеченном множестве текстовых расшифровок звукозаписей.
5. Построение обобщенных моделей коммуникативного поведения для разных типов диалога повседневного общения. Получение информации о частоте дистрибуции тех или иных типов коммуникации в повседневной жизни на основании данных корпуса ОРД. Подготовка научного описания речевого поведения человека в повседневной жизни.
6. Практическая апробация подготовленной модели: построение пилотной версии виртуального собеседника – чат-бота, поддерживающего коммуникацию для отдельных речевых ситуаций и прагматических задач.
Проект направлен на решение фундаментальной научной проблемы изучения речевого поведения человека в условиях реальной повседневной коммуникации. Основной целью проекта является разработка и апробация формальных методов моделирования коммуникативного поведения жителей российского мегаполиса в реальной жизни с учетом их социальных характеристик, прагматических задач и других условий повседневной речевой коммуникации. Научная новизна проекта заключается в первую очередь в том, что моделирование коммуникативной деятельности осуществляется на мультимедийном материале повседневной речевой коммуникации. Принципиальной новизной проекта является также активное привлечение к анализу и моделированию данных методов искусственного интеллекта и машинного обучения.
Были получены следующие основные результаты.
1) Расширенная эмпирическая база исследования, в том числе за счёт увеличения объёма различных типов коммуникации.
2) Серия исследований, анализирующих русскую устную коммуникацию на разных ее уровнях (с учетом типа общения и характеристик говорящих). Наработки, представленные в исследованиях, позволили получить данные для построения модели коммуникативного поведения носителей русского языка в разных условиях коммуникации.
Серия исследований включает: описание наиболее частотных биграмм и триграмм, полученных с применением методики n-грамм-анализа; портретирование единиц новейшего активного русского лексикона (история, получается и др.); описание ряда разговорных формул и устойчивых выражений (и Вам не хворать; ну, например, да; как раз таки); описание прагматических маркеров (представляешь; своего рода) и др.
3) Описание моделей коммуникативного поведения носителей русского языка с учетом выявленных на практике особенностей их речи, включая описание единиц, организующих устное взаимодействие (переспросов).
4) Разработанные модели, результаты тестирования моделей и оценки их эффективности.
4.1) Разработанные нейросетевые методы автоматического разрешения неоднозначности, в том числе: описание процедур разрешения неоднозначности в письменных и устных текстах; описание влияния режимов предобработки и анализа лингвистических данных на результаты автоматического разрешения лексико-семантической неоднозначности; модель разграничения омографов в русском языке.
4.2) Разработанная модель генерации лексико-грамматических заданий для ТРКИ, в том числе: описание алгоритма генерации лексико-грамматических заданий для ТРКИ; нейросетевые модели для подбора дистракторов; сравнительное описание результатов генерации лексико-грамматических заданий для ТРКИ на основе различных моделей; автоматические процедуры поиска и ранжирования документов для подбора лексико-грамматических заданий по ТРКИ.
4.3) Оптимизированная версия чат-бота, в котором виртуальный собеседник может адаптироваться под разные условия коммуникации, в том числе: ряд результатов тестирования чат-бота; расширенная по результатам тестирования эмпирическая база; описание языковых особенностей эпохи, на языке которой «говорит» чат-бот; наборы высказываний для обучения бота (в том числе наборы высказываний на языке эпохи и на современном русском языке); разработанные алгоритмы упрощения речи чат-бота; реализация чат-бота в итоговой конфигурации; статистика обращений к чат-боту; результаты апробации чат-бота.
Краткое название | GZ-2023 |
---|
Акроним | M1_2021 - 3 |
---|
Статус | Завершено |
---|
Эффективные даты начала/конца | 1/01/23 → 31/12/23 |
---|