Кросс-культурный тональный анализ пользовательских текстов в сети Интернет: 2019 г. этап 2

Блеканов, Иван Станиславович (исполнитель)
Данилова, Юлия Сократовна (исполнитель)
Смолярова, Анна Сергеевна (исполнитель)
Бодрунова, Светлана Сергеевна (руководитель)
Кукаркин, Михаил Михайлович (исполнитель)

описание

Основная цель проекта – разработка системы (метода и программного обеспечения) для кросскультурного (многоязычного) тонального анализа пользовательских текстов из сети Интернет.
Дополнительные цели проекта: анализ связи тональности и структуры сетевых дискуссий; разработка методов автоматизированного определения тематики сетевых дискуссий; анализ связи тональности, тематики и структуры сетевых дискуссий.

основные результаты по проекту в целом

За 2018-2019 годы достигнуты следующие результаты.
1. Выполнена основная задача проекта. Достигнуты показатели выявления тональности высказывания по трем языкам (русский, английский, немецкий) выше 0,7 на шумных данных тематической сетевой дискуссии, выше 0,9 – на данных, направленных на выражение оценки, по четырем показателям (accuracy, precision, recall, F-measure). Для русского и английского языков показатели достигли целевых значений в 0,75 по метрике accuracy («аккуратность»). По французскому языку достигнуты показатели выше 0,6 на шумных данных; показано, что при приросте данных от кодировщиков эффективность метода снижается, т.е. существует большая вариативность носителей языка в восприятии тональности пользовательских текстов.
2. Достигнут «потолок» в доработке предложенных методов тонального анализа. Ручное кодирование дополнительных текстовых выборок не дает существенного прироста показателей качества выявления сентимента текстов, а также может приводить к переобучению машины. С помощью отказа от элементов препроцессинга данных, изменения гиперпараметров и применения инструментов регуляризации можно лишь незначительно улучшить качество метода.
3. Разработан и запатентован программный комплекс для мультиязычного тонального анализа, позволяющий вести анализ не только для традиционных классов (негативный/положительный/нейтральный/иное), но и по отдельным эмоциям, наличию/отсутствию коммуникативной агрессии, а также объект-ориентированный сентимент-анализ.
4. Предложены новые методы тонального анализа, в т.ч. метод с применением лексической маски и метод с использованием нейронных сетей.
5. Протестированы три алгоритма тематического моделирования – LDA, BTM и WNTM – с помощью автоматических метрик и ручного кодирования. Результаты показали, что автоматизированная оценка не совпадает с оценкой асессоров, а интерпретируемость тем сильно зависит от контекстуального знания кодировщиков. Также были выявлены недостатки моделирования на коротких текстах. Предложено развивать расширения (extensions) для методов на базе нейронных сетей.
6. Показана связь интерпретируемости темы с другими характеристиками темы, в т.ч. сентиментом ее топ-слов. Таким образом, тональность ключевых слов темы (особенно негативная лексика), влияет на процесс ее интерпретации, заставляя «вчитывать» в список слов содержание, которое не всегда присутствует в теме. Эксперименты с ручным кодированием для всех трех алгоритмов показали, что: 1) автоматические метрики качества моделирования не соответствуют взгляду кодировщиков; 2) мнение кодировщиков также не является достоверным показателем качества моделирования; 3) короткие тексты высокой зашумленности в принципе не дают высокого числа интерпретируемых тем. В силу этих трех факторов было предложено пересмотреть цели тематического моделирования на коротких текстах: вместо максимизации числа интерпретируемых тем добиваться формирования немногих качественных тем и разрабатывать критерии оценки, позволяющие выделять «идеальные темы». Предложены метрики качества отдельной темы (а не модели в целом), которые могут быть связаны между собой и, таким образом, опишут «идеальную тему»: интерпретируемость (может быть оценена вручную или автоматически), выпуклость темы на «тепловой карте» и устойчивость темы, то есть ее распределенность по достаточному числу ключевых слов.
7. Выявление отдельных эмоций пользователей показало, что возможно выявить роль отдельных эмоций в нарастании/угасании дискуссии. Показано, что, в отличие от ожидаемого, положительные эмоции (сочувствие) обладают более широким кросс-культурным потенциалом для наращивания сетевой дискуссии, тогда как злость/ярость такого результата не демонстрируют.
8. Публикационные индикаторы по проекту выполнены с превышением заявки (планировалось 5, вышло 9 публикаций). Из них семь индексируются WoS/Scopus. Превышены показатели по конференциальному участию и разработанным курсам лекций. Также получены три патента на ПО, не планировавшиеся при подаче заявки.
9. За публикацию «Кросс-культурный тональный анализ пользовательских текстов в Твиттере» (С. С. Бодрунова, Вестник Московского ун-та, серия 10 «Журналистика», 2018, №6, индексируется WoS) Получена Первая премия Национальной ассоциации массмедиа-исследователей (НАММИ) в номинации «Статья». За 2019 год С. С. Бодрунова была четырежды приглашена к выступлению в качестве ключевого спикера на международных конференциях (в России, Болгарии, Польше и Швеции). Эти выступления не вошли в отчет по НИР, поскольку финансировались из средств приглашающих организаций.

описание вклада в работу каждого из участников (учётная форма ЦИТиС)

Бодрунова С.С.: Разработка теоретического обоснования исследований, формулирование исследовательских вопросов и гипотез, оценка качества тонального анализа и тематического моделирования на промежуточных этапах, контроль качества кодирования русскоязычных и англоязычных кейсов, обоснование концепции «идеальных тем», ручное кодирование мультиязычных кейсов. 40%
Блеканов И.С.: Выполнение основных технических параметров НИР, разработка программного обеспечения, тестирование модулей краулера и показателей тонального анализа и тематического моделирования, обзор литературы по основным методам тематического моделирования. 25%
Смолярова А.С.: Проведение и контроль ручного кодирования немецкоязычных датасетов, участие в разработке параметров «идеальных тем», участие в кодировании и обзоре литературы по выявлению отдельных эмоций в текстах пользователей. 15%
Данилова Ю.С.: Проведение и контроль ручного кодирования франкофонных кейсов, участие в разработке параметров «идеальных тем». 10%
Кукаркин М.М.: Участие в разработке программного обеспечения для тематического моделирования и визуализации его результатов, архивация данных, тестирования методов графовой репрезентации данных. 10%

передача полной копии отчёта третьим лицам для некоммерческого использования: разрешается/не разрешается (учётная форма ЦИТиС)

разрешается

проверка отчёта на неправомерные заимствования во внешних источниках: разрешается/не разрешается (учётная форма ЦИТиС)

разрешается

Краткое название	__
Акроним	PresidentMD_2018 - 2
Статус	Завершено
Эффективные даты начала/конца	1/01/19 → 31/12/19

Документы

NAUCHNY OTCHET BODRUNOVA PODPIS
Текст, 123 KB, Документ PDF
ЦИТИС список публикаций
Текст, 132 KB, Документ PDF

ID: 37272214