Project: Grant fulfilment › Grant stage fulfilment
1. Исследование принципов социальной коммуникации в современной публичной сфере, в том числе в сети Интернет (в социальных сетях, на блог-платформах и платформах агрегации пользовательского контента) в контексте социально-политических конфликтов, политической поляризации, социальной фрагментации публичной сферы.
Данное направление работы Центра является основным и ориентировано на понимание структуры, содержания и динамики социальной коммуникации, в том числе дискуссий пользователей в социальных сетях, на блог-платформах, на порталах агрегации контента, в мессенджерах. Так, в частности, будут изучаться такие аспекты дискуссий, как конфигурация влиятельных пользователей; связь характеристик (метаданных) пользователей со способами говорения, структурой и динамикой связей, психологическими и культурными чертами речи; тональность и тематика обсуждения; объединяющий/диссипативный характер дискуссии; «облака» внутри обсуждения и их природа; и др. Здесь важно, что изучение этих аспектов не является самоцелью: через изучение структурных и содержательных черт дискуссий выявляются особенности индивидуального и группового коммуникативного поведения, а также черты публичной сферы (Habermas 2006), важные с политической и социально-групповой точки зрения. В 2020 году мы подтвердили существенную разницу в степени связности оппозиционного дискурса в российском и белорусском YouTube, что показывает критическую значимость контекста, а не платформы, в формировании паттерна дискуссии. Это требует дальнейшего изучения на материале различных стран.
Еще одним важным направлением является изучение коммуникативного поведения в обсуждениях конфликтов различной природы. Ранее при изучении обсуждений этнополитических конфликтов с насильственным триггером в разных странах рабочая группа, в частности, установила, что формирование групп в таких дискуссиях не следует паттерну «меньшинство/большинство-за-меньшинство/большинство-против-меньшинства», на котором настаивала теория групповой интеракции. Не соответствует оно и политическому спектру. Напротив, в дискуссиях наблюдается противостояние неправых/левых политических групп, а нейтрального медийного дискурса и радикализированных высказываний с обеих сторон политического спектра, иногда разделенных на мелкие группы в зависимости от связи их взглядов с ценностными комплексами. Также было показано, что традиционные СМИ играют в таких дискуссиях связующую роль между активным центром и периферией дискуссии, что позволило скорректировать для конфликтных обсуждений классическую теорию Катца, Лазарсфельда и Мертона о двухступенчатом потоке коммуникации (Katz, 1957). Сегодня рабочая группа на основе изучения паттернов агрессии выдвинула идею «обратной спирали молчания», которая призвана расширить еще одну классическую теорию о складывании «эхо-камер» - теорию Э.Ноэль-Нойманн о «спирали молчания» (Noelle-Neumann, 1980).
Еще одним примером является изучение роли агрессии и радикализма в развитии дискуссий. Так, в2019-2020 годах, в противовес почти всему корпусу исследований речи ненависти и обсценной лексики в сетевых дискуссиях, рабочая группа продемонстрировала конструктивный характер политически мотивированной агрессивной речи для формирования публичных контрсфер, выпуска политического пара, контекстуализации критики политических акторов. Для дискуссий политической природы должны быть продолжено изучение агрессии и радикальных высказываний; паттернов моральной паники, присвоения вины и ответственности, политического диалога; складывания стабильных и диссипативных дискуссионных групп в связи с их ценностями и взглядами.
2. Изучение трансформации контента текстовых медиа, в том числе локальных, и их связи с контентом социальных медиа.
Несмотря на то, что социальные медиа сегодня порождают основной объем политически- и социально-релевантной публичной информации, наши работы показывают, что медиа, следующие традиционным подходам в создании контента, остаются важными для развития дискуссий в публичной сфере. Такие СМИ в регионах России, а также медиа диаспор все еще находятся в процессе цифровой трансформации: (пере)сборки аудитории, форматных экспериментов, освоения тактик присутствия в социальных медиа, этических колебаний. Тем не менее, как показывают наши работы и работы коллег, локальные медиа продолжают быть «привратниками» (gatekeepers) и ключевыми интерпретаторами фактов на местах, противостоят ложной информации (иногда лучше, чем общенациональные СМИ), связывают части дискуссии, выступают центрами местных сообществ. Учеными отмечены перетекание повестки дня из социальных медиа в традиционные и обратно, складывание межмедийной повестки (inter-media agendas; McCombs2004), превращение медийных gatekeepers в gatewatchers (Bastos, Raimundo, Travicki, 2013), формирование сетей связей с пользователями и др.
Сегодня локальные медиа участвуют в конкуренции, гораздо более широкой, чем ранее: так, они конкурируют с публичными страницами (пабликами) компаний и НКО, индивидуальными блоггерами, каналами на YouTube, новостными чатами в мессенджерах (особенно на Дальнем Востоке). Взаимодействие с конкурентами, а также с пользовательскими комментариями создает разветвленную «кровеносную систему» информационных потоков в ткани социальной коммуникации, пока малоизученную. Изучение взаимного влияния двух сегментов гибридной медиасистемы поможет выработать рекомендации, касающиеся эффективности медиаконтента на сетевых площадках.
Отдельного внимания заслуживает феномен цифровой журналистики, который обрел самостоятельное значение в журналистской индустрии и вызывает, без преувеличения, огромный интерес у исследователей. Так, журнал «Digital Journalism» за три года существования стал №2 среди журналов о коммуникации по версии SJRи №1 – по версии Google Scholar. При этом пока не создано значимой теоретической рамки для сравнительного изучения качества цифровой журналистики. В основном внимание исследователей сосредоточено на авторской практике, редакционном принятии решений, взаимодействии с аудиторией, экономическом выживании цифровой журналистики. Однако сравнительная рамка, на развитие которой будет направлена работа Центра, будет включать в том числе критерии оценки профессиональной культуры журналиста, деонтологии профессии, форм общественной подотчетности журналистики и реализации общественного интереса, роли в публичной сфере.
3. Разработка автоматизированных и смешанных методов анализа текстового и визуального контента медиа и социальных сетей, включая вероятностные и методы выделения тематики дискуссий, оценки их тональности, выявления пользовательских групп, а также визуализации результатов.
Выполнение Задач 1 и 2 невозможно сегодня без применения методов, основанных на автоматизированной обработке больших и средних массивов данных, имеющихся в открытом доступе и загруженных через специальное программное обеспечение. Как показывает опыт лабораторий в области социальных и когнитивных исследований Интернета(ЛИНИС/СКИЛА НИУ – ВШЭ, Вычислительного центр им. А. А. Дородницына РАН, зарубежных лабораторий), а также собственный семилетний опыт рабочей группы, следует стремиться к разработке комплексных смешанных методик, включающих:
- методики сбора и предварительной обработки (пре-процессинга) данных, что составляет отдельную методологическую проблему;
- методы обработки больших данных (big textual data). В первую очередь для задач Центра подходят методы автоматизированной обработки текстовых массивов для целей определения сообществ пользователей, словарей дискуссии, тематики и ее динамики, тональности высказываний, эмоционального фона и отдельных эмоций (в том числе различных видов агрессии и иронии) и др. Методы обработки можно разделить на методы эффективного представления текста («мешка слов», векторной репрезентации, word2vec и др.) – и вероятностные и не-вероятностные методы классификации, кластеризации или иной обработки измененного текстового массива;
- методы интерпретации(в том числе визуализации) результатов;
- качественные и количественно-качественные методы работы с текстом и иными единицами анализа.
Такое сочетание уже показало высокую эффективность на реальных данных (real-worlddata). Но для выстраивания подобных методологических цепочек необходимо междисциплинарное взаимодействие и разнообразие доступных методов вероятностной математики и социогуманитарных наук. Поэтому рабочая группа Центра будет состоять из представителей различных подразделений СПбГУ, а также по необходимости привлекать к работе над данными узких специалистов, не входящих в состав рабочей группы.
В данный момент рабочая группа является лидером в России по изучению проблем тематического моделирования и мультиязычного тонального анализа для коротких текстов, применения нейронных сетей к выявлению тематики текстовых корпусов, обработки и анализа твитов и комментариев с платформы YouTube. Подзадачами на первый период работы Центра в данном случае являются:
- разработка и тестирование методик вероятностной оценки тематики, тональности, эмоциональной наполненности и других характеристик для корпусов текстов сильно варьирующей длины (нестандартизированных постов и комментариев пользователей);
- разработка методик оценки визуального контента (фото, видео);
- разработка методик выявления сообществ пользователей, в том числе скрытых (террористических, преступных и др.) или разрозненных (сообществ эмигрантов, ущемленных групп и др.);
- разработка методов ручной оценки собранного контента на микроуровне, интерпретативных техник;
с целями, важными для реализации Задач 1 и 2.
4. Разработка и тестирование методов анализа текстового и визуального медиаконтента с применением технологий на базе нейронных сетей и нейрокомпьютинга.
Отдельной существенной задачей в рамках методологического направления работы Центра будут разработка и внедрение методов анализа текстовых данных с применением нейронных сетей (в частности, архитектуры BERT и алгоритма текстового анализа на основе эмбеддингов USE).
Как показал опыт рабочей группы в 2018-2020 годах, для некоторых методических разработок, даже комплексных, на реальных данных быстро достигается «потолок метода» (Bodrunova et al. 2020; Blekanov et al. 2018). Это означает невозможность подняться выше определенных значений показателей точности классификации и ее приближения к человеческой оценке. Поэтому в 2019 году рабочей группой были предварительно протестированы возможности разворачивания и применения предобученных нейронных сетей для текстового анализа; первые результаты, сочетающие USE-представление текстов и новую методику кластеризации текстов с использованием марковского момента остановки, опубликованы в журнале «Future Internet» (SJR Q2); после подачи рукописи руководитель рабочей группы приглашена в состав редколлегии журнала. Задачей является тестирование методов на базе нейронных сетей для разных языков и мультиязычных дискуссий.
В целом задачи Центра носят комплексный междисциплинарный характер, а также направлены одновременно на разработку передовых методов и их применение для анализа медиаконтента и структурных связей в нем. Результаты Центра позволят поставить его в ряд ведущих исследовательских лабораторий по изучению социальной коммуникации и получить результаты, сопоставимые с результатами пионерных мировых исследований.
НАУЧНАЯ НОВИЗНА поставленных задач определяется новизной предложенной "зонтичной" концепции кумулятивной делиберации, а также сочетанием методологических подходов, применяемых при анализе коммуникативных процессов и медиаконтента. Так, рабочая группа будет использовать не только классические качественные и количественные методы социологии, политологии, психологии и антропологии, но также методологию в области обработки и анализа больших массивов текстовых данных. В том числе это методы, уже разработанные рабочей группой, в том числе в области вероятностной кластеризации и классификации текстов, тематического моделирования, тонального анализа, детекции сообществ, визуализации данных. Также будет сделан упор на разработку нейрокомпьютерных методов анализа текстовых массивов на основе архитектуры BERT и предобученных коллекций данных для этой нейронной сети.1. Компетенций и исследовательского опыта рабочей группы.
2. Опыта совместных исследований и совместной подготовки публикаций.
3. Наличия разработанных методов и запатентованных инструментов для сбора и визуализации данных.
4. Предыдущих достижений коллектива.
КОМПЕТЕНЦИИ И ИССЛЕДОВАТЕЛЬСКИЙ ОПЫТРАБОЧЕЙ ГРУППЫ (РУКОВОДИТЕЛЬ И КЛЮЧЕВЫЕ ИСПОЛНИТЕЛИ)
С.С. Бодрунова (руководитель, 39 лет) –д.полит.н., профессор кафедры менеджмента массовых коммуникаций Института «Высшая школа журналистики и массовых коммуникаций» СПбГУ. В 2012-2016 годах заведовала кафедрой медиадизайна и информационных технологий СПбГУ. Автор более 130научных публикаций, в т.ч. автор и соредактор коллективной монографии «Медиакратия: современные теории и практики» (2013; первые премии Национальной ассоциации массмедиа-исследователей и Российской коммуникативной ассоциации) и более40 публикаций, индексируемых международными наукометрическими базами данных WoSCore Collection и Scopus, среди которых пять опубликованы в журналах Q1 (по рейтингу SJR).Приглашенный исследователь Лаборатории Интернет-исследований (ЛИНИС) НИУ – ВШЭ в Санкт-Петербурге (2013-2016). Участник конференций мировых и региональных исследовательских ассоциаций (ICA, IPSA, HCI, ECPR, IAMCR, WAPOR, ECREA, ASEEES и др.), конференций IEEE, ACM, LNCS. Кейноут-спикер (семь ключевых докладов международных конференций в 2017-2020 годах), председатель программного комитета международной конференции «Comparative media studies in today’s world (CMSTW)» (2013-2020). Создатель авторских курсов по тематике новых медиа, социальной коммуникации, трансформации медиа, журналистики и политики; читала приглашенные лекции и курсы в университетах Берлина, Гамбурга, Дортмунда, Вроцлава, Кракова, Тарту, Ювяскюля (2013-2020). Руководитель магистратуры «Global communication and international journalism» (программа двух дипломов совместно со Свободным университетом Берлина, Германия; 2015-2018) и магистратуры «Медиакоммуникации»(с 2019 года) в СПбГУ. Член редколлегии журналов «Digital Journalism»(Q1), «Global Media and Communication» (Q2), «Future Internet» (Q2), «CentralEuropean Journal of Communication» (Q3), «World of Media» (Scopus, МГУ). Руководитель НИР РНФ 16-18-10125(2016-2018) и НИР РНФ 16-18-10125-П (2019-2020). Обладатель грантов Президента РФ для молодых ученых – кандидатов наук (МК 5129.2011.6) и молодых ученых -докторов наук (МД-6259.2018.6), грантов СПбГУ, зарубежных грантов, исполнитель НИР РФФИ и НИР в рамках ФЦП «Кадры». Стажировалась в Италии, Польше, Чехии, Эстонии и других странах. Совладелец патента №2019661691 на программное обеспечение SNALab. Ведет исследования в сфере медиатизированной коммуникации, медиатизации политики и публичной сферы, отражения конфликтов в онлайн-дискуссиях, журналистики и новых медиа в России и Европе. Является молодым ученым (доктор наук до 40 лет).Свободно владеет английским и белорусским, на уровне intermediate – итальянским, немецким и французским языками.
И.С. Блеканов (ключевой исполнитель,35 лет) - к.т.н., доцент, доцент, заведующий кафедрой технологии программирования СПбГУ, руководитель магистерской программы «Технологии баз данных» по направлению «02.04.02 Фундаментальная информатика и информационные технологии». Лауреат Премии Правительства Санкт-Петербурга (2012 г.) в области научно-педагогической деятельности для молодых ученых. Автор и руководитель проекта по созданию онлайн-курса «Введение в науку о данных» на платформе Coursera (https://www.coursera.org/learn/vvedeniye-v-nauku-o-dannykh). Основной исполнитель в грантах РНФ, Гранте Президента (рук. С.С.Бодрунова), РФФИ. Автор(за последние 5 лет) более 30 публикаций, близких тематике исследования, из них: WoS - 4; Scopus - 20; РИНЦ - 14. Участник более десятка международных конференций ACM и IEEE. Ведет исследования в области вебометрики, науки о Вебе, науки о данных, теории графов, моделирования Веба, оптимального управления сайтами, оценки качества сайтов, информационного поиска, социальных сетей, поисковых роботов и сборщиков данных, анализа структуры сетевых дискуссий, анализа тональности и тематического моделирования пользовательских текстов.
К.Р. Нигматуллина (ключевой исполнитель,36 лет) - к.полит.н., доцент, заведующая кафедрой цифровых медиакоммуникаций Института «Высшая школа журналистики и массовых коммуникаций» СПбГУ. Автор более50 публикаций, из них 6 индексированы Scopus, 2 - WoS Core Collection. Член Национальной ассоциации массмедиа-исследователей (НАММИ), Диплом НАММИ за третье место в конкурсе научных исследований 2015 года за монографию «Медиа накануне постсекулярного мира» (под общей ред. В. А. Сидорова). Совершила исследовательские визиты в Свободный университет Берлина (2016), Университет Хельсинки (2017), прошла профессиональные стажировки как преподаватель журналистики в США (2014) и Швеции (2015). Обладатель Субсидии Комитета по науке и высшей школе Правительства Санкт-Петербурга на предоставление в 2016 году субсидий молодым ученым, молодым кандидатам наук вузов, отраслевых иакадемических институтов, расположенных на территории Санкт-Петербурга №71-16,исполнитель НИР в рамках ФЦП «Русский язык». Участник международных конференцийIAMCR, ICA, BASEES, профессиональной конференции WAN-IFRA. Автор 22 рабочих программ образовательных дисциплин, в том числе на английском языке. Автор тренингов для журналистов, эксперт Mediatoolbox, редактор раздела «Образование» в журнале «Журналист» (издается с 1914 года). Ключевой исполнитель НИР РНФ 16-18-10125 и 16-18-10125-П (рук.С.С.Бодрунова).
А.С. Смолярова (ключевой исполнитель,31 год) – к.полит.н., доцент кафедры международной журналистики Института «Высшая школа журналистики и массовых коммуникаций» СПбГУ. Автор более 30 научных публикаций, из них 16 индексированы базами Scopus и WoS Core Collection. Автор более 10 курсов и модулей по тематике международной журналистики, российских и европейских медиа, этнической журналистики и СМИ диаспор, современному медиапотреблению, социальным медиа. Обладатель Гранта Президента РФ для молодых ученых – кандидатов наук (2018-2019), ключевой исполнитель НИР РНФ, Грантов Президента (рук.С.С.Бодрунова). Куратор молодежной конференции «Медиа в современном мире. Молодые исследователи» (2009-2017). Выступала куратором программ профессионального обмена для молодых журналистов Сената Гамбурга, Гёте-Института, Фонда им. Фридриха Эберта, Союза молодежной прессы Германии, Академии прав человека Норвегии. Стажировалась в Германии, Израиле, Финляндии. Свободно владеет английским, немецким языками, на уровне intermediate – ивритом.
ОПЫТ СОВМЕСТНЫХ ИССЛЕДОВАНИЙ И СОВМЕСТНОЙ ПОДГОТОВКИ ПУБЛИКАЦИЙ
Основной состав рабочей группы сложился с 2011-2012 годов. За это время в сотрудничестве были реализованы девять проектов: три НИР СПбГУ 2013-2014 годов, три гранта Президента РФ для молодыхученых (с 2011 по 2019 год), НИР РНФ 16-18-10125 и 16-18-10125-П, НИР РФФИ 15-01-06105.
Общий объем совместных публикаций руководителя и основных исполнителей - 32, в т.ч. 26 индексированы международными наукометрическими базами данных.
РАЗРАБОТАННЫЕ МЕТОДЫ И ЗАПАТЕНТОВАННЫЕ ИНСТРУМЕНТЫ ДЛЯ СБОРА И ВИЗУАЛИЗАЦИИ ДАННЫХ
В ходе предыдущих НИР были разработаны и продолжают дорабатываться следующие методические и аппаратные комплексы длясбора, обработки и визуализации данных:
1. Специализированные веб-краулеры с обобщенным ядром для сбора данных в web 1.0, Твиттере, YouTube. Проведены эксперименты, подтверждающие его высокую эффективность по сбору данных в web1.0 в сравнении с зарубежными аналогами (Блеканов, Сергеев, Мартынов 2012),анализ эффективности в сопоставлении с выборками из Твиттера на основеAPI-выдачи. Применялись в рамках НИР РНФ 16-18-10125 и 16-18-10125-П, РФФИ15-01-06105, двух НИР СПбГУ.
2. Лексикон-ориентированный программный комплекс для тонального анализа на различных европейских языках, включая английский, немецкий, французский, русский. Разработан в рамках НИР РНФ16-18-10125 (для французского языка) и Гранта Президента РФ МД-6259.2018.6 (для английского языка).
3. Программный комплекс для тематического моделирования коротких текстов на русском, английском, немецком языке (WNTM).Протестирован в рамках НИР РНФ 16-18-10125.
4. Доработанные методики визуализации веб-графов на основе алгоритмов Gephi (YifanHu и OpenOrd).
5. Методика репрезентации текстов с использованием sentence embeddingsна основе нейронной трансформенной архитектуры UniversalSentenceEncoder (USE).
Рабочая группа обладает тремя патентами на программное обеспечение, обеспечивающее сбор и анализ больших объемов пользовательских текстов.
ДОСТИЖЕНИЯ КОЛЛЕКТИВА ЗА ПРЕДШЕСТВУЮЩИЙПЕРИОД
В 2013-2020 годах были сформулированы следующие выводы, позволяющие продолжить комплекс исследований в сфере социальных медиа и конфликта, диссипативной публичной сферы, методологии исследования социальных дискуссий. Так, было установлено, что:
1. Конфликтные дискуссии в социальных сетях обладают специфической природой с точки зрения связи пользователей. Они не только аффективны и специфичны для каждого отдельного случая, как отмечалось в более ранних исследованиях. Складывание дискуссий об остроконфликтных ситуациях подчиняются степенному закону (power law); такая дискуссия является менее связной и более равноправной сточки зрения выдвижения инфлюэнсеров (влиятельных пользователей).
2. Многие дискуссии, в том числе на YouTube, в целом сложно назвать дискуссиями: это, скорее, конгломераты несвязанных высказываний, обладающие при этом кумулятивным эффектом с точки зрения снятия барьеров участия следующих зрителей/комментаторов. Эффекты кумулятивной делиберации проявляются не в рамках отдельных обсуждений, а на более высоком уровне(например, пользовательской практики комментирования в целом).
3. Персональные характеристики и институциональная палитра влиятельных пользователей являются национально-обусловленными: например, в схожих конфликтах структура политического присутствия варьирует в зависимости от развитости гражданского общества, структуры политических партий, наличия радикальных групп и организаций. Контекстуально-зависимыми являются также паттерны присвоения вины за конфликт и ответственности за его разрешение.
4. Было показано, что «эхо-камеры» (модулярные области единообразного мнения/тона) в сетевых дискуссиях являются многоуровневыми. Так, в глобальных дискуссиях первым уровнем фрагментации является языковой, вторым – тональный, третьим – содержательный (например, различия в политических взглядах).
5. Фрагментация пользователей в дискуссиях не соответствует ожиданиям, сформированным теориями группового взаимодействия и исследованиями, утверждающими наличие бинарной политической поляризации(правый/левый). Для объяснения динамики дискуссии рабочая группа выдвинула гипотезу «обратной спирали молчания» - развития дискуссии с подачи радикализированных пользователей/твитов. При «обратной спирали молчания» радикально настроенное меньшинство (а не умеренное доминантное большинство, как в теории Элизабет Ноэль-Нойманн) начинает вести за собой дискуссию.
6. Роль медиа-аккаунтов в конфликтных дискуссиях отличается от роли в оффлайновой публичной сферы в рамках классической концепции двухступенчатого потока коммуникации Лазарсфельда, Мертона и Катца. Так, было показано, что в дискуссиях в разных странах медиа стоят на позициях между активным связным центром дискуссии и периферийными «облаками», являясь средним, а не первым звеном в потоке коммуникации и предоставляя данные и референтный контекст как для активных пользователей, таки для участников с малым числом постов и связей.
7. Начато исследование в сравнительной перспективе тональных и эмоциональных паттернов конфликтных дискуссий. Показано, что тональность высказываний инфлюэнсеров связана с их персональными характеристиками и институциональным статусом.
8. Начато изучение роли радикальных высказываний и коммуникативной агрессии в сетевых дискуссиях. Показано, что восприятие агрессивной речи как исключительно вредной в делиберативном смысле должно быть пересмотрено. В противовес имеющимся подходам было показано, что в условиях растущих ограничений со стороны политической системы коммуникативная агрессия (обсценнная лексика, политически мотивированная агрессивная лексика, радикальные высказывания) играет конструктивную роль в дискуссии как со структурной, так и с семантической точки зрения.
9. Показана роль пабликов медийного характера на платформе VK.com (бывш. Vkontakte) в местном медиаландшафте. Дана комплексная оценка индекса вовлеченности аудитории, отражающего потенциал формирования сообществ вокруг медиаресурса. Сформулирована концепция «медиа как сообщества», справедливая как для локальных медиапроектов, так и для цифровых СМИ диаспор.
10.Ведется масштабное исследование профессиональной культуры журналиста, включая трансформацию деонтологии и поведение в социальных сетях. Так, установлена гетерогенность журналистской культуры в России не только в поколенческом аспекте, как было показано ранее, но в первую очередь с точки зрения ценностных комплексов и традиций, а также принятия/отторжения технологических инноваций, в том числе работы в социальных сетях, блогах, мессенджерах.
11.Изучение журналистских практик онлайн показало ценностные разломы внутри этики профессии. В частности, было продемонстрировано, что не более 30%российских журналистов интерпретируют понятие самоцензуры как непубликацию информации в силу риска журналисту, редакции или иным лицам. Более 50%журналистов путают деонтологические нормы и основания для самоцензуры. Также было установлено, что самоцензура в профессиональных публикациях и социальных сетях имеет различные причины, и кумулятивный механизм критики в социальных сетях обладает потенциалом давления на журналистов, как и на других пользователей сети.
12.Показано, что онлайн-коммуникация играет ведущую роль в создании наднациональной и во многом деполитизированной публичной сферы глобальной русскоязычной диаспоры. Показан рост сетевого медиапотребления в медиадиетах русскоговорящих жителей Германии и Израиля. Выявлены страновые различия в популярности мессенджера Telegram как платформы для медиапроектов. На примере Instagram-проектов изучается политизация социальных и бытовых вопросов в жизни диаспоры.
На примере внутрироссийских дискуссий также было продемонстрировано, что:
1. В российском Твиттере, несмотря на регулярное присутствие в нем информации от исполнительной власти, существует институциональный вакуум с точки зрения участия политических акторов и представителей ветвей власти в дискуссиях. То же можно сказать и об НКО, в том числе в сфере защиты этнических меньшинств и иммигрантов.
2. Русскоязычные сегменты социально-сетевых платформ представляют собой «эхо-камеры» максимально возможного размера (platform-wide echo chambers). Так, отмечено, что русскоязычный сегмент Facebook представляется либеральной «эхо-камерой», тогда как Твиттер аккумулирует пронационалистически настроенную аудиторию. Более того, национализм в Твиттере делится на противников и сторонников текущей власти. Такая «двойная» структура националистического дискурса напрямую влияет на структуру обсуждений и их делиберативное качество.
3. Вина за социальный конфликт и ответственность за его решение атрибутируются элементам политической системы разного уровня. Так, вина ложится на федеральные власти, а деэскалации конфликта ждут от региональных органов управления. Данный разрыв свидетельствует о соответствующем разрыве в полисинге по вопросам этносоциальных отношений.
Методологические результаты предшествующего периода, помимо разработки программного обеспечения и алгоритмов работы с ним, включаютследующие наработки:
1. Разработана методика оценки тональности для трех классов (негативный, положительный, нейтральный) для четырех языков, применимая для коротких текстов, достигающая показателей 0.65 – 0.78 на сильно зашумленных данных (твиты без препроцессинга) по четырем метрикам качества (recall, precision, accuracy, F-measure).
2. Выявлено, что введение четвертого класса(«смешанная тональность») резко снижает качество метода. Таким образом, достигнут «потолок метода» для такого типа текстов. Предложено использовать нейронные сети для глубокого машинного обучения в сфере тонального анализа коротких шумных текстов.
3. Проведено обучение машины для выявления пяти эмоций, а также агрессии и иронии/сарказма для четырех языков. Показатели по выделению агрессии и иронии/сарказма достигают 0.8 – 0.9 по четырем метрикам качества оценки (recall,precision, accuracy, F-measure). Выявление эмоций, таких как радость или гнев, сложнее поддается детекции; показано, что требуется глубокое обучение для повышения показателей качества их выявления.
4. Показано, что препроцессинг твитов может существенно снижать(!) качество тонального анализа и тематического моделирования.
5. Предложена методика выявления тематики дискуссии, альтернативная подходам на основе «мешка слов» и векторному представлению текстов (word2vec). Она сочетает эмбеддинговое представление текстов, полученное с помощью предобученных нейронных сетей, и агломеративную кластеризацию с марковским моментом остановки. Показано, что по таким стандартным показателям качества выделения тем, как V-метрика и NMI, метод работает лучше признанных методов (baseline methods), включая DBSCAN и OPTICS.
6. Также показано, что марковский моменто становки и применяемый для его расчета критерий q работает более эффективно, чем часто применяемые методы определения остановки кластеризации (silhouette и elbow).
7. При этом показано, что оценка качества тематического моделирования на коротких текстах путем применения автоматических метрик и ручного кодирования почти никогда не совпадает. Так, модель, оцененная высоко с помощью автоматических метрик, при чтении глазами выдает типичные ошибки моделирования (слишком большое число тем с одинаковыми топ-словами, «цепные» темы, малоинтерпретируемые темы на основе общей лексики и др.). Это справедливо как минимум для трех языков (русского, английского, французского).
8. Были проведены эксперименты по проверке качества ручного кодирования, то есть зависимости результата кодирования от опыта кодировщика и погруженности в текст. Показано, что число интерпретируемых тем критически (до 11 раз!) различается в зависимости от характеристик кодировщика. Поставлен вопрос о поиске критериев оценки качества тематического моделирования, не зависящих от ручного кодирования и не имитирующих их, а также вопрос о необходимой и достаточной тренировке кодировщиков.
После обобщения опыта работы с тематическими моделями на коротких пользовательских текстах была выдвинута идея «идеального топика». Ранее моделирование проводилось с целью добиться максимального числа тем, интерпретируемых достаточно хорошо (с определенным порогом). Однако это может быть изначально порочной установкой. В коротких текстах пользователей уместнее искать небольшое количество значимых и хорошо интерпретируемых тем, не гонясь за их количеством.Short title | GZ-2021 |
---|---|
Acronym | M1_2021 - 1 |
Status | Finished |
Effective start/end date | 23/03/21 → 31/12/21 |
ID: 75290079