Description

ФОРМУЛИРОВКА НАУЧНОЙ ПРОБЛЕМАТИКИ. Научная проблема, на разработку которой направлен проект "Центр международных медиаисследований", состоит в трансформации публичности и публичной сферы в сторону формирования диссонантных и диссипативных тенденций (см. ниже), что приводит к слому устоявшихся паттернов общественной делиберации (раундного общественного обсуждения для установления истины и принятия решений) и необходимости поиска общественного ответа и адаптации общества к этим тенденциям. 
Как известно, более чем 150-летняя научная традиция изучения дихотомии "частное/публичное" во второй половине ХХ века была представлена, в первую очередь, работами Ю.Хабермаса и его критиков как с консервативно-либеральной, так и с социал-демократической стороны. Идеи Хабермаса о консенсусном коммунитаризме, де-феодализации европейского публичного пространства в XIX веке и его ре-феодализации в ХХ веке, публичной коммуникации как политического действия, рациональной делиберации как основе консенсуса, учитывающего интересы меньшинства, остаются актуальными и сегодня. Однако с быстрым распространением Интернет-коммуникации, а затем социально-сетевых платформ и форм индивидуальной медиатизированной коммуникации (мессенджеры) был поставлен под сомнение главный тезис Ю.Хабермаса - тезис о желании людей участвовать в обсуждении для того, чтобы в итоге достичь консенсуса. 
С середины 2010-х годов активно разрабатывается тематика цифровых угроз (digital threats), которые возникают в процессе социальной коммуникации. Часть их связана как раз с недостижением "порядочного Интернета" и складыванием "амбивалентного Интернета" (Hedrick et al., 2018). Также в 2018 году был опубликован ряд работ ведущих ученых (Б. Пфетш и другие) о диссонантных и диссипативных публичных сферах. Эти работы поставили вопрос о том, как общество должно развиваться в условиях принципиального отказа от идеи обязательного стремления к согласию. Этот вопрос пока не нашел ответа. Исследования, которые проводились рабочей группой Центра в 2013-2020 годах, показали, что в основе дискуссий в сети Интернет сегодня лежит не идея обмена сообщениями, а идея кумуляции присутствия пользователей со сходными характеристиками (личными чертами, социальной идентичностью, политическими взглядами, культурным), которая приносит временный перевес в делиберативном процессе. Кумулятивная делиберация как процесс, базирующийся на алгоритмической и "человеческой" агрегации поддержки, выражении симпатий и антипатий со стороны пользователей, динамике "спирали молчания" (Noelle-Neumann, 1980), формировании "эхо-камер" и "фильтр-пузырей" (Sunstein 2001), складывании скрытых сообществ и иных основаниях, отличных от идеи рациональной делиберации, имеющей целью равноправный и сбалансированный общественный договор. Изучение динамики диссипации и диссонанса представляет собой ключевой вызов в современной коммуникативистике. В особенности это важно для таких относительно малоизученных в коммуникативном отношении сообществ, как Россия и постсоветское пространство. 

АКТУАЛЬНОСТЬ ПРОБЛЕМАТИКИ И ОБЗОР ВЕДУЩИХ КОНЦЕПТУАЛЬНЫХ РАБОТ. В условиях растущей медиатизации как развитых, так и развивающихся обществ создание, распространение и потребление информации составляет существенную часть социальной жизни. Участие пользователей, а также институциональных коммуникаторов (например, медиа) в разрастающейся социальной коммуникации на базе сети Интернет рассматривалось ранее как демократизирующее – ведущее к большей открытости, равенству при обсуждении решений, снижению напряженности для ущемленных социальных групп и др. Интернет описывался как пространство, способствующее снижению социального неравенства в различных аспектах, в том числе неравенств в доступе к информации, обсуждению альтернатив, принятию решений. 
В то же время возросшая протестная активность во время Иракского кризиса и позднее привела ученых к мысли об активизации роли обычного человека в публичной сфере (см., например, программную статью Habermas & Derrida 'What binds Europeans together?', 2003), а также к идее внутренней плюрализации публичной сферы. На рубеже десятилетий, в период революций Арабской весны, движения Occupy и других уличных протестных акций на основе самоорганизации, стала очевидна связка между Интернет-активностью и политической напряженностью. В частности, была сформулирована концепция коннективного действия (Bennett & Segerberg, 2012). Исследователи продолжали смотреть на социально-сетевую коммуникацию как на демократизирующее явление, хотя и ограниченной силы. 
Однако к 2015 году в коммуникативистике накопилось множество свидетельств того, что цифровая трансформация медиа и коммуникации имеет тенденцию к негативной «нормализации»: в сети начинают воспроизводиться паттерны оффлайновой жизни при попадании в Интернет репрезентативных групп населения (Daniels, 2013), а компании – владельцы коммуникативных платформ находят новые, крайне эффективные модели бесплатной эксплуатации пользователей (Fuchs, 2014).  Теория публичной сферы перешла от сетевого оптимизма к пониманию публичных сфер и онлайн-дискуссий в них как аффективных (Papacharissi, 2015), диссонантных (Pfetsch, 2018), диссипативных конгломератов высказываний «на случай» (ad hoc; Bruns&Burgess, 2011). Начиная с 2016 года, после скандалов, связанных с массовой слежкой, ботизацией Интернета и фейковыми новостями, формировалась концепция цифровых угроз (Miller & Vaccari, 2020), в которой действия пользователей рассматриваются скорее как отклонение от идеи «порядочного Интернета» (Hedrick, Karpf & Kreiss, 2018). Формирование "амбивалентного Интернета" стало предметом обсуждения не только в академической среде, но и в полисинговых документах ведущих государств, ЕС, ООН. 
Параллельно с этим появились не менее важные концепции, указывающие на снижение рациональности дискуссий и, соответственно, демократического качества онлайновой публичной сферы. Так, ученые указали на «эмоциональный поворот» в медийных текстах (Wahl-Jorgensen, 2018; Luenenborg&Maier, 2018), объективно диссонантную природу современных национальных и наднациональных публичных сфер (Pfetsch, 2018), критическую значимость политической поляризации онлайн-дискуссий при обсуждении социального конфликта (Bodrunova et al., 2019). В силу указанных изменений изучение коммуникации в Интернете – как в социальных сетях, так и на порталах онлайн-медиа – представляется значимым, поскольку медиатизация социальной жизни, включая детство, нарастает, но вместе с этим растет и напряжение, связанное с комплексным и неоднозначным характером коммуникации. Пандемия COVID-19, разразившаяся в 2020 году и сопровождавшаяся мировой «инфодемией», отчетливо показала, насколько велика потребность в изучении не только непосредственно цифровых угроз, но и самой ткани современной социальной коммуникации. 
Россия затронута указанными тенденциями не меньше, чем Европа, Северная Америка, Азия, Ближний Восток. Но во многом российские медиаисследования остаются либо ориентированы на анализ внутристрановых реалий коммуникации, либо следуют в русле западных тенденций в теории медиа и Интернет-исследованиях. При этом сравнительная перспектива критически значима для понимания коммуникативных процессов – не только в силу глобального характера самого Интернета и некоторых соцмедийных платформ, но и в силу повсеместно меняющегося характера социальной интеракции. До сих пор в России нет исследовательского центра в области коммуникативистики, который бы мог поместить медиаисследования в межстрановой контекст, как с теоретической, так и с эмпирической точки зрения, а также предложить собственный взгляд на природу коммуникации в публичной сфере в государствах без длительной демократической традиции (в сравнении с более "старыми" демократиями).
Еще одной задачей Центра станет разработка и внедрение методов автоматизированного анализа медиаконтента и структуры сетевых дискуссий. Сочетание экспертного социогуманитарного знания и аппарата прикладной математики и веб-аналитики уже доказало свою успешность в рамках реализации предыдущих исследований (НИР РНФ, РФФИ, Грантов Президента и др.). При этом в некоторых методологических зонах, например в области тематического моделирования на коротких текстах, был достигнут «потолок метода» (см. Отчет НИР РНФ 16-18-10125-П за 2019 год). Внутри данного направления важной задачей Центра станет применение нейронных сетей и – шире - нейрокомпьютерных технологий к реконструкции структуры, содержания и социального влияния медийной коммуникации. Участниками рабочей группы уже продемонстрирована высокая эффективность нейрокомпьютинга для тематического моделирования для коллекций медиатекстов (Bodrunova et al., 2020). Центр станет первой российской лабораторией, применяющей нейронные сети для анализа широкого спектра проявлений социальной коммуникации. Помимо развития фундаментального знания о природе современной коммуникации, полученные знания и разработанные методики исследования могут найти применение как для решения государственных задач, так и в индустриях, которым важно знание принципов построения аудиторий и социальной дискуссии (журналистика, маркетинг, оценка репутации, психология общения и др.). 

КОНКРЕТНАЯ НАУЧНАЯ ПРОБЛЕМА, НА РАЗРАБОТКУ КОТОРОЙ НАПРАВЛЕН ПРОЕКТ. В 2020 году С.С.Бодруновой по итогам многолетних исследований социальной коммуникации в традиционных медиа и сети Интернет была предложена концепция кумулятивной делиберации. Это попытка объединить разрозненные сегодня выводы российских и западных исследователей, в целом говорящие о том, что в основе медиатизированной общественной дискуссии лежит не рациональный и добровольный поиск консенсуса, а конкуренция групп - носителей мнений и интересов, и обсуждение становится подобным "перетягиванию символического каната" и идет путем временных/локальных побед определенных точек зрения. Поэтому в современной медиатизированной коммуникации важно изучить и выделить паттерны и инструменты, способствующие/мешающие аккумулированию поддержки и привлечению сторонников, декларированию победы в символическом сражении, ограничению сообщества единомышленников и т.д. В целом механизмы кумулятивной делиберации, направленной на формирование временного/локального большинства, можно противопоставить механизмам консенсусной делиберации, направленной на поиск консенсуса большинства с меньшинством. В рамках работы над данной концепцией уже высказаны и проходят апробацию концепции "обратной спирали молчания" (2019 год) и контрибутивного действия (2020 год). В задачи Центра входит проведение исследований, позволяющих выявить как общие принципы кумулятивной делиберации, так и отдельные явления в рамках этой концепции.

КОНКРЕТНЫЕ ЗАДАЧИ, РЕАЛИЗУЕМЫЕ ЦЕНТРОМ В БЛИЖАЙШИЙ ОТЧЕТНЫЙ ПЕРИОД. В содержательные и методологические задачи Центра, как указано выше, входит:

1.  Исследование принципов социальной коммуникации в современной публичной сфере, в том числе в сети Интернет (в социальных сетях, на блог-платформах и платформах агрегации пользовательского контента) в контексте социально-политических конфликтов, политической поляризации, социальной фрагментации публичной сферы.

Данное направление работы Центра является основным и ориентировано на понимание структуры, содержания и динамики социальной коммуникации, в том числе дискуссий пользователей в социальных сетях, на блог-платформах, на порталах агрегации контента, в мессенджерах. Так, в частности, будут изучаться такие аспекты дискуссий, как конфигурация влиятельных пользователей; связь характеристик (метаданных) пользователей со способами говорения, структурой и динамикой связей, психологическими и культурными чертами речи; тональность и тематика обсуждения; объединяющий/диссипативный характер дискуссии; «облака» внутри обсуждения и их природа; и др. Здесь важно, что изучение этих аспектов не является самоцелью: через изучение структурных и содержательных черт дискуссий выявляются особенности индивидуального и группового коммуникативного поведения, а также черты публичной сферы (Habermas 2006), важные с политической и социально-групповой точки зрения. В 2020 году мы подтвердили существенную разницу в степени связности оппозиционного дискурса в российском и белорусском YouTube, что показывает критическую значимость контекста, а не платформы, в формировании паттерна дискуссии. Это требует дальнейшего изучения на материале различных стран.

Еще одним важным направлением является изучение коммуникативного поведения в обсуждениях конфликтов различной природы. Ранее при изучении обсуждений этнополитических конфликтов с насильственным триггером в разных странах рабочая группа, в частности, установила, что формирование групп в таких дискуссиях не следует паттерну «меньшинство/большинство-за-меньшинство/большинство-против-меньшинства», на котором настаивала теория групповой интеракции. Не соответствует оно и политическому спектру. Напротив, в дискуссиях наблюдается противостояние неправых/левых политических групп, а нейтрального медийного дискурса и радикализированных высказываний с обеих сторон политического спектра, иногда разделенных на мелкие группы в зависимости от связи их взглядов с ценностными комплексами. Также было показано, что традиционные СМИ играют в таких дискуссиях связующую роль между активным центром и периферией дискуссии, что позволило скорректировать для конфликтных обсуждений классическую теорию Катца, Лазарсфельда и Мертона о двухступенчатом потоке коммуникации (Katz, 1957). Сегодня рабочая группа на основе изучения паттернов агрессии выдвинула идею «обратной спирали молчания», которая призвана расширить еще одну классическую теорию о складывании «эхо-камер» - теорию Э.Ноэль-Нойманн о «спирали молчания» (Noelle-Neumann, 1980).

Еще одним примером является изучение роли агрессии и радикализма в развитии дискуссий. Так, в2019-2020 годах, в противовес почти всему корпусу исследований речи ненависти и обсценной лексики в сетевых дискуссиях, рабочая группа продемонстрировала конструктивный характер политически мотивированной агрессивной речи для формирования публичных контрсфер, выпуска политического пара, контекстуализации критики политических акторов. Для дискуссий политической природы должны быть продолжено изучение агрессии и радикальных высказываний; паттернов моральной паники, присвоения вины и ответственности, политического диалога; складывания стабильных и диссипативных дискуссионных групп в связи с их ценностями и взглядами.

2.  Изучение трансформации контента текстовых медиа, в том числе локальных, и их связи с контентом социальных медиа.

Несмотря на то, что социальные медиа сегодня порождают основной объем политически- и социально-релевантной публичной информации, наши работы показывают, что медиа, следующие традиционным подходам в создании контента, остаются важными для развития дискуссий в публичной сфере. Такие СМИ в регионах России, а также медиа диаспор все еще находятся в процессе цифровой трансформации: (пере)сборки аудитории, форматных экспериментов, освоения тактик присутствия в социальных медиа, этических колебаний. Тем не менее, как показывают наши работы и работы коллег, локальные медиа продолжают быть «привратниками» (gatekeepers) и ключевыми интерпретаторами фактов на местах, противостоят ложной информации (иногда лучше, чем общенациональные СМИ), связывают части дискуссии, выступают центрами местных сообществ. Учеными отмечены перетекание повестки дня из социальных медиа в традиционные и обратно, складывание межмедийной повестки (inter-media agendas; McCombs2004), превращение медийных gatekeepers в gatewatchers (Bastos, Raimundo, Travicki, 2013), формирование сетей связей с пользователями и др.

Сегодня локальные медиа участвуют в конкуренции, гораздо более широкой, чем ранее: так, они конкурируют с публичными страницами (пабликами) компаний и НКО, индивидуальными блоггерами, каналами на YouTube, новостными чатами в мессенджерах (особенно на Дальнем Востоке). Взаимодействие с конкурентами, а также с пользовательскими комментариями создает разветвленную «кровеносную систему» информационных потоков в ткани социальной коммуникации, пока малоизученную. Изучение взаимного влияния двух сегментов гибридной медиасистемы поможет выработать рекомендации, касающиеся эффективности медиаконтента на сетевых площадках.

Отдельного внимания заслуживает феномен цифровой журналистики, который обрел самостоятельное значение в журналистской индустрии и вызывает, без преувеличения, огромный интерес у исследователей. Так, журнал «Digital Journalism» за три года существования стал №2 среди журналов о коммуникации по версии SJRи №1 – по версии Google Scholar. При этом пока не создано значимой теоретической рамки для сравнительного изучения качества цифровой журналистики. В основном внимание исследователей сосредоточено на авторской практике, редакционном принятии решений, взаимодействии с аудиторией, экономическом выживании цифровой журналистики. Однако сравнительная рамка, на развитие которой будет направлена работа Центра, будет включать в том числе критерии оценки профессиональной культуры журналиста, деонтологии профессии, форм общественной подотчетности журналистики и реализации общественного интереса, роли в публичной сфере.

3.  Разработка автоматизированных и смешанных методов анализа текстового и визуального контента медиа и социальных сетей, включая вероятностные и методы выделения тематики дискуссий, оценки их тональности, выявления пользовательских групп, а также визуализации результатов.

Выполнение Задач 1 и 2 невозможно сегодня без применения методов, основанных на автоматизированной обработке больших и средних массивов данных, имеющихся в открытом доступе и загруженных через специальное программное обеспечение. Как показывает опыт лабораторий в области социальных и когнитивных исследований Интернета(ЛИНИС/СКИЛА НИУ – ВШЭ, Вычислительного центр им. А. А. Дородницына РАН, зарубежных лабораторий), а также собственный семилетний опыт рабочей группы, следует стремиться к разработке комплексных смешанных методик, включающих:

- методики сбора и предварительной обработки (пре-процессинга) данных, что составляет отдельную методологическую проблему;

- методы обработки больших данных (big textual data). В первую очередь для задач Центра подходят методы автоматизированной обработки текстовых массивов для целей определения сообществ пользователей, словарей дискуссии, тематики и ее динамики, тональности высказываний, эмоционального фона и отдельных эмоций (в том числе различных видов агрессии и иронии) и др. Методы обработки можно разделить на методы эффективного представления текста («мешка слов», векторной репрезентации, word2vec и др.) – и вероятностные и не-вероятностные методы классификации, кластеризации или иной обработки измененного текстового массива;

- методы интерпретации(в том числе визуализации) результатов;

- качественные и количественно-качественные методы работы с текстом и иными единицами анализа.

Такое сочетание уже показало высокую эффективность на реальных данных (real-worlddata). Но для выстраивания подобных методологических цепочек необходимо междисциплинарное взаимодействие и разнообразие доступных методов вероятностной математики и социогуманитарных наук. Поэтому рабочая группа Центра будет состоять из представителей различных подразделений СПбГУ, а также по необходимости привлекать к работе над данными узких специалистов, не входящих в состав рабочей группы.

В данный момент рабочая группа является лидером в России по изучению проблем тематического моделирования и мультиязычного тонального анализа для коротких текстов, применения нейронных сетей к выявлению тематики текстовых корпусов, обработки и анализа твитов и комментариев с платформы YouTube. Подзадачами на первый период работы Центра в данном случае являются:

- разработка и тестирование методик вероятностной оценки тематики, тональности, эмоциональной наполненности и других характеристик для корпусов текстов сильно варьирующей длины (нестандартизированных постов и комментариев пользователей);

- разработка методик оценки визуального контента (фото, видео);

- разработка методик выявления сообществ пользователей, в том числе скрытых (террористических, преступных и др.) или разрозненных (сообществ эмигрантов, ущемленных групп и др.);

- разработка методов ручной оценки собранного контента на микроуровне, интерпретативных техник;

с целями, важными для реализации Задач 1 и 2.

4.  Разработка и тестирование методов анализа текстового и визуального медиаконтента с применением технологий на базе нейронных сетей и нейрокомпьютинга.

Отдельной существенной задачей в рамках методологического направления работы Центра будут разработка и внедрение методов анализа текстовых данных с применением нейронных сетей (в частности, архитектуры BERT и алгоритма текстового анализа на основе эмбеддингов USE).

Как показал опыт рабочей группы в 2018-2020 годах, для некоторых методических разработок, даже комплексных, на реальных данных быстро достигается «потолок метода» (Bodrunova et al. 2020; Blekanov et al. 2018). Это означает невозможность подняться выше определенных значений показателей точности классификации и ее приближения к человеческой оценке. Поэтому в 2019 году рабочей группой были предварительно протестированы возможности разворачивания и применения предобученных нейронных сетей для текстового анализа; первые результаты, сочетающие USE-представление текстов и новую методику кластеризации текстов с использованием марковского момента остановки, опубликованы в журнале «Future Internet» (SJR Q2); после подачи рукописи руководитель рабочей группы приглашена в состав редколлегии журнала. Задачей является тестирование методов на базе нейронных сетей для разных языков и мультиязычных дискуссий.

В целом задачи Центра носят комплексный междисциплинарный характер, а также направлены одновременно на разработку передовых методов и их применение для анализа медиаконтента и структурных связей в нем. Результаты Центра позволят поставить его в ряд ведущих исследовательских лабораторий по изучению социальной коммуникации и получить результаты, сопоставимые с результатами пионерных мировых исследований.

НАУЧНАЯ НОВИЗНА поставленных задач определяется новизной предложенной "зонтичной" концепции кумулятивной делиберации, а также сочетанием методологических подходов, применяемых при анализе коммуникативных процессов и медиаконтента. Так, рабочая группа будет использовать не только классические качественные и количественные методы социологии, политологии, психологии и антропологии, но также методологию в области обработки и анализа больших массивов текстовых данных. В том числе это методы, уже разработанные рабочей группой, в том числе в области вероятностной кластеризации и классификации текстов, тематического моделирования, тонального анализа, детекции  сообществ, визуализации данных. Также будет сделан упор на разработку нейрокомпьютерных методов анализа текстовых массивов на основе архитектуры BERT и предобученных коллекций данных для этой нейронной сети.
ДОСТИЖИМОСТЬ поставленных задач определяется: 1) составом рабочей группы и научным заделом, наработанным за более чем семь лет сотрудничества (см. ниже); 2) наличием требуемого оборудования (сервер для распределенного анализа данных, хранилище данных); 3) наличием запатентованного программного обеспечения (в том числе веб-краулера со сменными модулями для сбора, пре-процессинга, анализа, упаковки данных и визуализации результатов исследований); 4) наличием широкой сети связей с российскими и зарубежными коллегами. Это в том числе научные центры в области коммуникативистики и Интернет-исследований: Вайценбаум-институт Берлина-Бранденбурга, Ханс-Бредоу-Институт, Эрих-Брост-Институт Технического университета Дортмунда (Германия), кафедры и научные подразделения Университета Иллинойса в Чикаго, Университета Джорджа Вашингтона, Университета Джорджа Мейсона и др. (США), Университета Варшавы, Университета Вроцлава, Университета Кракова (Польша), Университета Хельсинки, Университета Ювяскюля, Университета Тампере (Финляндия) и мн.др.ПРЕДЛАГАЕМЫЕ МЕТОДЫ И ПОДХОДЫ. Как указано выше, Центр является междисциплинарным проектом. Основную роль будут играть следующие подходы и методы:
МЕТОДЫ СБОРА ДАННЫХ:1) количественные методы социологии: анкетирование/опрос, эксперимент; 2) качественные методы социологии (при необходимости): интервью, фокус-группа; 3) психологические и антропологические методы сбора данных о персональных паттернах поведения пользователей; 4) сбор текстовых данных: веб-краулинг, ручной сбор текстов, работа с готовыми базами текстовых данных.
МЕТОДЫ ПРЕДОБРАБОТКИ ДАННЫХ: 1) автоматизированный пре-процессинг: очистка от незначимых элементов (осколки html-тегов, индивидуально-авторская аббревиация, неполные слова), лемматизация, стемминг, очистка от стоп-слов; 2) создание баз текстовых данных и СУБД для работы с ними.
МЕТОДЫ АНАЛИЗА ДАННЫХ: 1) социолингвистические методы (кодирование, контент-анализ, интерпретативное чтение); 2) статистические методы: описательная статистика, регрессионный, факторный, кластерный анализ (разработанные ранее); 3) вероятностные методы обработки текстовых массивов: кластеризация и классификация текстов на разных основаниях, в том числе тематическое моделирование и тональный анализ (выявление сентимента пользователя) - разработанные рабочей группой; 4) методы изучения пользовательской реакции на сообщение - психологические, антропологические, методы зоны DUXU (оценка качества дизайна и юзабилити); 4) иные методы (при необходимости).
МЕТОДЫ ВИЗУАЛИЗАЦИИ РЕЗУЛЬТАТОВ: 1) графовые методы представления на основе доработанных алгоритмов библиотеки Gephi; 2) методы динамической визуализиции (разрабатываются рабочей группой в данный момент).

ОБЩИЙ ПЛАН РАБОТЫ НА СРОК ВЫПОЛНЕНИЯ ПРОЕКТА (3 ГОДА). План работы включает следующие общие пункты:
2021 год:

1. Консолидация рабочей группы, ознакомление новых участников с опытом работы, сделанными выводами и планом исследований. 
2. Первичная проработка концепции кумулятивной делиберации на основе существующей литературы, создание теоретической статьи, определяющей термин.
3. Изучение российского опыта кумулятивной делиберации на русскоязычных кейсах.
4. Работа над концепцией "обратной спирали молчания" на основе трех кейсов в трех странах. Подтверждение/опровержение концепции.
5. Анализ опыта локальной социальной коммуникации (региональных медиа, местных групп и аккаунтов в социальных сетях) с точки зрения концепции кумулятивной делиберации.
6. Доработка предложенного метода классификации текстов на основе алгоритма USE и автоматического определения числа кластеров с использованием марковского момента остановки: тестирование метода для датасетов из коротких текстов.
7. Эксперименты с пре-процессингом коротких текстов для тематического моделирования.
8. Эксперименты в области ручного кодирования для тематического моделирования.
9. Участие рабочей группы в зарубежных исследовательских проектах, разработка иной тематики в рамках медиаисследований и изучения публичной сферы.
10. Написание академических статей и научно-популярной статьи.
11. Участие в международных и российских конференциях по тематике проекта.

2022 год:
1. Уточнение теории кумулятивной делиберации. Формулирование и критика принципов кумулятивной делиберации.
2. Работа над концепцией контрибутивного действия на основе различных кейсов на трех языках.
3. Работа над изучением кумулятивной делиберации в кроссмедийных публичных дискуссиях (с участием традиционных и сетевых медиа, различных платформ социальной коммуникации).
4. Работа над определением маркеров кумулятивного делиберативного процесса в контенте медиа разной природы.
5. Разработка методов обработки текстовых массивов на базе архитектуры BERT/RoBERTa; доработка предложенного метода классификации текстов для датасетов из текстов разной (ненормированной) длины на трех языках. 
6. Участие рабочей группы в зарубежных исследовательских проектах, разработка иной тематики в рамках медиаисследований и изучения публичной сферы.
7. Написание академических статей и научно-популярной статьи.
8. Участие в международных и российских конференциях по тематике проекта.

2023 год:
1. Продвижение теории кумулятивной делиберации, участие в международных и российских конференциях по тематике проекта, организация научного семинара по обсуждению кейсов кумулятивной делиберации.
2. Развитие международного сотрудничества в сфере изучения кумулятивной делиберации, подача заявок на грантовое софинансирование.
3. Изучение отдельных аспектов теории кумулятивной делиберации, выявление ее кросс-национальных паттернов. 
4. Изучение связи медийного и политического процесса в рамках теории кумулятивной делиберации.
6. Написание академических статей.
7. Участие в международных и российских конференциях по тематике проекта.

НАУЧНЫЙ ЗАДЕЛ КОЛЛЕКТИВА. Научный задел по проекту складывается из:

1. Компетенций и исследовательского опыта рабочей группы.

2. Опыта совместных исследований и совместной подготовки публикаций.

3. Наличия разработанных методов и запатентованных инструментов для сбора и визуализации данных.

4. Предыдущих достижений коллектива.

 КОМПЕТЕНЦИИ И ИССЛЕДОВАТЕЛЬСКИЙ ОПЫТРАБОЧЕЙ ГРУППЫ (РУКОВОДИТЕЛЬ И КЛЮЧЕВЫЕ ИСПОЛНИТЕЛИ)

С.С. Бодрунова (руководитель, 39 лет) –д.полит.н., профессор кафедры менеджмента массовых коммуникаций Института «Высшая школа журналистики и массовых коммуникаций» СПбГУ. В 2012-2016 годах заведовала кафедрой медиадизайна и информационных технологий СПбГУ. Автор более 130научных публикаций, в т.ч. автор и соредактор коллективной монографии «Медиакратия: современные теории и практики» (2013; первые премии Национальной ассоциации массмедиа-исследователей и Российской коммуникативной ассоциации) и более40 публикаций, индексируемых международными наукометрическими базами данных WoSCore Collection и Scopus, среди которых пять опубликованы в журналах Q1 (по рейтингу SJR).Приглашенный исследователь Лаборатории Интернет-исследований (ЛИНИС) НИУ – ВШЭ в Санкт-Петербурге (2013-2016). Участник конференций мировых и региональных исследовательских ассоциаций (ICA, IPSA, HCI, ECPR, IAMCR, WAPOR, ECREA, ASEEES и др.), конференций IEEE, ACM, LNCS. Кейноут-спикер (семь ключевых докладов международных конференций в 2017-2020 годах), председатель программного комитета международной конференции «Comparative media studies in today’s world (CMSTW)» (2013-2020). Создатель авторских курсов по тематике новых медиа, социальной коммуникации, трансформации медиа, журналистики и политики; читала приглашенные лекции и курсы в университетах Берлина, Гамбурга, Дортмунда, Вроцлава, Кракова, Тарту, Ювяскюля (2013-2020). Руководитель магистратуры «Global communication and international journalism» (программа двух дипломов совместно со Свободным университетом Берлина, Германия; 2015-2018) и магистратуры «Медиакоммуникации»(с 2019 года) в СПбГУ. Член редколлегии журналов «Digital Journalism»(Q1), «Global Media and Communication» (Q2), «Future Internet» (Q2), «CentralEuropean Journal of Communication» (Q3), «World of Media» (Scopus, МГУ). Руководитель НИР РНФ 16-18-10125(2016-2018) и НИР РНФ 16-18-10125-П (2019-2020). Обладатель грантов Президента РФ для молодых ученых – кандидатов наук (МК 5129.2011.6) и молодых ученых -докторов наук (МД-6259.2018.6), грантов СПбГУ, зарубежных грантов, исполнитель НИР РФФИ и НИР в рамках ФЦП «Кадры». Стажировалась в Италии, Польше, Чехии, Эстонии и других странах. Совладелец патента №2019661691 на программное обеспечение SNALab. Ведет исследования в сфере медиатизированной коммуникации, медиатизации политики и публичной сферы, отражения конфликтов в онлайн-дискуссиях, журналистики и новых медиа в России и Европе. Является молодым ученым (доктор наук до 40 лет).Свободно владеет английским и белорусским, на уровне intermediate – итальянским, немецким и французским языками.

 И.С. Блеканов (ключевой исполнитель,35 лет) - к.т.н., доцент, доцент, заведующий кафедрой технологии программирования СПбГУ, руководитель магистерской программы «Технологии баз данных» по направлению «02.04.02 Фундаментальная информатика и информационные технологии». Лауреат Премии Правительства Санкт-Петербурга (2012 г.) в области научно-педагогической деятельности для молодых ученых. Автор и руководитель проекта по созданию онлайн-курса «Введение в науку о данных» на платформе Coursera (https://www.coursera.org/learn/vvedeniye-v-nauku-o-dannykh). Основной исполнитель в грантах РНФ, Гранте Президента (рук. С.С.Бодрунова), РФФИ. Автор(за последние 5 лет) более 30 публикаций, близких тематике исследования, из них: WoS - 4; Scopus - 20; РИНЦ - 14. Участник более десятка международных конференций ACM и IEEE. Ведет исследования в области вебометрики, науки о Вебе, науки о данных, теории графов, моделирования Веба, оптимального управления сайтами, оценки качества сайтов, информационного поиска, социальных сетей, поисковых роботов и сборщиков данных, анализа структуры сетевых дискуссий, анализа тональности и тематического моделирования пользовательских текстов.

 К.Р. Нигматуллина (ключевой исполнитель,36 лет) - к.полит.н., доцент, заведующая кафедрой цифровых медиакоммуникаций Института «Высшая школа журналистики и массовых коммуникаций» СПбГУ. Автор более50 публикаций, из них 6 индексированы Scopus, 2 - WoS Core Collection. Член Национальной ассоциации массмедиа-исследователей (НАММИ), Диплом НАММИ за третье место в конкурсе научных исследований 2015 года за монографию «Медиа накануне постсекулярного мира» (под общей ред. В. А. Сидорова). Совершила исследовательские визиты в Свободный университет Берлина (2016), Университет Хельсинки (2017), прошла профессиональные стажировки как преподаватель журналистики в США (2014) и Швеции (2015). Обладатель Субсидии Комитета по науке и высшей школе Правительства Санкт-Петербурга на предоставление в 2016 году субсидий молодым ученым, молодым кандидатам наук вузов, отраслевых иакадемических институтов, расположенных на территории Санкт-Петербурга №71-16,исполнитель НИР в рамках ФЦП «Русский язык». Участник международных конференцийIAMCR, ICA, BASEES, профессиональной конференции WAN-IFRA. Автор 22 рабочих программ образовательных дисциплин, в том числе на английском языке. Автор тренингов для журналистов, эксперт Mediatoolbox, редактор раздела «Образование» в журнале «Журналист» (издается с 1914 года). Ключевой исполнитель НИР РНФ 16-18-10125 и 16-18-10125-П (рук.С.С.Бодрунова).

 А.С. Смолярова (ключевой исполнитель,31 год) – к.полит.н., доцент кафедры международной журналистики Института «Высшая школа журналистики и массовых коммуникаций» СПбГУ. Автор более 30 научных публикаций, из них 16 индексированы базами Scopus и WoS Core Collection. Автор более 10 курсов и модулей по тематике международной журналистики, российских и европейских медиа, этнической журналистики и СМИ диаспор, современному медиапотреблению, социальным медиа. Обладатель Гранта Президента РФ для молодых ученых – кандидатов наук (2018-2019), ключевой исполнитель НИР РНФ, Грантов Президента (рук.С.С.Бодрунова). Куратор молодежной конференции «Медиа в современном мире. Молодые исследователи» (2009-2017). Выступала куратором программ профессионального обмена для молодых журналистов Сената Гамбурга, Гёте-Института, Фонда им. Фридриха Эберта, Союза молодежной прессы Германии, Академии прав человека Норвегии. Стажировалась в Германии, Израиле, Финляндии. Свободно владеет английским, немецким языками, на уровне intermediate – ивритом.

 ОПЫТ СОВМЕСТНЫХ ИССЛЕДОВАНИЙ И СОВМЕСТНОЙ ПОДГОТОВКИ ПУБЛИКАЦИЙ

 Основной состав рабочей группы сложился с 2011-2012 годов. За это время в сотрудничестве были реализованы девять проектов: три НИР СПбГУ 2013-2014 годов, три гранта Президента РФ для молодыхученых (с 2011 по 2019 год), НИР РНФ 16-18-10125 и 16-18-10125-П, НИР РФФИ 15-01-06105.

Общий объем совместных публикаций руководителя и основных исполнителей - 32, в т.ч. 26 индексированы международными наукометрическими базами данных.

 

РАЗРАБОТАННЫЕ МЕТОДЫ И ЗАПАТЕНТОВАННЫЕ ИНСТРУМЕНТЫ ДЛЯ СБОРА И ВИЗУАЛИЗАЦИИ ДАННЫХ

 В ходе предыдущих НИР были разработаны и продолжают дорабатываться следующие методические и аппаратные комплексы длясбора, обработки и визуализации данных:

1. Специализированные веб-краулеры с обобщенным ядром для сбора данных в web 1.0, Твиттере, YouTube. Проведены эксперименты, подтверждающие его высокую эффективность по сбору данных в web1.0 в сравнении с зарубежными аналогами (Блеканов, Сергеев, Мартынов 2012),анализ эффективности в сопоставлении с выборками из Твиттера на основеAPI-выдачи. Применялись в рамках НИР РНФ 16-18-10125 и 16-18-10125-П, РФФИ15-01-06105, двух НИР СПбГУ.

2. Лексикон-ориентированный программный комплекс для тонального анализа на различных европейских языках, включая английский, немецкий, французский, русский. Разработан в рамках НИР РНФ16-18-10125 (для французского языка) и Гранта Президента РФ МД-6259.2018.6 (для английского языка).

3. Программный комплекс для тематического моделирования коротких текстов на русском, английском, немецком языке (WNTM).Протестирован в рамках НИР РНФ 16-18-10125.

4. Доработанные методики визуализации веб-графов на основе алгоритмов Gephi (YifanHu и OpenOrd).

5. Методика репрезентации текстов с использованием sentence embeddingsна основе нейронной трансформенной архитектуры UniversalSentenceEncoder (USE).

Рабочая группа обладает тремя патентами на программное обеспечение, обеспечивающее сбор и анализ больших объемов пользовательских текстов.

 ДОСТИЖЕНИЯ КОЛЛЕКТИВА ЗА ПРЕДШЕСТВУЮЩИЙПЕРИОД

 В 2013-2020 годах были сформулированы следующие выводы, позволяющие продолжить комплекс исследований в сфере социальных медиа и конфликта, диссипативной публичной сферы, методологии исследования социальных дискуссий. Так, было установлено, что:

1.  Конфликтные дискуссии в социальных сетях обладают специфической природой с точки зрения связи пользователей. Они не только аффективны и специфичны для каждого отдельного случая, как отмечалось в более ранних исследованиях. Складывание дискуссий об остроконфликтных ситуациях подчиняются степенному закону (power law); такая дискуссия является менее связной и более равноправной сточки зрения выдвижения инфлюэнсеров (влиятельных пользователей).

2.  Многие дискуссии, в том числе на YouTube, в целом сложно назвать дискуссиями: это, скорее, конгломераты несвязанных высказываний, обладающие при этом кумулятивным эффектом с точки зрения снятия барьеров участия следующих зрителей/комментаторов. Эффекты кумулятивной делиберации проявляются не в рамках отдельных обсуждений, а на более высоком уровне(например, пользовательской практики комментирования в целом).

3.  Персональные характеристики и институциональная палитра влиятельных пользователей являются национально-обусловленными: например, в схожих конфликтах структура политического присутствия варьирует в зависимости от развитости гражданского общества, структуры политических партий, наличия радикальных групп и организаций. Контекстуально-зависимыми являются также паттерны присвоения вины за конфликт и ответственности за его разрешение.

4.  Было показано, что «эхо-камеры» (модулярные области единообразного мнения/тона) в сетевых дискуссиях являются многоуровневыми. Так, в глобальных дискуссиях первым уровнем фрагментации является языковой, вторым – тональный, третьим – содержательный (например, различия в политических взглядах).

5.  Фрагментация пользователей в дискуссиях не соответствует ожиданиям, сформированным теориями группового взаимодействия и исследованиями, утверждающими наличие бинарной политической поляризации(правый/левый). Для объяснения динамики дискуссии рабочая группа выдвинула гипотезу «обратной спирали молчания» - развития дискуссии с подачи радикализированных пользователей/твитов. При «обратной спирали молчания» радикально настроенное меньшинство (а не умеренное доминантное большинство, как в теории Элизабет Ноэль-Нойманн) начинает вести за собой дискуссию.

6.  Роль медиа-аккаунтов в конфликтных дискуссиях отличается от роли в оффлайновой публичной сферы в рамках классической концепции двухступенчатого потока коммуникации Лазарсфельда, Мертона и Катца. Так, было показано, что в дискуссиях в разных странах медиа стоят на позициях между активным связным центром дискуссии и периферийными «облаками», являясь средним, а не первым звеном в потоке коммуникации и предоставляя данные и референтный контекст как для активных пользователей, таки для участников с малым числом постов и связей.

7.  Начато исследование в сравнительной перспективе тональных и эмоциональных паттернов конфликтных дискуссий. Показано, что тональность высказываний инфлюэнсеров связана с их персональными характеристиками и институциональным статусом.

8.  Начато изучение роли радикальных высказываний и коммуникативной агрессии в сетевых дискуссиях. Показано, что восприятие агрессивной речи как исключительно вредной в делиберативном смысле должно быть пересмотрено. В противовес имеющимся подходам было показано, что в условиях растущих ограничений со стороны политической системы коммуникативная агрессия (обсценнная лексика, политически мотивированная агрессивная лексика, радикальные высказывания) играет конструктивную роль в дискуссии как со структурной, так и с семантической точки зрения.

9.  Показана роль пабликов медийного характера на платформе VK.com (бывш. Vkontakte) в местном медиаландшафте. Дана комплексная оценка индекса вовлеченности аудитории, отражающего потенциал формирования сообществ вокруг медиаресурса. Сформулирована концепция «медиа как сообщества», справедливая как для локальных медиапроектов, так и для цифровых СМИ диаспор.

10.Ведется масштабное исследование профессиональной культуры журналиста, включая трансформацию деонтологии и поведение в социальных сетях. Так, установлена гетерогенность журналистской культуры в России не только в поколенческом аспекте, как было показано ранее, но в первую очередь с точки зрения ценностных комплексов и традиций, а также принятия/отторжения технологических инноваций, в том числе работы в социальных сетях, блогах, мессенджерах.

11.Изучение журналистских практик онлайн показало ценностные разломы внутри этики профессии. В частности, было продемонстрировано, что не более 30%российских журналистов интерпретируют понятие самоцензуры как непубликацию информации в силу риска журналисту, редакции или иным лицам. Более 50%журналистов путают деонтологические нормы и основания для самоцензуры. Также было установлено, что самоцензура в профессиональных публикациях и социальных сетях имеет различные причины, и кумулятивный механизм критики в социальных сетях обладает потенциалом давления на журналистов, как и на других пользователей сети.

12.Показано, что онлайн-коммуникация играет ведущую роль в создании наднациональной и во многом деполитизированной публичной сферы глобальной русскоязычной диаспоры. Показан рост сетевого медиапотребления в медиадиетах русскоговорящих жителей Германии и Израиля. Выявлены страновые различия в популярности мессенджера Telegram как платформы для медиапроектов. На примере Instagram-проектов изучается политизация социальных и бытовых вопросов в жизни диаспоры.

 На примере внутрироссийских дискуссий также было продемонстрировано, что:

1.  В российском Твиттере, несмотря на регулярное присутствие в нем информации от исполнительной власти, существует институциональный вакуум с точки зрения участия политических акторов и представителей ветвей власти в дискуссиях. То же можно сказать и об НКО, в том числе в сфере защиты этнических меньшинств и иммигрантов.

2.  Русскоязычные сегменты социально-сетевых платформ представляют собой «эхо-камеры» максимально возможного размера (platform-wide echo chambers). Так, отмечено, что русскоязычный сегмент Facebook представляется либеральной «эхо-камерой», тогда как Твиттер аккумулирует пронационалистически настроенную аудиторию. Более того, национализм в Твиттере делится на противников и сторонников текущей власти. Такая «двойная» структура националистического дискурса напрямую влияет на структуру обсуждений и их делиберативное качество.

3.  Вина за социальный конфликт и ответственность за его решение атрибутируются элементам политической системы разного уровня. Так, вина ложится на федеральные власти, а деэскалации конфликта ждут от региональных органов управления. Данный разрыв свидетельствует о соответствующем разрыве в полисинге по вопросам этносоциальных отношений.

 Методологические результаты предшествующего периода, помимо разработки программного обеспечения и алгоритмов работы с ним, включаютследующие наработки:

1.  Разработана методика оценки тональности для трех классов (негативный, положительный, нейтральный) для четырех языков, применимая для коротких текстов, достигающая показателей 0.65 – 0.78 на сильно зашумленных данных (твиты без препроцессинга) по четырем метрикам качества (recall, precision, accuracy, F-measure).

2.  Выявлено, что введение четвертого класса(«смешанная тональность») резко снижает качество метода. Таким образом, достигнут «потолок метода» для такого типа текстов. Предложено использовать нейронные сети для глубокого машинного обучения в сфере тонального анализа коротких шумных текстов.

3.  Проведено обучение машины для выявления пяти эмоций, а также агрессии и иронии/сарказма для четырех языков. Показатели по выделению агрессии и иронии/сарказма достигают 0.8 – 0.9 по четырем метрикам качества оценки (recall,precision, accuracy, F-measure). Выявление эмоций, таких как радость или гнев, сложнее поддается детекции; показано, что требуется глубокое обучение для повышения показателей качества их выявления.

4.  Показано, что препроцессинг твитов может существенно снижать(!) качество тонального анализа и тематического моделирования.

5.  Предложена методика выявления тематики дискуссии, альтернативная подходам на основе «мешка слов» и векторному представлению текстов (word2vec). Она сочетает эмбеддинговое представление текстов, полученное с помощью предобученных нейронных сетей, и агломеративную кластеризацию с марковским моментом остановки. Показано, что по таким стандартным показателям качества выделения тем, как V-метрика и NMI, метод работает лучше признанных методов (baseline methods), включая DBSCAN и OPTICS.

6.  Также показано, что марковский моменто становки и применяемый для его расчета критерий q работает более эффективно, чем часто применяемые методы определения остановки кластеризации (silhouette и elbow).

7.  При этом показано, что оценка качества тематического моделирования на коротких текстах путем применения автоматических метрик и ручного кодирования почти никогда не совпадает. Так, модель, оцененная высоко с помощью автоматических метрик, при чтении глазами выдает типичные ошибки моделирования (слишком большое число тем с одинаковыми топ-словами, «цепные» темы, малоинтерпретируемые темы на основе общей лексики и др.). Это справедливо как минимум для трех языков (русского, английского, французского).

8.  Были проведены эксперименты по проверке качества ручного кодирования, то есть зависимости результата кодирования от опыта кодировщика и погруженности в текст. Показано, что число интерпретируемых тем критически (до 11 раз!) различается в зависимости от характеристик кодировщика. Поставлен вопрос о поиске критериев оценки качества тематического моделирования, не зависящих от ручного кодирования и не имитирующих их, а также вопрос о необходимой и достаточной тренировке кодировщиков.

После обобщения опыта работы с тематическими моделями на коротких пользовательских текстах была выдвинута идея «идеального топика». Ранее моделирование проводилось с целью добиться максимального числа тем, интерпретируемых достаточно хорошо (с определенным порогом). Однако это может быть изначально порочной установкой. В коротких текстах пользователей уместнее искать небольшое количество значимых и хорошо интерпретируемых тем, не гонясь за их количеством.

ДЕТАЛЬНЫЙ ПЛАН РАБОТЫ НА 2021 ГОД

Январь-февраль:
1. Консолидация рабочей группы, ознакомление новых участников с опытом работы, сделанными выводами и планом исследований (все члены рабочей группы).
2. Первичная проработка концепции кумулятивной делиберации на основе существующей литературы, создание теоретической статьи, определяющей термин (С.С.Бодрунова). 
3. Выбор российских и международных кейсов и сбор данных по ним (С.С.Бодрунова, И.С.Блеканов, А.Ю.Максимов, аспиранты и магистранты).
4. Подача заявок на участие в конференциях.
Март-апрель:
1. Пре-процессинг данных по выбранным кейсам, выбор и тестирование методик обработки данных (И.С.Блеканов, А.Ю.Максимов, Н.Тарасов). 
2. Сбор данных (контент, метаданные) локальных медиа и медиа диаспор для дальнейшего анализа (А.С.Смолярова, К.Р.Нигматуллина, А.Литвинова).
3. Работа над публикациями; участие в конференции CMSTW'2021 (не менее четырех участников рабочей группы).
Май-июнь:
1. Анализ данных по кейсам, опровержение/подтверждение идеи "обратной спирали молчания" (С.С.Бодрунова, И.С.Блеканов, А.С.Смолярова, аспирант, магистранты).
2. Анализ данных локальной социальной коммуникации (региональных медиа, местных групп и аккаунтов в социальных сетях) с точки зрения концепции кумулятивной делиберации (К.Р.Нигматуллина, А.С.Смолярова, магистранты).
3. Написание статей, подготовка к участию в осенних конференциях (С.С.Бодрунова, И.С.Блеканов, К.Р.Нигматуллина, А.С.Смолярова, аспирант).
Июль: 
1. Визуализация полученных результатов (И.С.Блеканов, А.Ю.Максимов, Н.Тарасов).
2. Подача статей в периодические издания (С.С.Бодрунова, А.С.Смолярова, А.Литвинова, аспирант).
Сентябрь-ноябрь:
1. Доработка предложенного метода классификации текстов на основе алгоритма USE и автоматического определения числа кластеров с использованием марковского момента остановки: тестирование метода для датасетов из коротких текстов (С.С.Бодрунова, И.С.Блеканов, А.Ю.Максимов, Н.Тарасов, А.Литвинова).
2. Эксперименты с пре-процессингом коротких текстов для тематического моделирования (С.С.Бодрунова, А.С.Смолярова, А.Ю.Максимов, магистранты).
3. Эксперименты в области ручного кодирования для тематического моделирования (С.С.Бодрунова, К.Р.Нигматуллина, А.Литвинова, Н.Тарасов, магистранты).4. Участие в конференциях (не менее трех человеко-участий).
Декабрь:
1. Создание отчета за финансовый период.

В течение всего периода:
1. Участие рабочей группы в зарубежных исследовательских проектах, разработка иной тематики в рамках медиаисследований и изучения публичной сферы.
2. Написание академических статей и научно-популярной статьи.
3. Участие в международных и российских конференциях по тематике проекта.

Layman's description

Проект "Центр международных медиаисследований" соединяет несколько проектов в области кросс-культурных медиаисследований, анализа публичной сферы и выработки методов для такого анализа. Основным направлением работы Центра разработка концепции кумулятивной делиберации и изучение кумулятивных эффектов в области общественного мнения, влияния различных факторов на накопление пользовательских мнений, а также связь онлайн-делиберации с публичной политикой и принятием институциональных решений. Дополнительными направлениями работы являются изучение социальных медиа в российских регионах, медиа и миграционный процесс в России, за рубежом и трансгранично (в соцсетях), а также участие в международных проектах по изучению медиа и социальной коммуникации.

Key findings for the stage (in detail)

1. Развита концепция кумулятивной делиберации: предложены ряд экзогенных, эндогенных и контекстуальных факторов, влияющих на накопление пользовательских мнений. Так, к экзогенным факторам отнесены факторы контекста за пределами дискуссии (в отличие от ситуативного контекста обсуждения), платформенные и пользовательские черты. К эндогенным факторам отнесены дискурсивный облик обсуждения (в т.ч. агрессия, фатическая коммуникация, степень рациональности и др.) и структурная динамика дискуссии (в т.ч. роли инфлюэнсеров, для трансграничных дискуссий - наличие многоязычных пользователей и др.)
2. Предложена программа развития исследований кумулятивной делиберации, включающая шесть областей, а также методы исследования. К шести областям относятся: нормативность кумулятивной делиберации и требования к пользователю; паттерны накопления и диссипации мнений; экзогенные факторы и их совокупное и/или индивидуальное влияние на накопление мнений; эндогенные факторы, их совокупное и/или индивидуальное влияние на накопление мнений, а также связь эндогенных и экзогенных факторов; кумулятивные эффекты в онлайн-делиберации; гибридная делиберация, т.е. связь между накоплением мнений онлайн и оффлайновым процессом принятия политических решений (полисимейкингом). Благодаря такой программе исследований станет возможно собрать под "зонтик" концепции уже известные и вновь открываемые эффекты кумулятивной делиберации и описать ее связь с полисинговым процессом на новом уровне, что приблизит нас к созданию полноценной теории гибридной делиберации.
3. Изучены кейсы, связанные с экзогенными факторами. Показана гибридность экзогенных факторов: сетевые дискуссии являются отражением региональных процессов делиберации в оффлайне. Местная власть чаще открыта к диалогу в цифровом пространстве, если она открыта к диалогу и решению жалоб и вне социальных сетей. Но в целом практика реакции на жалобы сдвигается к одностороннему и неделиберативному менеджменту жалоб без учета публичной дискуссии вокруг них и даже с целью ее погасить. Показана растущая децентрация медиа в процедурах обсуждения и отработки пользовательских жалоб: медиа не участвуют ни в делиберативном, ни в кумулятивном полилоге граждан в соцсетях, также как и властные акторы, что приводит к односторонней реакции властей на жалобы без обсуждения решений по ним. Как арены делиберации традиционные СМИ также не производят и не организуют дискуссии делиберативного характера лучше, чем любительские новостные группы в социальных сетях. Роль СМИ как организаторов обсуждения жалоб ограничивается их "протранственным", "аренным" измерением. В социальных сетях обнаружен институциональный вакуум, поскольку в ответах на комментарии пользователей не присутствуют институциональные аккаунты журналистов и власти. Исследование показывает, что процессы децентрации медиа в странах без длительной демократической традиции связаны с иными факторами, чем в "старых" демократиях. Так, экономические причины вытеснены организационно-политическими (внедрение системы автоматизированной работы с общественным недовольством) и культурно-профессиональными (профессиональная культура журналистов и политиков).
4. Изучены кейсы, связанные с эндогенными факторами. Так, показано, что на платформе «ВКонтакте» нет явных паттернов выражения тревожности в текстовом формате, однако отсутствие комментариев можно расценивать как тревожное поведение. Новостные триггеры не присутствуют в конкретных «словарях тревоги», как предполагалось. Скорее, общая несистемность реакций и высокая вовлеченность в визуальные форматы говорят о кумулятивных эффектах, связанных с переживанием тревоги на цифровых платформах. Местная повестка в новостных сообществах социальных сетей компенсирует общую тревожность, вызванную глобальной повесткой (пандемия, экономические и прочие кризисы), однако вовлечение в локальные новости краткосрочно и не длится дольше, чем 1 комментарий. На примере платформы "Телеграм" показана связь между недоверием, агрессией и конспирологическим мышлением в развитии антивакцинационного дискурса, выявлены дискурсивные сочетания, подстегивающие антивакцинационные обсуждения на уровне отдельного поста и в ежедневном режиме. Показана отчасти техническая природа консенсуса в Телеграм-сообществе anti_covid21. Выявлены «дискурс недоверия» и четыре домена недоверия, при этом различные акторы связаны с разными поводами к недоверию, что может дать возможность снижать недоверие к вакцинации через снижение недоверия к конкретным акторам по конкретным вопросам повестки дня. Выявлены некоторые паттерны зависимости динамики дискуссии в ежедневном режиме от направленности агрессии и недоверия на определенных акторов. Сформулирован тезис о «спирали недоверия», начинающейся с недоверия собеседнику и согражданам и заканчивающийся бурной дискуссией с выражением агрессивного недоверия власти и другим акторам, участвующим в разрешении пандемийной ситуации. Исследования развивают концепцию кумулятивной делиберации, выявили ряд новых эффектов, а также внесли вклад в развитие концепции "спирали молчания".
5. Выявлен эпистемологический разрыв между двумя зонами исследования фейковых новостей – традиционной и вычислительной коммуникативистикой, предложен концептуальный выход через учет «размытой границы» между ложью и интерпретацией для вычислительных исследований фейков. Предложены концептуальные основания для связи двух зон исследования через эпистемологический и жанровый инструментарий журналистики. Обзорное исследование проведено по приглашению журнала "Digital Journalism", #1 в мире в области журналистики и цифровизации.
6. Выявлены лакуны и противоречия в освещении миграции и беженцев как в 2010-е годы, так и в период пандемии, показана негативная преемственность дискурса на основе его политизации и инструментализации. Исследование текстов СМИ 2015-2018 годов проводилось в рамках международного проекта под эгидой Европейской обсерватории журналистики (EJO). Показано, что в освещении проблем иммигрантов их голос был слышен меньше, чем в других странах; большую роль в качестве спикеров играли представители местной и федеральной власти, показывая переселенцев как "объект проблем и заботы". Российский медиадискурс о миграции в РФ, тем не менее, не исключал выступлений НКО и официальных представителей диаспор. Также была показана серьезная политизация дискурса об иммиграции в ЕС, его инструментализация для создания образа слабого и разобщенного Европейского Союза без обращения к конкретным деталям жизни и голосу беженцев и иммигрантов. В 2020-е годы, во время пандемии, разлом между освещением российских и европейских иммигрантов только усилился, и обобщенному образу иммигрантов в официальной и нейтральной прессе противостояли единичные публикации "личных историй" в прессе оппозиционно-либерального характера. Показано, что политический параллелизм негативно влияет на освещение иммиграции, поскольку в обоих политических лагерях образ иммигранта инструментализировался и использовался для критики российского государства или ЕС, соответственно. Показаны существенные различия в дискурсе об иммиграции в России, США и странах ЕС.
7. На основе модели «контекстуальной достоверности» в юзабилити-тестировании выявлено три кумулятивных эффекта, которые не были известны ранее. Предложено применение теории дисфункциональных состояний в юзабилити-исследованиях, успешно показано формирование двух дисфункциональных состояний (монотонии и тревожности) при определенных сочетаниях факторов "контекстуальной достоверности" (черты пользователя, тип задачи, тип интерфейса, индивидуальный/групповой опыт участия в эксперименте). Выявлены три эффекта - два предзаданных и один непредусмотренный (эффект гиперлабильности пользователя). Показано, что реакция на задачу в области человек-компьютерного взаимодействия - комплексная и должна оцениваться по многим параметрам, также как должна проводиться оценка всех факторов "контекстуальной достоверности". Применены новые методы оценки пользовательского состояния, в частности таблица Шульте-Горбова. Исследование существенно развивает модель "контекстуальной достоверности" в юзабилити-тестировании, поскольку до этого все четыре фактора не изучались в рамках одного эксперимента.
8. Проведен сравнительный и экспериментальный анализ методов веб-краулинга для текстовых данных (data crawling). Показано, что каждый из рассмотренных подходов имеет плюсы и минусы. Так, при работе с API не все методы могут позволить собрать необходимые данные, но плюсом является наличие хорошей документации. При работе с эмуляцией действий пользователя в приложении или браузере требуется, как правило, большое количество ресурсов для сбора, а также могут возникать критические ошибки при разрыве соединения с сервисом автоматизации действий, но в тоже время всегда можно визуально оценить, на каком этапе находится сбор данных. При подходе на основе GET-POST-запросов минусом является сложность реализации, а именно - не всегда очевидно, каким образом формируются некоторые важные токены, но несомненным плюсом являются скорость работы и простота предобработки получаемых данных. Эксперимент показал, что количество информации, получаемой с помощью браузерного решения, существенно меньше, чем количество информации, получаемой с помощью API или на основе GET-POST-запросов. Это связано как с большим количеством данных, имеющихся в браузере, так и с постоянным их увеличением с каждым запросом. Также при изучении сообществ в социальной сети Facebook (признана нежелательной в РФ, однако эксперимент проводился на данных, собранных до признания) были выявлены особенности, связанные с неточными и недостоверными данными, отображаемыми пользователю. Исследование позволяет ученым в РФ и за рубежом выбирать метод веб-краулинга в зависимости от того, с какими потерями они больше готовы мириться.
9. Показана принципиальная возможность применения семантических кодировок (data encodings) для сравнительного анализа текстов с различных медиаплатформ. Этот результат является важным шагом в развитии нейросетевых моделей и их применении в изучении контента социальных сетей на мировом уровне. На примере платформ "Твиттер", "Реддит" и "Телеграм" показана принципиальная возможность обходиться без разработки отдельной нейросетевой модели для каждой платформы, поскольку можно добиться результатов, позволяющих сравнение дискурса на разных платформах, путем файн-тьюнинга (небольшой целевой доработки) модели, если применяются семантические кодировки данных (data encodings). Таким образом, можно исследовать контент дискуссий в социальных сетях сравнительным образом без опасений, что платформенные особенности (affordances) делают дискурс несравнимым. В частности, эксперимент показал, что пользовательские тексты, собранные из различных медиа платформ, могут быть очень похожи как с точки зрения лингвистических метрик, так и нейросетевых кодировок, полученных языковой моделью RUBERT. Так, данные, собранные с Reddit очень похожи на данные Twitter как по глубоким нейросетевым кодировкам, так и по лингвистическим метрикам. Это может быть полезно при переносе моделей настроений (широкодоступных для Twitter) и моделей обобщения, общих для Reddit, между этими платформами.
Также тестирование лингвистических параметров с помощью классификации показало, что, несмотря на сходство в рамках нейросетевой обработки, лингвистические и статистические меры позволяют хорошо определять принадлежность пользовательских текстов к той или иной соцсети. Данные признаки можно считать показательными, качественно характеризующим тексты, полученные из социальных сетей. Так, количество хэштегов, доля коротких слов и показатели удобочитаемости различаются для разных платформ, и вес этих метрик значим для различения "платформизированной" речи. Влияние хэштегов особенно показывает, что потенциально при достаточно хорошей предварительной обработке предобученные языковые модели могут успешно применяться между платформами. Данная идея тщательной предварительной обработки совпадает с методологиями и результатами, показанными в статье, посвященной разработке универсальной языковой модели USE (Cer et al., 2018). Дальнейшая работа включает сбор и анализ дополнительных данных, в частности сбор данных из ранее не исследованных соцсетей. Кроме того, сбор данных по различным кейсам позволит сравнить эффективность подхода применительно к различным дискуссиям. Важным вопросом также является ввод дополнительных метрик и принципов оценки сходства нейросетевых кодировок, полученных языковыми моделями. В частности, для полноценной проверки сходства необходимо провести тонкую настройку (файн-тьюнинг) на данных одной соцсети и исследовать качество полученной модели для других социальных платформ. Примером такого анализа может служить дообучение модели суммаризации на данных Reddit и проверка возможности использования модели для суммаризации постов и комментариев в Twitter, Telegram.
11. Был проведен эксперимент по применению нейросетевых моделей для различения новостного контента и контента, содержащего мнения, для дальнейших исследований в области накопления мнения. Эксперимент проводился для русскоязычных датасетов. С помощью моделей до применения процедуры точной настройки получены показатели эффективности по accuracy в среднем 50%, наилучший результат - у DistilRuBERT Conversational. Такие показатели не являются самыми современными или высокими, но дают положительные представления о возможности работы с русскими текстами посредством моделей трансферного обучения. При сравнении значений метрик до и после применения процедуры точной настройки отмечается общая эффективность процедуры настройки по всем моделей. Это отражается в повышении качества классификации при повторном тестировании на том же наборе test, для модели RuBERT улучшение значений метрик более, чем на 60%. Уменьшение значения функции потерь, или loss, также демонстрирует улучшение в качестве решения задачи. Показано, что среди моделей в среднем по результатам тестирований выделяется модель DistilRuBERT Conversational. Данная модель является моноязычной, что теоретически улучшает ее качество работы с русскоязычными текстовыми данными. Помимо этого, корпуса данных, на которых предварительно обучена DistilRuBERT Conversational, имеют схожие с датасетом комментариев особенности: мат, просторечие и сленг. Модель RuBERT также является моноязычной, но значения метрик в среднем ниже мультиязычных моделей M-BERT и M-USE. После настройки значения loss и accuracy для RuBERT лучше, чем у мультиязычных моделей, но остальные значения в среднем совпадают, поэтому по результатам эксперимента сложно судить о связи качества детектирования и язычности корпусов для предварительного обучения. Таким образом, все модели были модифицированы под бинарную классификацию, настроены на целевых данных и дважды протестированы на независимых наборах данных посредством языка Python с использованием библиотек transformers, deeppavlov, pythorch, tensorflow, keras и т.д. В целом полученные результаты демонстрирует эффективность применения нейросетевых методов в задаче классификации пользовательского контента на новость и комментарий для русского языка. Лучшим подходом решения задачи по результатам является DistilRuBERT Conversational.
12. На основе разработок 2021 года в области геолокации пользователей водана заявка на регистрацию программы для ЭВМ «Программа для автоматического детектирования геолокации пользователей дискуссий в социальных сетях (SNAGeoLDetector)».

В целом созданные и проанализированные методы сбора и анализа данных могут применяться для широкого спектра задач в области текстового анализа медиаконтента.

Key findings for the stage (summarized)

1) развита концепция кумулятивной делиберации: предложены ряд экзогенных, эндогенных и контекстуальных факторов и программа исследований;
2) показана связь децентрации журналистики с процессами накопления мнений онлайн и институциональным вакуумом в обсуждении недовольства пользователей, а также разрушение механизмов делиберации в процедурах общественного обсуждения жалоб пользователей в силу технологизации государственного ответа на онлайн-жалобы;
3) выявлен эпистемологический разрыв между двумя зонами исследования фейковых новостей – традиционной и вычислительной коммуникативистикой, предложен концептуальный выход через учет «размытой границы» между ложью и интерпретацией для вычислительных исследований фейков;
4) выявлены лакуны и противоречия в освещении миграции и беженцев как в 2010-е годы, так и в период пандемии, показана негативная преемственность дискурса на основе политизации и инструментализации;
5) на основе модели «контекстуальной достоверности» в юзабилити-тестировании выявлено три кумулятивных эффекта, которые не были известны ранее;
6) описаны методы краулинга больших социальных данных;
7) показана принципиальная возможность применения семантических кодировок (data encodings) для сравнительного анализа текстов с различных медиаплатформ.

Подана заявка на регистрацию программы для ЭВМ «Программа для автоматического детектирования геолокации пользователей дискуссий в социальных сетях (SNAGeoLDetector)». Созданные методы сбора и анализа данных могут применяться для широкого спектра задач в области текстового анализа медиаконтента.

Academic ownership of participants (text description)

С.С.Бодрунова (руководитель): общее руководство проектом, руководство подпроектами "Кумулятивные эффекты в онлайн-коммуникации" и "Журналистика и риск", разработка концепции кумулятивной делиберации, анализ данных для кейсов изучения экзогенных факторов (пользовательские жалобы) и эндогенных факторов (антивакцинационный дискурс в Телеграме), участие в подпроекте "Медиа и миграция" (анализ данных по освещению иммиграции на данных 2015-2018 и 2021 годов), участие в создании 9 из 17 отчетных публикаций (в т.ч. двух статей Q1 и четырех Q2), выступление с пятью приглашенными докладами на международных конференциях и постоянно действующих семинарах, выступление с семью панельными докладами на международных и всероссийских конференциях, организация пяти секций на международных конференциях.

И.С.Блеканов (ключевой исполнитель): техническое руководство проектом (методы и программное обеспечение), руководство подпроектом "Методы изучения кумулятивной делиберации", сравнительный анализ методов data crawling, разработка основ применения семантических нейросетевых кодировок и файн-тьюнинга нейросетевых моделей для данных из различных соцсетей, руководство группой по разработке методов (А.Максимов, Н.Тарасов, М.Чистяков), участие в четырех отчетных публикациях по проекту, выступление на двух конференциях, организация сдвоенной секции (более 80 участников) на LIII Международной научной конференции аспирантов и студентов«Процессы управления и устойчивость» (Control Processes and Stability, CPS'2022).

К.Р.Нигматуллина (ключевой исполнитель): руководство подпроектом "Ценности и роли в журналистике", руководство исследованием по жалобам пользователей и ценностным триггерам в социальной сети "ВКонтакте", разработка методики исследования связи цифровых эмоций и накопления мнения, авторство трех статей и соавтор подготовленной публикации (принята к публикации на 2023 год), (со)авторство шести докладов на международных и всероссийских конференциях, (со)организация трех мероприятий, включая ежегоднвй Научный форум СПбГУ "Медиа в современном мире. 61-е Петербургские чтения".

А.С.Смолярова (ключевой исполнитель): руководство подпроектом "Медиа и миграция", выполнение ключевых работ по обзору теорий медиа и миграции в целом и в России в частности, сбор данных по подпроекту (статья "Objects of care..."), работа с кодировщиками, участие в создании трех публикаций (двух Q1 и одной Q2), участие с докладом в международной конференции. Снижение числа участий в конференциях связано с релокацией исполнителя в Израиль в середине 2022 года.

А.Ю.Максимов: участие в разработке методов анализа данных из социальных сетей (ключевая роль в разработке метода сравнительного анализа данных различных соцсетей с помощью нейросетевых кодировок), подготовка патентной документации, сбор данных для кейсов с платформ "Телеграм" и "Реддит".

А.И.Литвинова: участие в подпроекте "Ценности и роли в журналистике", в т.ч. обработка данных с платформы "Телеграм", работа с кодировщиками (26 человек), участие в подготовке статьи для журнала Q1 на 2023 год, создание тезисов, выступление на конференции, участие в организации двух мероприятий, в т.ч. секции на Научном форуме "Медиа в современном мире. 61-е Петербургские чтения".

А.Тымко (Потапова): ведение документации проекта, участие в кодировании данных для кейса антивакцинационных сообществ, подготовка списков литературы по кумулятивной делиберации (психология онлайн-общения).

Н.Тарасов: ведение технической документации проекта, контроль хранения датасетов, препроцессинг собранных данных, работа над визуализацией результатов, участие в разработке методики автоматизированного отделения новостей от мнений.

М.Чистяков: проведение глубинных интервью для международного проекта "Global Risk Journalism Hub", кодирование данных для кейсов антивакцинационных сообществ и ценностных триггеров, помощь в подготовке мероприятий.

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

Разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

Разрешается

Rationale of the interdisciplinary approach

В целом работа Центра направлена на изучение процессов общественной коммуникации в ее медиатизированных формах, что соответствует основному коду классификации OECD - 05.08.00 Media and communication и разделу 19 ГРНТИ "Массовая коммуникация". Данное направление работы является ведущим. Однако в силу того, что не менее 40% трудозатрат Центра направлены на разработку методов сбора, анализа и обработки больших объемов текстовых данных (медийных и пользовательских текстов), указан также код 01.02.EV Computer science, interdisciplinary applications. Также при работе с данными используются лингвистические, социолингвистические и матлингвистические методы, а некоторые выводы исследований лежат в русле социологии коммуникации.

Rationale of the intersectoral approach

Основным профилем работы Центра станет изучение общественной коммуникации и публичной сферы в условиях технологической трансформации и взрывного развития коммуникативных технологий, что соответствует приоритету (ж) СНТР. Но, как и в случае с классификацией OECD, методологические разработки Центра лежат в русле методов анализа больших массивов текстовых данных и глубокого обучения (deep learning), что соответствует приоритету (а) СНТР.
Short titleGZ-2022
AcronymM1_2021 - 2
StatusFinished
Effective start/end date1/01/2231/12/22

ID: 92564627