Description

ФОРМУЛИРОВКА НАУЧНОЙ ПРОБЛЕМАТИКИ. Научная проблема, на разработку которой направлен проект "Центр международных медиаисследований", состоит в трансформации публичности и публичной сферы в сторону формирования диссонантных и диссипативных тенденций (см. ниже), что приводит к слому устоявшихся паттернов общественной делиберации (раундного общественного обсуждения для установления истины и принятия решений) и необходимости поиска общественного ответа и адаптации общества к этим тенденциям. 
Как известно, более чем 150-летняя научная традиция изучения дихотомии "частное/публичное" во второй половине ХХ века была представлена, в первую очередь, работами Ю.Хабермаса и его критиков как с консервативно-либеральной, так и с социал-демократической стороны. Идеи Хабермаса о консенсусном коммунитаризме, де-феодализации европейского публичного пространства в XIX веке и его ре-феодализации в ХХ веке, публичной коммуникации как политического действия, рациональной делиберации как основе консенсуса, учитывающего интересы меньшинства, остаются актуальными и сегодня. Однако с быстрым распространением Интернет-коммуникации, а затем социально-сетевых платформ и форм индивидуальной медиатизированной коммуникации (мессенджеры) был поставлен под сомнение главный тезис Ю.Хабермаса - тезис о желании людей участвовать в обсуждении для того, чтобы в итоге достичь консенсуса. 
С середины 2010-х годов активно разрабатывается тематика цифровых угроз (digital threats), которые возникают в процессе социальной коммуникации. Часть их связана как раз с недостижением "порядочного Интернета" и складыванием "амбивалентного Интернета" (Hedrick et al., 2018). Также в 2018 году был опубликован ряд работ ведущих ученых (Б. Пфетш и другие) о диссонантных и диссипативных публичных сферах. Эти работы поставили вопрос о том, как общество должно развиваться в условиях принципиального отказа от идеи обязательного стремления к согласию. Этот вопрос пока не нашел ответа. Исследования, которые проводились рабочей группой Центра в 2013-2020 годах, показали, что в основе дискуссий в сети Интернет сегодня лежит не идея обмена сообщениями, а идея кумуляции присутствия пользователей со сходными характеристиками (личными чертами, социальной идентичностью, политическими взглядами, культурным), которая приносит временный перевес в делиберативном процессе. Кумулятивная делиберация как процесс, базирующийся на алгоритмической и "человеческой" агрегации поддержки, выражении симпатий и антипатий со стороны пользователей, динамике "спирали молчания" (Noelle-Neumann, 1980), формировании "эхо-камер" и "фильтр-пузырей" (Sunstein 2001), складывании скрытых сообществ и иных основаниях, отличных от идеи рациональной делиберации, имеющей целью равноправный и сбалансированный общественный договор. Изучение динамики диссипации и диссонанса представляет собой ключевой вызов в современной коммуникативистике. В особенности это важно для таких относительно малоизученных в коммуникативном отношении сообществ, как Россия и постсоветское пространство. 

АКТУАЛЬНОСТЬ ПРОБЛЕМАТИКИ И ОБЗОР ВЕДУЩИХ КОНЦЕПТУАЛЬНЫХ РАБОТ. В условиях растущей медиатизации как развитых, так и развивающихся обществ создание, распространение и потребление информации составляет существенную часть социальной жизни. Участие пользователей, а также институциональных коммуникаторов (например, медиа) в разрастающейся социальной коммуникации на базе сети Интернет рассматривалось ранее как демократизирующее – ведущее к большей открытости, равенству при обсуждении решений, снижению напряженности для ущемленных социальных групп и др. Интернет описывался как пространство, способствующее снижению социального неравенства в различных аспектах, в том числе неравенств в доступе к информации, обсуждению альтернатив, принятию решений. 
В то же время возросшая протестная активность во время Иракского кризиса и позднее привела ученых к мысли об активизации роли обычного человека в публичной сфере (см., например, программную статью Habermas & Derrida 'What binds Europeans together?', 2003), а также к идее внутренней плюрализации публичной сферы. На рубеже десятилетий, в период революций Арабской весны, движения Occupy и других уличных протестных акций на основе самоорганизации, стала очевидна связка между Интернет-активностью и политической напряженностью. В частности, была сформулирована концепция коннективного действия (Bennett & Segerberg, 2012). Исследователи продолжали смотреть на социально-сетевую коммуникацию как на демократизирующее явление, хотя и ограниченной силы. 
Однако к 2015 году в коммуникативистике накопилось множество свидетельств того, что цифровая трансформация медиа и коммуникации имеет тенденцию к негативной «нормализации»: в сети начинают воспроизводиться паттерны оффлайновой жизни при попадании в Интернет репрезентативных групп населения (Daniels, 2013), а компании – владельцы коммуникативных платформ находят новые, крайне эффективные модели бесплатной эксплуатации пользователей (Fuchs, 2014).  Теория публичной сферы перешла от сетевого оптимизма к пониманию публичных сфер и онлайн-дискуссий в них как аффективных (Papacharissi, 2015), диссонантных (Pfetsch, 2018), диссипативных конгломератов высказываний «на случай» (ad hoc; Bruns&Burgess, 2011). Начиная с 2016 года, после скандалов, связанных с массовой слежкой, ботизацией Интернета и фейковыми новостями, формировалась концепция цифровых угроз (Miller & Vaccari, 2020), в которой действия пользователей рассматриваются скорее как отклонение от идеи «порядочного Интернета» (Hedrick, Karpf & Kreiss, 2018). Формирование "амбивалентного Интернета" стало предметом обсуждения не только в академической среде, но и в полисинговых документах ведущих государств, ЕС, ООН. 
Параллельно с этим появились не менее важные концепции, указывающие на снижение рациональности дискуссий и, соответственно, демократического качества онлайновой публичной сферы. Так, ученые указали на «эмоциональный поворот» в медийных текстах (Wahl-Jorgensen, 2018; Luenenborg&Maier, 2018), объективно диссонантную природу современных национальных и наднациональных публичных сфер (Pfetsch, 2018), критическую значимость политической поляризации онлайн-дискуссий при обсуждении социального конфликта (Bodrunova et al., 2019). В силу указанных изменений изучение коммуникации в Интернете – как в социальных сетях, так и на порталах онлайн-медиа – представляется значимым, поскольку медиатизация социальной жизни, включая детство, нарастает, но вместе с этим растет и напряжение, связанное с комплексным и неоднозначным характером коммуникации. Пандемия COVID-19, разразившаяся в 2020 году и сопровождавшаяся мировой «инфодемией», отчетливо показала, насколько велика потребность в изучении не только непосредственно цифровых угроз, но и самой ткани современной социальной коммуникации. 
Россия затронута указанными тенденциями не меньше, чем Европа, Северная Америка, Азия, Ближний Восток. Но во многом российские медиаисследования остаются либо ориентированы на анализ внутристрановых реалий коммуникации, либо следуют в русле западных тенденций в теории медиа и Интернет-исследованиях. При этом сравнительная перспектива критически значима для понимания коммуникативных процессов – не только в силу глобального характера самого Интернета и некоторых соцмедийных платформ, но и в силу повсеместно меняющегося характера социальной интеракции. До сих пор в России нет исследовательского центра в области коммуникативистики, который бы мог поместить медиаисследования в межстрановой контекст, как с теоретической, так и с эмпирической точки зрения, а также предложить собственный взгляд на природу коммуникации в публичной сфере в государствах без длительной демократической традиции (в сравнении с более "старыми" демократиями).
Еще одной задачей Центра станет разработка и внедрение методов автоматизированного анализа медиаконтента и структуры сетевых дискуссий. Сочетание экспертного социогуманитарного знания и аппарата прикладной математики и веб-аналитики уже доказало свою успешность в рамках реализации предыдущих исследований (НИР РНФ, РФФИ, Грантов Президента и др.). При этом в некоторых методологических зонах, например в области тематического моделирования на коротких текстах, был достигнут «потолок метода» (см. Отчет НИР РНФ 16-18-10125-П за 2019 год). Внутри данного направления важной задачей Центра станет применение нейронных сетей и – шире - нейрокомпьютерных технологий к реконструкции структуры, содержания и социального влияния медийной коммуникации. Участниками рабочей группы уже продемонстрирована высокая эффективность нейрокомпьютинга для тематического моделирования для коллекций медиатекстов (Bodrunova et al., 2020). Центр станет первой российской лабораторией, применяющей нейронные сети для анализа широкого спектра проявлений социальной коммуникации. Помимо развития фундаментального знания о природе современной коммуникации, полученные знания и разработанные методики исследования могут найти применение как для решения государственных задач, так и в индустриях, которым важно знание принципов построения аудиторий и социальной дискуссии (журналистика, маркетинг, оценка репутации, психология общения и др.). 

КОНКРЕТНАЯ НАУЧНАЯ ПРОБЛЕМА, НА РАЗРАБОТКУ КОТОРОЙ НАПРАВЛЕН ПРОЕКТ. В 2020 году С.С.Бодруновой по итогам многолетних исследований социальной коммуникации в традиционных медиа и сети Интернет была предложена концепция кумулятивной делиберации. Это попытка объединить разрозненные сегодня выводы российских и западных исследователей, в целом говорящие о том, что в основе медиатизированной общественной дискуссии лежит не рациональный и добровольный поиск консенсуса, а конкуренция групп - носителей мнений и интересов, и обсуждение становится подобным "перетягиванию символического каната" и идет путем временных/локальных побед определенных точек зрения. Поэтому в современной медиатизированной коммуникации важно изучить и выделить паттерны и инструменты, способствующие/мешающие аккумулированию поддержки и привлечению сторонников, декларированию победы в символическом сражении, ограничению сообщества единомышленников и т.д. В целом механизмы кумулятивной делиберации, направленной на формирование временного/локального большинства, можно противопоставить механизмам консенсусной делиберации, направленной на поиск консенсуса большинства с меньшинством. В рамках работы над данной концепцией уже высказаны и проходят апробацию концепции "обратной спирали молчания" (2019 год) и контрибутивного действия (2020 год). В задачи Центра входит проведение исследований, позволяющих выявить как общие принципы кумулятивной делиберации, так и отдельные явления в рамках этой концепции.

КОНКРЕТНЫЕ ЗАДАЧИ, РЕАЛИЗУЕМЫЕ ЦЕНТРОМ В БЛИЖАЙШИЙ ОТЧЕТНЫЙ ПЕРИОД. В содержательные и методологические задачи Центра, как указано выше, входит:

1.  Исследование принципов социальной коммуникации в современной публичной сфере, в том числе в сети Интернет (в социальных сетях, на блог-платформах и платформах агрегации пользовательского контента) в контексте социально-политических конфликтов, политической поляризации, социальной фрагментации публичной сферы.

Данное направление работы Центра является основным и ориентировано на понимание структуры, содержания и динамики социальной коммуникации, в том числе дискуссий пользователей в социальных сетях, на блог-платформах, на порталах агрегации контента, в мессенджерах. Так, в частности, будут изучаться такие аспекты дискуссий, как конфигурация влиятельных пользователей; связь характеристик (метаданных) пользователей со способами говорения, структурой и динамикой связей, психологическими и культурными чертами речи; тональность и тематика обсуждения; объединяющий/диссипативный характер дискуссии; «облака» внутри обсуждения и их природа; и др. Здесь важно, что изучение этих аспектов не является самоцелью: через изучение структурных и содержательных черт дискуссий выявляются особенности индивидуального и группового коммуникативного поведения, а также черты публичной сферы (Habermas 2006), важные с политической и социально-групповой точки зрения. В 2020 году мы подтвердили существенную разницу в степени связности оппозиционного дискурса в российском и белорусском YouTube, что показывает критическую значимость контекста, а не платформы, в формировании паттерна дискуссии. Это требует дальнейшего изучения на материале различных стран.

Еще одним важным направлением является изучение коммуникативного поведения в обсуждениях конфликтов различной природы. Ранее при изучении обсуждений этнополитических конфликтов с насильственным триггером в разных странах рабочая группа, в частности, установила, что формирование групп в таких дискуссиях не следует паттерну «меньшинство/большинство-за-меньшинство/большинство-против-меньшинства», на котором настаивала теория групповой интеракции. Не соответствует оно и политическому спектру. Напротив, в дискуссиях наблюдается противостояние неправых/левых политических групп, а нейтрального медийного дискурса и радикализированных высказываний с обеих сторон политического спектра, иногда разделенных на мелкие группы в зависимости от связи их взглядов с ценностными комплексами. Также было показано, что традиционные СМИ играют в таких дискуссиях связующую роль между активным центром и периферией дискуссии, что позволило скорректировать для конфликтных обсуждений классическую теорию Катца, Лазарсфельда и Мертона о двухступенчатом потоке коммуникации (Katz, 1957). Сегодня рабочая группа на основе изучения паттернов агрессии выдвинула идею «обратной спирали молчания», которая призвана расширить еще одну классическую теорию о складывании «эхо-камер» - теорию Э.Ноэль-Нойманн о «спирали молчания» (Noelle-Neumann, 1980).

Еще одним примером является изучение роли агрессии и радикализма в развитии дискуссий. Так, в2019-2020 годах, в противовес почти всему корпусу исследований речи ненависти и обсценной лексики в сетевых дискуссиях, рабочая группа продемонстрировала конструктивный характер политически мотивированной агрессивной речи для формирования публичных контрсфер, выпуска политического пара, контекстуализации критики политических акторов. Для дискуссий политической природы должны быть продолжено изучение агрессии и радикальных высказываний; паттернов моральной паники, присвоения вины и ответственности, политического диалога; складывания стабильных и диссипативных дискуссионных групп в связи с их ценностями и взглядами.

2.  Изучение трансформации контента текстовых медиа, в том числе локальных, и их связи с контентом социальных медиа.

Несмотря на то, что социальные медиа сегодня порождают основной объем политически- и социально-релевантной публичной информации, наши работы показывают, что медиа, следующие традиционным подходам в создании контента, остаются важными для развития дискуссий в публичной сфере. Такие СМИ в регионах России, а также медиа диаспор все еще находятся в процессе цифровой трансформации: (пере)сборки аудитории, форматных экспериментов, освоения тактик присутствия в социальных медиа, этических колебаний. Тем не менее, как показывают наши работы и работы коллег, локальные медиа продолжают быть «привратниками» (gatekeepers) и ключевыми интерпретаторами фактов на местах, противостоят ложной информации (иногда лучше, чем общенациональные СМИ), связывают части дискуссии, выступают центрами местных сообществ. Учеными отмечены перетекание повестки дня из социальных медиа в традиционные и обратно, складывание межмедийной повестки (inter-media agendas; McCombs2004), превращение медийных gatekeepers в gatewatchers (Bastos, Raimundo, Travicki, 2013), формирование сетей связей с пользователями и др.

Сегодня локальные медиа участвуют в конкуренции, гораздо более широкой, чем ранее: так, они конкурируют с публичными страницами (пабликами) компаний и НКО, индивидуальными блоггерами, каналами на YouTube, новостными чатами в мессенджерах (особенно на Дальнем Востоке). Взаимодействие с конкурентами, а также с пользовательскими комментариями создает разветвленную «кровеносную систему» информационных потоков в ткани социальной коммуникации, пока малоизученную. Изучение взаимного влияния двух сегментов гибридной медиасистемы поможет выработать рекомендации, касающиеся эффективности медиаконтента на сетевых площадках.

Отдельного внимания заслуживает феномен цифровой журналистики, который обрел самостоятельное значение в журналистской индустрии и вызывает, без преувеличения, огромный интерес у исследователей. Так, журнал «Digital Journalism» за три года существования стал №2 среди журналов о коммуникации по версии SJRи №1 – по версии Google Scholar. При этом пока не создано значимой теоретической рамки для сравнительного изучения качества цифровой журналистики. В основном внимание исследователей сосредоточено на авторской практике, редакционном принятии решений, взаимодействии с аудиторией, экономическом выживании цифровой журналистики. Однако сравнительная рамка, на развитие которой будет направлена работа Центра, будет включать в том числе критерии оценки профессиональной культуры журналиста, деонтологии профессии, форм общественной подотчетности журналистики и реализации общественного интереса, роли в публичной сфере.

3.  Разработка автоматизированных и смешанных методов анализа текстового и визуального контента медиа и социальных сетей, включая вероятностные и методы выделения тематики дискуссий, оценки их тональности, выявления пользовательских групп, а также визуализации результатов.

Выполнение Задач 1 и 2 невозможно сегодня без применения методов, основанных на автоматизированной обработке больших и средних массивов данных, имеющихся в открытом доступе и загруженных через специальное программное обеспечение. Как показывает опыт лабораторий в области социальных и когнитивных исследований Интернета(ЛИНИС/СКИЛА НИУ – ВШЭ, Вычислительного центр им. А. А. Дородницына РАН, зарубежных лабораторий), а также собственный семилетний опыт рабочей группы, следует стремиться к разработке комплексных смешанных методик, включающих:

- методики сбора и предварительной обработки (пре-процессинга) данных, что составляет отдельную методологическую проблему;

- методы обработки больших данных (big textual data). В первую очередь для задач Центра подходят методы автоматизированной обработки текстовых массивов для целей определения сообществ пользователей, словарей дискуссии, тематики и ее динамики, тональности высказываний, эмоционального фона и отдельных эмоций (в том числе различных видов агрессии и иронии) и др. Методы обработки можно разделить на методы эффективного представления текста («мешка слов», векторной репрезентации, word2vec и др.) – и вероятностные и не-вероятностные методы классификации, кластеризации или иной обработки измененного текстового массива;

- методы интерпретации(в том числе визуализации) результатов;

- качественные и количественно-качественные методы работы с текстом и иными единицами анализа.

Такое сочетание уже показало высокую эффективность на реальных данных (real-worlddata). Но для выстраивания подобных методологических цепочек необходимо междисциплинарное взаимодействие и разнообразие доступных методов вероятностной математики и социогуманитарных наук. Поэтому рабочая группа Центра будет состоять из представителей различных подразделений СПбГУ, а также по необходимости привлекать к работе над данными узких специалистов, не входящих в состав рабочей группы.

В данный момент рабочая группа является лидером в России по изучению проблем тематического моделирования и мультиязычного тонального анализа для коротких текстов, применения нейронных сетей к выявлению тематики текстовых корпусов, обработки и анализа твитов и комментариев с платформы YouTube. Подзадачами на первый период работы Центра в данном случае являются:

- разработка и тестирование методик вероятностной оценки тематики, тональности, эмоциональной наполненности и других характеристик для корпусов текстов сильно варьирующей длины (нестандартизированных постов и комментариев пользователей);

- разработка методик оценки визуального контента (фото, видео);

- разработка методик выявления сообществ пользователей, в том числе скрытых (террористических, преступных и др.) или разрозненных (сообществ эмигрантов, ущемленных групп и др.);

- разработка методов ручной оценки собранного контента на микроуровне, интерпретативных техник;

с целями, важными для реализации Задач 1 и 2.

4.  Разработка и тестирование методов анализа текстового и визуального медиаконтента с применением технологий на базе нейронных сетей и нейрокомпьютинга.

Отдельной существенной задачей в рамках методологического направления работы Центра будут разработка и внедрение методов анализа текстовых данных с применением нейронных сетей (в частности, архитектуры BERT и алгоритма текстового анализа на основе эмбеддингов USE).

Как показал опыт рабочей группы в 2018-2020 годах, для некоторых методических разработок, даже комплексных, на реальных данных быстро достигается «потолок метода» (Bodrunova et al. 2020; Blekanov et al. 2018). Это означает невозможность подняться выше определенных значений показателей точности классификации и ее приближения к человеческой оценке. Поэтому в 2019 году рабочей группой были предварительно протестированы возможности разворачивания и применения предобученных нейронных сетей для текстового анализа; первые результаты, сочетающие USE-представление текстов и новую методику кластеризации текстов с использованием марковского момента остановки, опубликованы в журнале «Future Internet» (SJR Q2); после подачи рукописи руководитель рабочей группы приглашена в состав редколлегии журнала. Задачей является тестирование методов на базе нейронных сетей для разных языков и мультиязычных дискуссий.

В целом задачи Центра носят комплексный междисциплинарный характер, а также направлены одновременно на разработку передовых методов и их применение для анализа медиаконтента и структурных связей в нем. Результаты Центра позволят поставить его в ряд ведущих исследовательских лабораторий по изучению социальной коммуникации и получить результаты, сопоставимые с результатами пионерных мировых исследований.

НАУЧНАЯ НОВИЗНА поставленных задач определяется новизной предложенной "зонтичной" концепции кумулятивной делиберации, а также сочетанием методологических подходов, применяемых при анализе коммуникативных процессов и медиаконтента. Так, рабочая группа будет использовать не только классические качественные и количественные методы социологии, политологии, психологии и антропологии, но также методологию в области обработки и анализа больших массивов текстовых данных. В том числе это методы, уже разработанные рабочей группой, в том числе в области вероятностной кластеризации и классификации текстов, тематического моделирования, тонального анализа, детекции  сообществ, визуализации данных. Также будет сделан упор на разработку нейрокомпьютерных методов анализа текстовых массивов на основе архитектуры BERT и предобученных коллекций данных для этой нейронной сети.
ДОСТИЖИМОСТЬ поставленных задач определяется: 1) составом рабочей группы и научным заделом, наработанным за более чем семь лет сотрудничества (см. ниже); 2) наличием требуемого оборудования (сервер для распределенного анализа данных, хранилище данных); 3) наличием запатентованного программного обеспечения (в том числе веб-краулера со сменными модулями для сбора, пре-процессинга, анализа, упаковки данных и визуализации результатов исследований); 4) наличием широкой сети связей с российскими и зарубежными коллегами. Это в том числе научные центры в области коммуникативистики и Интернет-исследований: Вайценбаум-институт Берлина-Бранденбурга, Ханс-Бредоу-Институт, Эрих-Брост-Институт Технического университета Дортмунда (Германия), кафедры и научные подразделения Университета Иллинойса в Чикаго, Университета Джорджа Вашингтона, Университета Джорджа Мейсона и др. (США), Университета Варшавы, Университета Вроцлава, Университета Кракова (Польша), Университета Хельсинки, Университета Ювяскюля, Университета Тампере (Финляндия) и мн.др.ПРЕДЛАГАЕМЫЕ МЕТОДЫ И ПОДХОДЫ. Как указано выше, Центр является междисциплинарным проектом. Основную роль будут играть следующие подходы и методы:
МЕТОДЫ СБОРА ДАННЫХ:1) количественные методы социологии: анкетирование/опрос, эксперимент; 2) качественные методы социологии (при необходимости): интервью, фокус-группа; 3) психологические и антропологические методы сбора данных о персональных паттернах поведения пользователей; 4) сбор текстовых данных: веб-краулинг, ручной сбор текстов, работа с готовыми базами текстовых данных.
МЕТОДЫ ПРЕДОБРАБОТКИ ДАННЫХ: 1) автоматизированный пре-процессинг: очистка от незначимых элементов (осколки html-тегов, индивидуально-авторская аббревиация, неполные слова), лемматизация, стемминг, очистка от стоп-слов; 2) создание баз текстовых данных и СУБД для работы с ними.
МЕТОДЫ АНАЛИЗА ДАННЫХ: 1) социолингвистические методы (кодирование, контент-анализ, интерпретативное чтение); 2) статистические методы: описательная статистика, регрессионный, факторный, кластерный анализ (разработанные ранее); 3) вероятностные методы обработки текстовых массивов: кластеризация и классификация текстов на разных основаниях, в том числе тематическое моделирование и тональный анализ (выявление сентимента пользователя) - разработанные рабочей группой; 4) методы изучения пользовательской реакции на сообщение - психологические, антропологические, методы зоны DUXU (оценка качества дизайна и юзабилити); 4) иные методы (при необходимости).
МЕТОДЫ ВИЗУАЛИЗАЦИИ РЕЗУЛЬТАТОВ: 1) графовые методы представления на основе доработанных алгоритмов библиотеки Gephi; 2) методы динамической визуализиции (разрабатываются рабочей группой в данный момент).

ОБЩИЙ ПЛАН РАБОТЫ НА СРОК ВЫПОЛНЕНИЯ ПРОЕКТА (3 ГОДА). План работы включает следующие общие пункты:
2021 год:

1. Консолидация рабочей группы, ознакомление новых участников с опытом работы, сделанными выводами и планом исследований. 
2. Первичная проработка концепции кумулятивной делиберации на основе существующей литературы, создание теоретической статьи, определяющей термин.
3. Изучение российского опыта кумулятивной делиберации на русскоязычных кейсах.
4. Работа над концепцией "обратной спирали молчания" на основе трех кейсов в трех странах. Подтверждение/опровержение концепции.
5. Анализ опыта локальной социальной коммуникации (региональных медиа, местных групп и аккаунтов в социальных сетях) с точки зрения концепции кумулятивной делиберации.
6. Доработка предложенного метода классификации текстов на основе алгоритма USE и автоматического определения числа кластеров с использованием марковского момента остановки: тестирование метода для датасетов из коротких текстов.
7. Эксперименты с пре-процессингом коротких текстов для тематического моделирования.
8. Эксперименты в области ручного кодирования для тематического моделирования.
9. Участие рабочей группы в зарубежных исследовательских проектах, разработка иной тематики в рамках медиаисследований и изучения публичной сферы.
10. Написание академических статей и научно-популярной статьи.
11. Участие в международных и российских конференциях по тематике проекта.

2022 год:
1. Уточнение теории кумулятивной делиберации. Формулирование и критика принципов кумулятивной делиберации.
2. Работа над концепцией контрибутивного действия на основе различных кейсов на трех языках.
3. Работа над изучением кумулятивной делиберации в кроссмедийных публичных дискуссиях (с участием традиционных и сетевых медиа, различных платформ социальной коммуникации).
4. Работа над определением маркеров кумулятивного делиберативного процесса в контенте медиа разной природы.
5. Разработка методов обработки текстовых массивов на базе архитектуры BERT/RoBERTa; доработка предложенного метода классификации текстов для датасетов из текстов разной (ненормированной) длины на трех языках. 
6. Участие рабочей группы в зарубежных исследовательских проектах, разработка иной тематики в рамках медиаисследований и изучения публичной сферы.
7. Написание академических статей и научно-популярной статьи.
8. Участие в международных и российских конференциях по тематике проекта.

2023 год:
1. Продвижение теории кумулятивной делиберации, участие в международных и российских конференциях по тематике проекта, организация научного семинара по обсуждению кейсов кумулятивной делиберации.
2. Развитие международного сотрудничества в сфере изучения кумулятивной делиберации, подача заявок на грантовое софинансирование.
3. Изучение отдельных аспектов теории кумулятивной делиберации, выявление ее кросс-национальных паттернов. 
4. Изучение связи медийного и политического процесса в рамках теории кумулятивной делиберации.
6. Написание академических статей.
7. Участие в международных и российских конференциях по тематике проекта.

НАУЧНЫЙ ЗАДЕЛ КОЛЛЕКТИВА. Научный задел по проекту складывается из:

1. Компетенций и исследовательского опыта рабочей группы.

2. Опыта совместных исследований и совместной подготовки публикаций.

3. Наличия разработанных методов и запатентованных инструментов для сбора и визуализации данных.

4. Предыдущих достижений коллектива.

 КОМПЕТЕНЦИИ И ИССЛЕДОВАТЕЛЬСКИЙ ОПЫТРАБОЧЕЙ ГРУППЫ (РУКОВОДИТЕЛЬ И КЛЮЧЕВЫЕ ИСПОЛНИТЕЛИ)

С.С. Бодрунова (руководитель, 39 лет) –д.полит.н., профессор кафедры менеджмента массовых коммуникаций Института «Высшая школа журналистики и массовых коммуникаций» СПбГУ. В 2012-2016 годах заведовала кафедрой медиадизайна и информационных технологий СПбГУ. Автор более 130научных публикаций, в т.ч. автор и соредактор коллективной монографии «Медиакратия: современные теории и практики» (2013; первые премии Национальной ассоциации массмедиа-исследователей и Российской коммуникативной ассоциации) и более40 публикаций, индексируемых международными наукометрическими базами данных WoSCore Collection и Scopus, среди которых пять опубликованы в журналах Q1 (по рейтингу SJR).Приглашенный исследователь Лаборатории Интернет-исследований (ЛИНИС) НИУ – ВШЭ в Санкт-Петербурге (2013-2016). Участник конференций мировых и региональных исследовательских ассоциаций (ICA, IPSA, HCI, ECPR, IAMCR, WAPOR, ECREA, ASEEES и др.), конференций IEEE, ACM, LNCS. Кейноут-спикер (семь ключевых докладов международных конференций в 2017-2020 годах), председатель программного комитета международной конференции «Comparative media studies in today’s world (CMSTW)» (2013-2020). Создатель авторских курсов по тематике новых медиа, социальной коммуникации, трансформации медиа, журналистики и политики; читала приглашенные лекции и курсы в университетах Берлина, Гамбурга, Дортмунда, Вроцлава, Кракова, Тарту, Ювяскюля (2013-2020). Руководитель магистратуры «Global communication and international journalism» (программа двух дипломов совместно со Свободным университетом Берлина, Германия; 2015-2018) и магистратуры «Медиакоммуникации»(с 2019 года) в СПбГУ. Член редколлегии журналов «Digital Journalism»(Q1), «Global Media and Communication» (Q2), «Future Internet» (Q2), «CentralEuropean Journal of Communication» (Q3), «World of Media» (Scopus, МГУ). Руководитель НИР РНФ 16-18-10125(2016-2018) и НИР РНФ 16-18-10125-П (2019-2020). Обладатель грантов Президента РФ для молодых ученых – кандидатов наук (МК 5129.2011.6) и молодых ученых -докторов наук (МД-6259.2018.6), грантов СПбГУ, зарубежных грантов, исполнитель НИР РФФИ и НИР в рамках ФЦП «Кадры». Стажировалась в Италии, Польше, Чехии, Эстонии и других странах. Совладелец патента №2019661691 на программное обеспечение SNALab. Ведет исследования в сфере медиатизированной коммуникации, медиатизации политики и публичной сферы, отражения конфликтов в онлайн-дискуссиях, журналистики и новых медиа в России и Европе. Является молодым ученым (доктор наук до 40 лет).Свободно владеет английским и белорусским, на уровне intermediate – итальянским, немецким и французским языками.

 И.С. Блеканов (ключевой исполнитель,35 лет) - к.т.н., доцент, доцент, заведующий кафедрой технологии программирования СПбГУ, руководитель магистерской программы «Технологии баз данных» по направлению «02.04.02 Фундаментальная информатика и информационные технологии». Лауреат Премии Правительства Санкт-Петербурга (2012 г.) в области научно-педагогической деятельности для молодых ученых. Автор и руководитель проекта по созданию онлайн-курса «Введение в науку о данных» на платформе Coursera (https://www.coursera.org/learn/vvedeniye-v-nauku-o-dannykh). Основной исполнитель в грантах РНФ, Гранте Президента (рук. С.С.Бодрунова), РФФИ. Автор(за последние 5 лет) более 30 публикаций, близких тематике исследования, из них: WoS - 4; Scopus - 20; РИНЦ - 14. Участник более десятка международных конференций ACM и IEEE. Ведет исследования в области вебометрики, науки о Вебе, науки о данных, теории графов, моделирования Веба, оптимального управления сайтами, оценки качества сайтов, информационного поиска, социальных сетей, поисковых роботов и сборщиков данных, анализа структуры сетевых дискуссий, анализа тональности и тематического моделирования пользовательских текстов.

 К.Р. Нигматуллина (ключевой исполнитель,36 лет) - к.полит.н., доцент, заведующая кафедрой цифровых медиакоммуникаций Института «Высшая школа журналистики и массовых коммуникаций» СПбГУ. Автор более50 публикаций, из них 6 индексированы Scopus, 2 - WoS Core Collection. Член Национальной ассоциации массмедиа-исследователей (НАММИ), Диплом НАММИ за третье место в конкурсе научных исследований 2015 года за монографию «Медиа накануне постсекулярного мира» (под общей ред. В. А. Сидорова). Совершила исследовательские визиты в Свободный университет Берлина (2016), Университет Хельсинки (2017), прошла профессиональные стажировки как преподаватель журналистики в США (2014) и Швеции (2015). Обладатель Субсидии Комитета по науке и высшей школе Правительства Санкт-Петербурга на предоставление в 2016 году субсидий молодым ученым, молодым кандидатам наук вузов, отраслевых иакадемических институтов, расположенных на территории Санкт-Петербурга №71-16,исполнитель НИР в рамках ФЦП «Русский язык». Участник международных конференцийIAMCR, ICA, BASEES, профессиональной конференции WAN-IFRA. Автор 22 рабочих программ образовательных дисциплин, в том числе на английском языке. Автор тренингов для журналистов, эксперт Mediatoolbox, редактор раздела «Образование» в журнале «Журналист» (издается с 1914 года). Ключевой исполнитель НИР РНФ 16-18-10125 и 16-18-10125-П (рук.С.С.Бодрунова).

 А.С. Смолярова (ключевой исполнитель,31 год) – к.полит.н., доцент кафедры международной журналистики Института «Высшая школа журналистики и массовых коммуникаций» СПбГУ. Автор более 30 научных публикаций, из них 16 индексированы базами Scopus и WoS Core Collection. Автор более 10 курсов и модулей по тематике международной журналистики, российских и европейских медиа, этнической журналистики и СМИ диаспор, современному медиапотреблению, социальным медиа. Обладатель Гранта Президента РФ для молодых ученых – кандидатов наук (2018-2019), ключевой исполнитель НИР РНФ, Грантов Президента (рук.С.С.Бодрунова). Куратор молодежной конференции «Медиа в современном мире. Молодые исследователи» (2009-2017). Выступала куратором программ профессионального обмена для молодых журналистов Сената Гамбурга, Гёте-Института, Фонда им. Фридриха Эберта, Союза молодежной прессы Германии, Академии прав человека Норвегии. Стажировалась в Германии, Израиле, Финляндии. Свободно владеет английским, немецким языками, на уровне intermediate – ивритом.

 ОПЫТ СОВМЕСТНЫХ ИССЛЕДОВАНИЙ И СОВМЕСТНОЙ ПОДГОТОВКИ ПУБЛИКАЦИЙ

 Основной состав рабочей группы сложился с 2011-2012 годов. За это время в сотрудничестве были реализованы девять проектов: три НИР СПбГУ 2013-2014 годов, три гранта Президента РФ для молодыхученых (с 2011 по 2019 год), НИР РНФ 16-18-10125 и 16-18-10125-П, НИР РФФИ 15-01-06105.

Общий объем совместных публикаций руководителя и основных исполнителей - 32, в т.ч. 26 индексированы международными наукометрическими базами данных.

 

РАЗРАБОТАННЫЕ МЕТОДЫ И ЗАПАТЕНТОВАННЫЕ ИНСТРУМЕНТЫ ДЛЯ СБОРА И ВИЗУАЛИЗАЦИИ ДАННЫХ

 В ходе предыдущих НИР были разработаны и продолжают дорабатываться следующие методические и аппаратные комплексы длясбора, обработки и визуализации данных:

1. Специализированные веб-краулеры с обобщенным ядром для сбора данных в web 1.0, Твиттере, YouTube. Проведены эксперименты, подтверждающие его высокую эффективность по сбору данных в web1.0 в сравнении с зарубежными аналогами (Блеканов, Сергеев, Мартынов 2012),анализ эффективности в сопоставлении с выборками из Твиттера на основеAPI-выдачи. Применялись в рамках НИР РНФ 16-18-10125 и 16-18-10125-П, РФФИ15-01-06105, двух НИР СПбГУ.

2. Лексикон-ориентированный программный комплекс для тонального анализа на различных европейских языках, включая английский, немецкий, французский, русский. Разработан в рамках НИР РНФ16-18-10125 (для французского языка) и Гранта Президента РФ МД-6259.2018.6 (для английского языка).

3. Программный комплекс для тематического моделирования коротких текстов на русском, английском, немецком языке (WNTM).Протестирован в рамках НИР РНФ 16-18-10125.

4. Доработанные методики визуализации веб-графов на основе алгоритмов Gephi (YifanHu и OpenOrd).

5. Методика репрезентации текстов с использованием sentence embeddingsна основе нейронной трансформенной архитектуры UniversalSentenceEncoder (USE).

Рабочая группа обладает тремя патентами на программное обеспечение, обеспечивающее сбор и анализ больших объемов пользовательских текстов.

 ДОСТИЖЕНИЯ КОЛЛЕКТИВА ЗА ПРЕДШЕСТВУЮЩИЙПЕРИОД

 В 2013-2020 годах были сформулированы следующие выводы, позволяющие продолжить комплекс исследований в сфере социальных медиа и конфликта, диссипативной публичной сферы, методологии исследования социальных дискуссий. Так, было установлено, что:

1.  Конфликтные дискуссии в социальных сетях обладают специфической природой с точки зрения связи пользователей. Они не только аффективны и специфичны для каждого отдельного случая, как отмечалось в более ранних исследованиях. Складывание дискуссий об остроконфликтных ситуациях подчиняются степенному закону (power law); такая дискуссия является менее связной и более равноправной сточки зрения выдвижения инфлюэнсеров (влиятельных пользователей).

2.  Многие дискуссии, в том числе на YouTube, в целом сложно назвать дискуссиями: это, скорее, конгломераты несвязанных высказываний, обладающие при этом кумулятивным эффектом с точки зрения снятия барьеров участия следующих зрителей/комментаторов. Эффекты кумулятивной делиберации проявляются не в рамках отдельных обсуждений, а на более высоком уровне(например, пользовательской практики комментирования в целом).

3.  Персональные характеристики и институциональная палитра влиятельных пользователей являются национально-обусловленными: например, в схожих конфликтах структура политического присутствия варьирует в зависимости от развитости гражданского общества, структуры политических партий, наличия радикальных групп и организаций. Контекстуально-зависимыми являются также паттерны присвоения вины за конфликт и ответственности за его разрешение.

4.  Было показано, что «эхо-камеры» (модулярные области единообразного мнения/тона) в сетевых дискуссиях являются многоуровневыми. Так, в глобальных дискуссиях первым уровнем фрагментации является языковой, вторым – тональный, третьим – содержательный (например, различия в политических взглядах).

5.  Фрагментация пользователей в дискуссиях не соответствует ожиданиям, сформированным теориями группового взаимодействия и исследованиями, утверждающими наличие бинарной политической поляризации(правый/левый). Для объяснения динамики дискуссии рабочая группа выдвинула гипотезу «обратной спирали молчания» - развития дискуссии с подачи радикализированных пользователей/твитов. При «обратной спирали молчания» радикально настроенное меньшинство (а не умеренное доминантное большинство, как в теории Элизабет Ноэль-Нойманн) начинает вести за собой дискуссию.

6.  Роль медиа-аккаунтов в конфликтных дискуссиях отличается от роли в оффлайновой публичной сферы в рамках классической концепции двухступенчатого потока коммуникации Лазарсфельда, Мертона и Катца. Так, было показано, что в дискуссиях в разных странах медиа стоят на позициях между активным связным центром дискуссии и периферийными «облаками», являясь средним, а не первым звеном в потоке коммуникации и предоставляя данные и референтный контекст как для активных пользователей, таки для участников с малым числом постов и связей.

7.  Начато исследование в сравнительной перспективе тональных и эмоциональных паттернов конфликтных дискуссий. Показано, что тональность высказываний инфлюэнсеров связана с их персональными характеристиками и институциональным статусом.

8.  Начато изучение роли радикальных высказываний и коммуникативной агрессии в сетевых дискуссиях. Показано, что восприятие агрессивной речи как исключительно вредной в делиберативном смысле должно быть пересмотрено. В противовес имеющимся подходам было показано, что в условиях растущих ограничений со стороны политической системы коммуникативная агрессия (обсценнная лексика, политически мотивированная агрессивная лексика, радикальные высказывания) играет конструктивную роль в дискуссии как со структурной, так и с семантической точки зрения.

9.  Показана роль пабликов медийного характера на платформе VK.com (бывш. Vkontakte) в местном медиаландшафте. Дана комплексная оценка индекса вовлеченности аудитории, отражающего потенциал формирования сообществ вокруг медиаресурса. Сформулирована концепция «медиа как сообщества», справедливая как для локальных медиапроектов, так и для цифровых СМИ диаспор.

10.Ведется масштабное исследование профессиональной культуры журналиста, включая трансформацию деонтологии и поведение в социальных сетях. Так, установлена гетерогенность журналистской культуры в России не только в поколенческом аспекте, как было показано ранее, но в первую очередь с точки зрения ценностных комплексов и традиций, а также принятия/отторжения технологических инноваций, в том числе работы в социальных сетях, блогах, мессенджерах.

11.Изучение журналистских практик онлайн показало ценностные разломы внутри этики профессии. В частности, было продемонстрировано, что не более 30%российских журналистов интерпретируют понятие самоцензуры как непубликацию информации в силу риска журналисту, редакции или иным лицам. Более 50%журналистов путают деонтологические нормы и основания для самоцензуры. Также было установлено, что самоцензура в профессиональных публикациях и социальных сетях имеет различные причины, и кумулятивный механизм критики в социальных сетях обладает потенциалом давления на журналистов, как и на других пользователей сети.

12.Показано, что онлайн-коммуникация играет ведущую роль в создании наднациональной и во многом деполитизированной публичной сферы глобальной русскоязычной диаспоры. Показан рост сетевого медиапотребления в медиадиетах русскоговорящих жителей Германии и Израиля. Выявлены страновые различия в популярности мессенджера Telegram как платформы для медиапроектов. На примере Instagram-проектов изучается политизация социальных и бытовых вопросов в жизни диаспоры.

 На примере внутрироссийских дискуссий также было продемонстрировано, что:

1.  В российском Твиттере, несмотря на регулярное присутствие в нем информации от исполнительной власти, существует институциональный вакуум с точки зрения участия политических акторов и представителей ветвей власти в дискуссиях. То же можно сказать и об НКО, в том числе в сфере защиты этнических меньшинств и иммигрантов.

2.  Русскоязычные сегменты социально-сетевых платформ представляют собой «эхо-камеры» максимально возможного размера (platform-wide echo chambers). Так, отмечено, что русскоязычный сегмент Facebook представляется либеральной «эхо-камерой», тогда как Твиттер аккумулирует пронационалистически настроенную аудиторию. Более того, национализм в Твиттере делится на противников и сторонников текущей власти. Такая «двойная» структура националистического дискурса напрямую влияет на структуру обсуждений и их делиберативное качество.

3.  Вина за социальный конфликт и ответственность за его решение атрибутируются элементам политической системы разного уровня. Так, вина ложится на федеральные власти, а деэскалации конфликта ждут от региональных органов управления. Данный разрыв свидетельствует о соответствующем разрыве в полисинге по вопросам этносоциальных отношений.

 Методологические результаты предшествующего периода, помимо разработки программного обеспечения и алгоритмов работы с ним, включаютследующие наработки:

1.  Разработана методика оценки тональности для трех классов (негативный, положительный, нейтральный) для четырех языков, применимая для коротких текстов, достигающая показателей 0.65 – 0.78 на сильно зашумленных данных (твиты без препроцессинга) по четырем метрикам качества (recall, precision, accuracy, F-measure).

2.  Выявлено, что введение четвертого класса(«смешанная тональность») резко снижает качество метода. Таким образом, достигнут «потолок метода» для такого типа текстов. Предложено использовать нейронные сети для глубокого машинного обучения в сфере тонального анализа коротких шумных текстов.

3.  Проведено обучение машины для выявления пяти эмоций, а также агрессии и иронии/сарказма для четырех языков. Показатели по выделению агрессии и иронии/сарказма достигают 0.8 – 0.9 по четырем метрикам качества оценки (recall,precision, accuracy, F-measure). Выявление эмоций, таких как радость или гнев, сложнее поддается детекции; показано, что требуется глубокое обучение для повышения показателей качества их выявления.

4.  Показано, что препроцессинг твитов может существенно снижать(!) качество тонального анализа и тематического моделирования.

5.  Предложена методика выявления тематики дискуссии, альтернативная подходам на основе «мешка слов» и векторному представлению текстов (word2vec). Она сочетает эмбеддинговое представление текстов, полученное с помощью предобученных нейронных сетей, и агломеративную кластеризацию с марковским моментом остановки. Показано, что по таким стандартным показателям качества выделения тем, как V-метрика и NMI, метод работает лучше признанных методов (baseline methods), включая DBSCAN и OPTICS.

6.  Также показано, что марковский моменто становки и применяемый для его расчета критерий q работает более эффективно, чем часто применяемые методы определения остановки кластеризации (silhouette и elbow).

7.  При этом показано, что оценка качества тематического моделирования на коротких текстах путем применения автоматических метрик и ручного кодирования почти никогда не совпадает. Так, модель, оцененная высоко с помощью автоматических метрик, при чтении глазами выдает типичные ошибки моделирования (слишком большое число тем с одинаковыми топ-словами, «цепные» темы, малоинтерпретируемые темы на основе общей лексики и др.). Это справедливо как минимум для трех языков (русского, английского, французского).

8.  Были проведены эксперименты по проверке качества ручного кодирования, то есть зависимости результата кодирования от опыта кодировщика и погруженности в текст. Показано, что число интерпретируемых тем критически (до 11 раз!) различается в зависимости от характеристик кодировщика. Поставлен вопрос о поиске критериев оценки качества тематического моделирования, не зависящих от ручного кодирования и не имитирующих их, а также вопрос о необходимой и достаточной тренировке кодировщиков.

После обобщения опыта работы с тематическими моделями на коротких пользовательских текстах была выдвинута идея «идеального топика». Ранее моделирование проводилось с целью добиться максимального числа тем, интерпретируемых достаточно хорошо (с определенным порогом). Однако это может быть изначально порочной установкой. В коротких текстах пользователей уместнее искать небольшое количество значимых и хорошо интерпретируемых тем, не гонясь за их количеством.

ДЕТАЛЬНЫЙ ПЛАН РАБОТЫ НА 2021 ГОД

Январь-февраль:
1. Консолидация рабочей группы, ознакомление новых участников с опытом работы, сделанными выводами и планом исследований (все члены рабочей группы).
2. Первичная проработка концепции кумулятивной делиберации на основе существующей литературы, создание теоретической статьи, определяющей термин (С.С.Бодрунова). 
3. Выбор российских и международных кейсов и сбор данных по ним (С.С.Бодрунова, И.С.Блеканов, А.Ю.Максимов, аспиранты и магистранты).
4. Подача заявок на участие в конференциях.
Март-апрель:
1. Пре-процессинг данных по выбранным кейсам, выбор и тестирование методик обработки данных (И.С.Блеканов, А.Ю.Максимов, Н.Тарасов). 
2. Сбор данных (контент, метаданные) локальных медиа и медиа диаспор для дальнейшего анализа (А.С.Смолярова, К.Р.Нигматуллина, А.Литвинова).
3. Работа над публикациями; участие в конференции CMSTW'2021 (не менее четырех участников рабочей группы).
Май-июнь:
1. Анализ данных по кейсам, опровержение/подтверждение идеи "обратной спирали молчания" (С.С.Бодрунова, И.С.Блеканов, А.С.Смолярова, аспирант, магистранты).
2. Анализ данных локальной социальной коммуникации (региональных медиа, местных групп и аккаунтов в социальных сетях) с точки зрения концепции кумулятивной делиберации (К.Р.Нигматуллина, А.С.Смолярова, магистранты).
3. Написание статей, подготовка к участию в осенних конференциях (С.С.Бодрунова, И.С.Блеканов, К.Р.Нигматуллина, А.С.Смолярова, аспирант).
Июль: 
1. Визуализация полученных результатов (И.С.Блеканов, А.Ю.Максимов, Н.Тарасов).
2. Подача статей в периодические издания (С.С.Бодрунова, А.С.Смолярова, А.Литвинова, аспирант).
Сентябрь-ноябрь:
1. Доработка предложенного метода классификации текстов на основе алгоритма USE и автоматического определения числа кластеров с использованием марковского момента остановки: тестирование метода для датасетов из коротких текстов (С.С.Бодрунова, И.С.Блеканов, А.Ю.Максимов, Н.Тарасов, А.Литвинова).
2. Эксперименты с пре-процессингом коротких текстов для тематического моделирования (С.С.Бодрунова, А.С.Смолярова, А.Ю.Максимов, магистранты).
3. Эксперименты в области ручного кодирования для тематического моделирования (С.С.Бодрунова, К.Р.Нигматуллина, А.Литвинова, Н.Тарасов, магистранты).4. Участие в конференциях (не менее трех человеко-участий).
Декабрь:
1. Создание отчета за финансовый период.

В течение всего периода:
1. Участие рабочей группы в зарубежных исследовательских проектах, разработка иной тематики в рамках медиаисследований и изучения публичной сферы.
2. Написание академических статей и научно-популярной статьи.
3. Участие в международных и российских конференциях по тематике проекта.
Short titleGZ-2023
AcronymM1_2021 - 3
StatusFinished
Effective start/end date1/01/2331/12/23

ID: 94033584