Выявление пропагандистских текстов в корпусе новостных публикаций

Выявление пропагандистских текстов в корпусе новостных публикаций

Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование

Кафедра связей с общественностью в политике и государственном управлении

Равиль Ильгизович Мухамедиев
Ольга Георгиевна Филатова
Кирилл Олегович Якунин

В статье продемонстрированы возможности использования тематического моделирования (topic modeling) для идентификации пропаганды в СМИ. В современных условиях усиливающегося информационного противостояния между странами пропаганда и контрпропаганда выходят на первый план, так как государствам необходимо оградить своих граждан от различных информационных угроз, обеспечить их безопасность, что является обязательным условием для дальнейшего развития государства. А для этого, прежде всего, необходимы исследовательские проекты, тестирующие методы выявления пропаганды. Один из таких проектов, ориентированный на применение систем искусственного интеллекта в различных прикладных областях исследований на стыке машинного обучения, обработки естественного языка и изучения социума, представлен в статье. Описанный подход для выявления столь семантически нечеткого явления, как пропаганда, предлагается впервые. Предлагаемый метод включает четыре основных этапа: формирование разделов корпуса, расчет тематической модели единого корпуса, расчет оценок дисбаланса корпусов по каждой теме; экстраполяция результатов оценки дисбаланса на все документы. Метод прошел перекрестную проверку на помеченной экспертом подвыборке из 1 тыс. новостей и показал достаточно высокий результат классификации. Оценка гармонической меры (F1-Score) от 0.72 до 0.94 в зависимости от выбранного порога.

Переведенное название	Identification of Propaganda Documents in the News Text Corpоra
Язык оригинала	русский
Страницы (с-по)	55-63
Журнал	International Journal of Open Information Technologies
Том	9
Номер выпуска	4
Состояние	Опубликовано - 2021

Области исследований

тематическое моделирование, АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ТЕКСТОВ, АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ, СМИ, пропаганда

ID: 75554243

Pure – это продукт компании Elsevier
На данном информационном ресурсе могут быть опубликованы архивные материалы
с упоминанием физических и юридических лиц, включенных Министерством юстиции
Российской Федерации в реестр иностранных агентов

Вход в Pure