В статье продемонстрированы возможности использования тематического моделирования (topic modeling) для идентификации пропаганды в СМИ. В современных условиях усиливающегося информационного противостояния между странами пропаганда и контрпропаганда выходят на первый план, так как государствам необходимо оградить своих граждан от различных информационных угроз, обеспечить их безопасность, что является обязательным условием для дальнейшего развития государства. А для этого, прежде всего, необходимы исследовательские проекты, тестирующие методы выявления пропаганды. Один из таких проектов, ориентированный на применение систем искусственного интеллекта в различных прикладных областях исследований на стыке машинного обучения, обработки естественного языка и изучения социума, представлен в статье. Описанный подход для выявления столь семантически нечеткого явления, как пропаганда, предлагается впервые. Предлагаемый метод включает четыре основных этапа: формирование разделов корпуса, расчет тематической модели единого корпуса, расчет оценок дисбаланса корпусов по каждой теме; экстраполяция результатов оценки дисбаланса на все документы. Метод прошел перекрестную проверку на помеченной экспертом подвыборке из 1 тыс. новостей и показал достаточно высокий результат классификации. Оценка гармонической меры (F1-Score) от 0.72 до 0.94 в зависимости от выбранного порога.
Переведенное названиеIdentification of Propaganda Documents in the News Text Corpоra
Язык оригиналарусский
Страницы (с-по)55-63
ЖурналInternational Journal of Open Information Technologies
Том9
Номер выпуска4
СостояниеОпубликовано - 2021

    Области исследований

  • тематическое моделирование, АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ТЕКСТОВ, АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ, СМИ, пропаганда

ID: 75554243