Научная проблема, на решение которой направлен проект.
Стремительное развитие и совершенствование информационно-коммуникационных технологий дало новый импульс развитию гуманитарных исследований, направленных на разработку новых подходов и методологий, используемых при решении фундаментальных проблем. В этом отношении наибольшую эффективность демонстрируют междисциплинарные исследования, одним из примеров которых является диахронический сентимент-анализ религиозного дискурса на арабском языке.
Проект направлен на определение тональности разнохарактерных текстов, касающихся религии и межрелигиозного взаимодействия. Сентимент-анализ текста Корана, средневековой арабской литературы и контента современных социальных сетей, используемых для проведения исследования, требует разработки и апробации решений, предполагающих в том числе и поиск оптимальных методов обработки данных на арабском языке с учетом специфики его формализации.
Проект предполагает решение задач, свойственных компьютерной лингвистике, арабистике, литературоведению, корановедению, медиалингвистике, историческим и математическим наукам.
Научная значимость и актуальность решения обозначенной проблемы. Обработка естественного языка (Natural Language Processing) является одним из направлений искусственного интеллекта, необходимость развития которого в Российской Федерации определяется задачами «Национальной стратегии развития искусственного интеллекта на период до 2030 года».
Сентимент-анализ активно применяется в области обработки естественного языка и интеллектуального анализа данных. Данная технология широко востребована в бизнесе и политической деятельности, когда необходимо получить информацию об общественном мнении по поводу происходящих в обществе событий, различных товаров и услуг.
Использование методов сентимент-анализа для процессинга для обработки документов на арабском языке позволит решить ряд актуальных научных задач. В области лингвистики качественное и количественное исследование тональной лексики с учетом частеречной принадлежности и построение спектра контекстуальных значений позволяет пересмотреть ряд установленных положений, касающихся лексической и грамматической структуры языка. Кроме того, разработка методологии проведения сентимент-анализа для арабского языка требует разработки нестандартных решений, отличных от тех, которые используются для языков, основанных на латинице и кириллице. Разветвленная парадигма словообразования и словоизменения, присущая арабскому языку, также должна быть принята во внимание при проведении анализа тональности, одним из компонентов которого является использование морфологических анализаторов для обработки большого массива данных.
Язык, будучи “домом бытия” (М. Хайдеггер) во многом отражает и конструирует внеязыковые реалии, в том числе относящиеся к духовной сфере. Религия играла и продолжает играть важную роль в культурной, социальной и политической жизни Ближнего Востока в целом и арабских стран в частности. При этом отношение к ней, как реальное, так и декларируемое, является важным маркером идентичности и культурной принадлежности индивида. В этой связи выбор тематического направления рассматриваемых текстов демонстрирует свою актуальность.
Мусульманское мировоззрение, в рамках которого религия занимает центральное место, во многом сформировалось под влиянием коранической картины мира. Более того, именно кораническая лексика лежит в основе терминологического аппарата, используемого в дискурсах, касающихся описания религии, ее места в жизни общества и межрелигиозных взаимодействий в рамках арабо-мусульманской культуры. Это определяет важность обращения к тексту Корана и исследованию эмотивной окрашенности связанных с религией коранических концептов, что послужит отправной точкой при эмотивном анализе текстов, относящихся к более поздним эпохам.
В средневековой арабской словесности топос религии играл не меньшую роль, а одним из важнейших аспектов его эволюции стал новый этап развития арабоязычного дискурса межконфессиональных отношений, развитие которого связано в первую очередь с реактуализацией образа христиан и христианства в арабской культуре под влиянием событий Крестовых походов и Реконкисты, а также актуализации идей джихада. Анализ эмотивности высказываний, характеризующих христиан и христианство в арабской словесности Средних веков и Нового времени, может послужить инструментом, который позволит изучить лингвистические факторы современного восприятия России и Западной Европы носителями арабского языка, традиционно относимых арабами к христианской цивилизации.
На современном этапе развития арабского языка, в эпоху глобализации и царящего в арабских странах кризиса идентичностей особенно актуально изучение религиозного дискурса и эмотивных средств формирования образа "другого" в арабоязычном языковом пространстве. Особенно важным становится изучение языкового аспекта секуляризационных процессов, рост которых наблюдается в современном арабском мире (https://www.arabbarometer.org/2019/12/arabs-are-losing-faith-in-religious-parties-and-leaders/). Эти процессы, потенциально ведущие к существенному изменению социокультурного и политического ландшафта Ближнего Востока, находят прямое отражение в языке. Именно в силу этого изучение дискурсов, при помощи которых конструируется и декларируется отношение к религии, является важным инструментом, способным пролить свет на социокультурные особенности развития обществ арабских стран на современном этапе.
Конкретная задача (задачи) в рамках проблемы, на решение которой направлен проект, ее масштаб и комплексность.
Целью проекта является выявление эмоций, выражаемых в текстах различных жанров, по отношению к религии, понимаемой в качестве культурно-социального концепта. Изучение эмоциональной окраски текста будет включать в себя разработку методов сентимент-анализа для арабоязычного материала, основываясь на обработке текстов на классическом и современном арабском языке, а также контенте социальных медиаресурсов.
В ходе исследования предполагается решение следующих задач:
1. Анализ новейшей научной литературы, касающейся применения методов сентимент-анализа арабского текста и вопросов формализации арабского языка.
2. Разработка методов определения тональности текстов на арабском языке с учетом их вариативности.
3. Изучение тональности текста Корана.
4. Изучение эмотивности образа христиан и христианства в арабской словесности Средних веков и Нового времени.
5. Эмотивный анализ посвященного религии дискурса социальных СМИ.
6. Определение лингвистических паттернов, присущих арабскому языку, которые необходимо учитывать при проведении сентимент-анализа.
Научная новизна исследований, обоснование достижимости решения поставленной задачи (задач) и возможности получения предполагаемых результатов. Научная новизна исследования определяется прежде всего его междисциплинарным характером и, как следствие, используемыми методами. Так, анализ текстов на арабском языке строится не на нормирующих грамматиках и теоретических принципах описания языковой системы, а на результатах анализа большого объема данных и выделения на его основе наиболее частотных кластеров с целью последующей дефиниции входящих в их состав лингвистических единиц и принципов их взаимодействия в конкретном текстовом сегменте. При этом предполагается разработка комплекса решений для сентимент-анализа текстов, отличающихся по объему, времени их создания, стилистике. С точки зрения религиоведения, культурологии и исламоведения результаты определения тональности выбранных текстов позволят ввести в научный оборот новые факты, характеризующие такого рода дискурс, что имеет значительное теоретическое и практическое значение.
Религиозная терминология Корана, а также язык описания религиозных общин уже находились в фокусе изучения востоковедов-историков и религиоведов. Тем не менее, лингвистическая сторона религиозного дискурса Корана изучена гораздо слабее. Несмотря на наличие работ, посвященные ключевым концептам Корана, а также происхождению коранической лексики, эмотивный анализ соответствующих лексем; они, как и дискурс межрелигиозного взаимодействия не становились объектом исследования с применением цифровых технологий.
Современное состояние исследований по данной проблеме, основные направления исследований в мировой науке и научные конкуренты. Сегодня в научном сообществе активно обсуждаются вопросы «строгости» при проведении междисциплинарных проектов, проводятся дискуссии относительно того, как влияет результат такого рода проектов на развитие каждой научной специализации (Rigor and Inter-Disciplinary Communication (Collaborative Multi-Author Article) http://www.iiisci.org/journal/CV$/sci/pdfs/IP086LL20.pdf), что подчеркивает актуальность рассматриваемых в проекте вопросов.
Несмотря на очевидную эффективность проведения исследований на междисциплинарном уровне, они все еще недостаточно распространены в арабистике и исламоведении в силу преимущественного использования классических методов гуманитарных наук. При этом существует тенденция, действующая в обратном направлении: рост интернет-контента на арабском языке подталкивает представителей математических наук к разработке решений для его процессинга, что распространяется и на совершенствование технологий сентимент-анализа, созданных первоначально для материала западных языков.
Обзор основных работ, посвященных анализу настроений на арабском языке, представлен в статье Boudad N et al. «Sentiment analysis in Arabic: A review of the literature». Ain Shams Eng J, 2017, http://dx.doi.org/ 10.1016/j.asej.2017.04.007. Семантический подход к выявлению отношения пользователей и бизнес-идей из социальных сетей на арабском литературном языке и диалектах рассматривается в исследовании «Tartir S., Abdul-Nabi I. Semantic Analysis in Arabic Social Media, Journal of King Saud University – Computer and Information Sciences, Vol. 29, Issue 2, 2017, pp.229-233», в котором также была представлена первая версия арабской онтологии настроений, которая содержит различные слова, выражающие чувства и насколько сильно эти слова выражают эти чувства. Исследование основывалось на материалах Twitter различной тематики, которые были разделены на положительные, отрицательные и нейтральные.
Большинство методов сентимент-анализа контента на арабском языке основывается на признаковом описании текста, требующего ручной предобработки для достижения достаточной точности алгоритма классификации. В статье A. Mourad and K. Darwish, “Subjectivity and Sentiment Analysis of Modern Standard Arabic and Arabic Microblogs,” (in Proceedings of the 4th workshop on computational approaches to subjectivity, sentiment and social media analysis, 2013, pp. 55–64) основной вклад в улучшение результата классификации вносят разметка по частям речи (POS tagging) и стемминг слов (word stemming). Необходимым условием для работы систем классификации в статьях M. Abdul-Mageed, S. Ku ̈bler, and M. Diab, “SAMAR: a system for subjectivity and sentiment analysis of Arabic social media,” in WASSA ’12: Proceedings of the 3rd Workshop in Computational Approaches to Subjectivity and Sentiment Analysis, Columbia University. Association for Computa- tional Linguistics, Jul. 2012., N. A. Abdulla, N. A. Ahmed, M. A. Shehab, and M. Al- Ayyoub, “Arabic sentiment analysis: Lexicon-based and corpus-based,” in Applied Electrical Engineering and Com- puting Technologies (AEECT), 2013 IEEE Jordan Conference on, Dec 2013, pp. 1–6. является наличие так называемого тонального словаря (polarity lexicon), состоящего из пар слово - его тональная оценка (позитив, негатив, нейтраль). В M. Abdul-Mageed and M. T. Diab, “Awatif: A multi-genre corpus for modern standard arabic subjectivity and sentiment analysis.” in LREC, 2012, pp. 3907–3914. представлен корпус текстов на арабском языке, различных жанров, с размеченными словами из тонального словаря. В S. R. El-Beltagy and A. Ali, “Open issues in the sentiment analysis of Arabic social media: A case study,” in 2013 9th International Conference on Innovations in Information Technology (IIT). IEEE, 2013, pp. 215–220. разработали тональный лексикон из более чем 4000 слов. Альтернативным подходом к построению признаков является использование нейросетевых векторных представлений слов. Существуют несколько моделей построения векторных представлений, из которых самым распространенными являются word2vec (T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient Es- timation of Word Representations in Vector Space,” arXiv.org, Jan. 2013., T.Mikolov,I.Sutskever,K.C.0010,G.Corrado,and J.Dean, “Distributed Representations of Words and Phrases and their Compositionality.” AAAI Spring Symposium AI Technologies for Homeland Security 200591-98, vol. cs.CL, pp. 3111– 3119, 2013.), GloVe (J. Pennington, R. Socher, and C. D. Manning, “GloVe: Global Vectors for Word Representation.” EMNLP, pp. 1532–1543, 2014.) и dependency-based представления (O. Levy and Y. Goldberg, “Dependency-Based Word Embeddings.” ACL, pp. 302–308, 2014). В работе A. Altowayan and L. Tao "Word Embeddings for Arabic Sentiment Analysis", IEEE BigData 2016 Workshop представлен корпус арабского языка, собранный из различных источников (арабские издания международных новостных сетей BBC и CNN, тексты местных арабских газет, полный текст Корана, тексты отзывов покупателей), общим объемом 190 млн слов, на котором были обучены векторные представления слов на арабском языке. Полученные представления выложены в открытый доступ https://github.com/iamaziz/ar-embeddings.
Что касается вопросов анализа тональности рассматриваемых в работе текстов, то среди немногих опубликованных работ, касающихся эмотивности текста Корана, следует отметить исследование К. Бауэра «Эмоции в Коране. Обзор», который отмечает, что «несмотря на значительный рост интереса к кораническим штудиям, редко в них речь заходит об эмоциях. Хотя некоторые авторы и комментируют эмоциональную силу текста, а статьи в «Энциклопедии Корана» рассматривают такие эмоции, как «любовь», «страх», «радость» и «несчастье» ... никто не проводил исследования эмоций как таковых» (K. Bauer Emotion in the Qur’an: An Overview // Journal of Qur'anic Studies 19.2 (2017), 1-31). Проведенный мониторинг имеющейся научной литературы, в которой рассматриваются особенности языка Корана, подтверждает, что при описании эмоциональной характеристики текста речь, как правило, идет о семантике конкретных лексем и их корней, вопросах риторики. Вместе с тем, грамматическому анализу тональности уделяется минимальное внимание. Приведем пример, связанный с периодизацией коранических сур, которые традиционно делятся на мекканские и мединские. Большинство отличающихся друг от друга классификаций основывается на критериях, связанных в первую очередь с культурно-историческим контекстом ниспослания текста Корана, его отдельных откровений или же письменной записи всего текста в целом. Вместе с тем анализ «грамматики эмоций» позволил бы пролить свет на рассматриваемый вопрос.
Несмотря на важность изучения образа христиан и христианства в арабском дискурсе Средних веков и Нового времени, имеющиеся исследования этого вопроса немногочисленны и посвящены в первую очередь военному противостоянию, а также социально-экономическому и культурному взаимодействию арабов с Византией (Nadia El Cheikh. Byzantium Viewed by the Arabs. Cambridge, 2004) и Западной Европой (Nabil Matar. Europe Through Arab Eyes, 1578–1727. New York, 2009). Данные исследования используют методологию исторических дисциплин, не рассматривая эмотивные средства создания образа христианства в арабском дискурсе, изучение которых позволит осуществить деконструкция лингвистических аспектов современного взаимовосприятия арабского мира и стран, традиционно воспринимаемых арабами как христианские, в том числе, России и европейских государств.
Как уже было отмечено выше, в мировой практике уже накоплен определенный опыт проведения сентимент-анализа контента арабских социальных сетей, однако в рамках данного проекта новизна будет проявляться в специфике применяемого метода, который будет отличаться от сентимент-анализа Корана и средневековой литературы.
Предлагаемые методы и подходы, общий план работы на весь срок выполнения проекта. Основная методология проекта будет иметь междисциплинарный характер, где будут интегрально представлены лингвистические и историко-филологические методы, а также методы математических наук.
Исследование основано на анализе материалов на арабском языке - тексте Корана, образцах средневековой арабской литературы, современных социальных СМИ.
В качестве источников будут использованы одни из наиболее значимых произведений ключевых жанров средневековой арабской словесности. Из историко-биографический сочинений будет рассмотрено «an-Nawadir al-sultaniya wa al-mahasin al-yusufiya» («Редкие сведения о Султане и благие качества Йусуфа», конец XII в.) Ибн Шаддада (1145-1234), личного секретаря Салах ад-Дина, содержащее ценные сведения по взаимовосприятию христиан и мусульман в эпоху Крестовых походов. В качестве примера произведения жанра «путешествие» (rihla) будет рассмотрено сочинение «Tuhfat al-nuzzar fī gara’ib al-amsar» («Подарок созерцающим о диковинках городов и чудесах странствий», 1355) знаменитого путешественника Ибн Баттуты (1304-1377), являющееся важнейшим историко-географическим источником и содержащее многочисленные свидетельства, касающиеся восприятия христиан и христианства, а также событий Реконкисты представителями средневекового арабского общества. Из произведений жанра «арабский народный роман» (sira) будет проанализировано сочинение «Sirat zat al-himma» («Жизнеописание Зат ал-Химмы», время сложения X-XV вв., письменно зафиксировано в XVI в.), складывавшееся на протяжении пяти веков и содержащее слои, относящиеся к периодам арабо-византийского противостояния, Крестовых походов и Реконкисты, что делает данное произведение ценным источником по эволюции восприятия христиан в арабо-мусульманской культуре.
Автоматическая обработка текстов позволяет изучать объем материала, анализ которого вручную невозможен, а также получать статистическую информацию по всему корпусу текстов. Одним из ключевых этапов всех алгоритмов автоматического анализа текстов является предобработка текстового документа, состоящая из токенизации, фильтрации, лемматизации и/или стемминга. Токенизация - это разбиение последовательности символов на части (слова/фразы/слоги), называемые токенами, может включать в себя удаление определенных символов, например, знаков пунктуации, гиперссылок, номеров страниц. Фильтрация заключается в удалении некоторых слов из текста. Распространенный вид фильтрации - удаление стоп-слов. Под стоп-словами понимаются такие слова, которые часто встречаются в тексте и не несут содержательной информации (предлоги, союзы и т.п.) Лемматизация включает в себя морфологический анализ слов, при котором различные формы слова группируются для того, чтобы их можно было обрабатывать как один объект. При лемматизации текстов для каждого слова необходимо определить часть речи. Так как автоматическое определение части речи очень сложный процесс, подверженный ошибкам, на практике чаще пользуются методами стемминга. Стемминг - процесс нахождения основы слова, которая не обязательно совпадает с его морфологическим корнем. Для арабского языка существует несколько морфологических анализаторов в открытом доступе (пакет библиотек Natural Language Toolkit, nltk.org, https://github.com/Qutuf/Qutuf).
Анализ тональности может проводиться на уровне документа, предложения, фразы. Можно выделить два основных подхода к автоматическому анализу тональности текстов: на основе словарей и правил и на основе машинного обучения. Методы машинного обучения в свою очередь разделяются на методы обучения с учителем и обучения без учителя. Метод машинного обучения с учителем “обучается” на коллекции размеченных текстов, затем оценивается близость анализируемого текста к некоторому классу. Для разных задач будут использованы разные алгоритмы классификации, признакового описания текста.
Для каждого текстового источника будет произведен этап предобработки текста, который в дальнейшем позволит провести эксперименты с разными признаковыми описаниями текста (bag of words, tf-idf, векторное представление word2vec, fastText) и алгоритмами классификации (naive bayes, SVM, random forest, logistic regression). В задаче изучения эмотивности текста Корана предлагается проводить анализ тональности на уровне слов и предложений, а также собрать статистику встречаемости частей речи. В задаче эмотивного анализа посвященного религии дискурса современных СМИ, предлагается рассматривать каждую запись в твиттере как отдельный документ и производить классификацию твитов на три класса (позитив, негатив, нейтраль).
Результаты автоматической обработки данных будут сопровождаться корпусными исследованиями. Квантитативный анализ и уточнение семантических особенностей конкретных морфологических форм должны быть соотнесены с лингвистическим контекстом использования этих форм. Частотный анализ позволит определить специфику реализации в Коране тех или иных корневых структур, словоизменительных и словообразовательных моделей в сопоставлении с современным арабским литературным языком. Контекстуальный анализ тональности коранических стихов может опираться и на частотность и характер грамматических конструкции, словоформ и словообразований.
Будут применяться и разработанные ранее методы формализации арабского языка.
Общий план работы по годам
2022
1. Анализ новейшей научной литературы, касающейся применения методов сентимент-анализа арабского текста и вопросов формализации арабского языка.
2. Разработка методов автоматической обработки текстов на арабском языке. Настройка алгоритма классификации для проведения сентимент-анализа.
3. Обработка текстов для проведения сентимент-анализа.
4. Анализ тональности текста Корана.
4.1. Анализ эмотивных концептов в тексте Корана.
4.2. Анализ грамматических средств передачи эмоций в тексте Корана.
4.3. Изучение периодизации сур в контексте эмотивности текста Корана.
5. Модернизация рабочей программ дисциплины «Арабский язык и информационные технологии».
Ожидаемые результаты:
1. Проанализирована новейшая научная литература, касающаяся применения методов сентимент-анализа арабского текста и вопросов формализации арабского языка. Результаты учтены при реализации задач проекта.
2. Разработан метод автоматической обработки текстов на арабском языке. Настроен алгоритм классификации для проведения сентимент-анализа.
3. Обработаны тексты для проведения сентимент-анализа.
4. Проанализирована тональность текста Корана. Изучены грамматические средства передачи эмоций.
5. Рассмотрен вопрос о периодизации коранических сур на основе проведения сентимент-анализа текста.
6. Модернизирована рабочая программа дисциплины «Арабский язык и информационные технологии».
7. Подготовлены к публикации научные статьи по теме проекта (не менее 3, в том числе 2 для публикации в изданиях Web of Science, SCOPUS).
8. Представлены доклады (не менее 4) по теме проекта в ходе международных и всероссийских конференций.
2023
1. Изучение эмотивности образа христиан и христианства в арабской словесности Средних веков и Нового времени.
1.1. Синхронический и диахрончиеский анализ эмотивности контекстов упоминания христиан и христианства в произведениях арабской словесности из различных регионов мусульманского мира
1.2. Изучение корреляции изменений в эмотивности изображения христиан и христианства в памятниках арабской словесности с историческим контекстом
2. Эмотивный анализ посвященного религии дискурса социальных СМИ.
2.1 Изучение эмотивности употребления религиозной лексики (религиозных терминов, наименований различных конфессий и их последователей, понятий, связанных с концептами секуляризации и атеизма)
3. Определение лингвистических паттернов, присущих арабскому языку, которые необходимо учитывать при проведении сентимент-анализа.
4. Модернизация рабочей программы дисциплины «Инновационные технологии в арабистике и исламоведении».
5. Подготовлены к публикации научные статьи по теме проекта (не менее 3, в том числе 2 для публикации в изданиях Web of Science, SCOPUS).
6. Представлены доклады (не менее 4) по теме проекта в ходе международных и всероссийских конференций.