Искусственный интеллект и наука о данных: теория, технология, отраслевые и междисциплинарные исследования и приложения: 2021 г. этап 1

Tulupev, Aleksandr (PI)
Abramov, Maksim (CoI)
Korepanova, Anastasiia (CoI)
Bushmelev, Fedor (CoI)
Oliseenko, Valerii (CoI)
Toropova, Aleksandra (CoI)
Kosovskaia, Tatiana (CoI)
Ловягин, Юрий Никитич (CoI)
Loviagin, Nikita (CoI)
Granichin, Oleg (CoI)
Амелин, Константин Сергеевич (CoI)
Ivanskii, Iurii (CoI)
Pantserev, Konstantin (CoI)
Tsvetkova, Natalia (CoI)
Nikolenko, Sergei (CoI)
Золотарев, Валерий Иванович (CoI)
Пинчук, Николай Григорьевич (CoI)
Богданов, Станислав Александрович (CoI)
Лазарев, Сергей Викторович (CoI)
Хмель, Дмитрий Сергеевич (CoI)
Утешев, Николай Алексеевич (CoI)
Баранов, Александр Валентинович (CoI)
Гайдучок, Владимир Юрьевич (CoI)
Сергеев, Алексей Владимирович (CoI)
Кузнецов, Никита Алексеевич (CoI)
Аксарин, Константин Михайлович (CoI)
Суханов, Игорь Игоревич (CoI)
Григорьев, Яков Георгиевич (CoI)
Коваленко, Алексей Валерьевич (CoI)
Зубач, Наталья Владимировна (CoI)
Мазур, Юлия Александровна (CoI)
Зароченцева, Ольга Дмитриевна (CoI)
Иванов, Артем Филиппович (CoI)
Какичев, Вадим Эдуардович (CoI)
Андреев, Алексей Сергеевич (CoI)

Description

Цель научно-исследовательской работы делится на девять подцелей по трем этапам реализации. Подцели, достигаемые на первом этапе научно-исследовательской работы (2021 год), заключаются в:
1) построении и развитию подходов, теоретических и технологических основ для междисциплинарных проблем, связанных со сбором, обработкой и анализом данных, в том числе данных с неопределенностью, для прогнозирования исходов социальных действий, протекания заболеваний, образовательных успехах и т.п.;
2) развитии и адаптации технологий искусственного интеллекта в приложении к задачам обеспечения национальной и международной безопасности с целью минимизации угроз дестабилизации социумов посредством новейших технологий информационно-психологического противоборства;
3) разработке подходов и алгоритмов решения задач ИИ, использующих дискретную структурированную информацию. Оценки вычислительной сложности алгоритмов;
4) разработке теоретических основ технологии для платформы реализации автономного принятия решений при управлении сети робототехнических комплексов с задержками и помехами при обмене информацией;
5) создании комплекса компьютерных моделей и методов для извлечения информации о сущностях и отношениях между ними из текстов, в том числе текстов медицинской тематики, извлечения семантических отношений между сущностями; будут рассматриваться отношения между парами медицинских сущностей (например, между лекарством и заболеванием, заболеванием и степенью тяжести, лекарством и побочным эффектом)

Layman's description

Целью данной работы является развитие теоретических основ и практических подходов к применению искусственного интеллекта в различных прикладных междисциплинарных задачах. Для достижения этой глобальной цели исследование проводилось по нескольким направлениям.

Одно из них заключается в развитии методов и подходов для анализа явлений на основе данных с неопределённостью, то есть данных с пропусками или данных, которые невозможно однозначно перевести с естественного языка на формальный. Такие задачи возникают, например, при анализе социальных действий, например, при оценке уязвимостей пользователей к социоинженерным воздействиям.

Сегодня наблюдается быстрый рост возможностей искусственного интеллекта (ИИ). Однако внедрение технологий ИИ в повседневную жизнь людей повышает риск злонамеренного использования таких технологий, которые в руках злоумышленников могут оказаться мощным оружием, которое представляет серьезную угрозу для безопасности любого государства. В результате, возникла необходимость в проведении исследования, направленного на изучении способов злонамеренного использования технологий ИИ и оценке их роли в современном информационно-психологическом противоборстве.

В контексте разработки фундаментальных основ искусственного интеллекта ставилась задача развития методов работы с данными различной природы, а именно задача разработки алгоритма объединения информации об объекте, полученной от различных источников, в которых одни и те же части объекта могут иметь разные обозначения; разработки модель искусственной нейронной сети, в значительной степени более адекватная нейронам в мозгу живого организма, чем существующие аналоги. Изучение возможности использования в реальных вычислениях бесконечно больших натуральных чисел для уменьшения времени решения задач искусственного интеллекта с числовыми вычислениями.

Для организации беспроводной связи роботов (например, колесных роботов или беспилотных летательных аппаратов) ставится задача передачи информации между роботами в условиях постоянного движения, неустойчивого сигнала, отсутствием общей сети или точки доступа, помехах и задержек в получаемой информации. За счет применения мультиагентных технологии, методов разбивки роботов на группы и алгоритмов со случайной составляющей меняется принцип передачи данных в группе. Точная адресация доставки данных в группе меняется на обновление знания одного робота о состоянии всей системы в целом.

Извлечение отношений — задача автоматического анализа текстов, которая превращает тексты на естественном языке в формализованные факты: например, из "А. С. Пушкин родился в 1799 году в Москве" можно выделить два отношения: [Пушкин]—[родился_место]—[Москва] и [Пушкин]—[родился_год]—[1799]. Это особенно важно в биомедицине, где часто нужно агрегировать факты из большого числа текстов (например, побочные эффекты лекарства). Необходимо разработать новые модели для извлечения отношений, которые хорошо работают в кросс-доменном контексте, то есть лучше переносятся с одной тематики на другую.

Key findings for the stage (in detail)

Представлен PC-алгоритм обучения вторичной структуры алгебраической байесовской сети и алгоритм нахождение канонического представителя фрагмента знаний методом Монте-Карло в алгебраической байесовской сети. Данные результаты позволяют приблизится к созданию системы на основе машинного обучения для работы с алгебраическими байесовскими сетями. Разработаны методы сопоставления аккаунтов пользователей в социальных сетях «ВКонтакте», «Одноклассники» на основе изображений, которые публикует пользователь. Это необходимо для выявления аккаунтов принадлежащих одному и тому же пользователю в различных социальных сетях для создания наиболее полного цифрового двойника пользователя. Кроме того был предложен комбинированный метод для восстановления возраста цифрового двойника пользователя социальной сети. Была протестирована регрессия Кокса в задаче оценки параметров рискообразующего поведения индивида по данным о нескольких последних эпизодах на примере постинга пользователей социальных сетей. Разработаны подходы к моделированию сценариев развития многоходовых социоинженерных атак.
Выполнена систематизация рисков злонамеренного использования технологий искусственного интеллекта. Разработаны рекомендации по нивелированию угроз, исходящих от технологий искусственного интеллекта. Разработан учебный план образовательной программы магистратуры «Искусственный интеллект и международная безопасность». Полученные результаты могут быть использованы при разработки новой Стратегии развития искусственного интеллекта в России и обновленной Доктрины информационной безопасности, а также в работе органов государственной власти, ответственных за дальнейшую цифровизацию российской экономики.
Определена методология применения аналитики больших данных в изучении международных отношений и апробированы способы анализа данных такие как: анализ хэштега (hashtag tracking), сетевой анализ (network analysis), сентимент-анализ (sentiment analysis). Апробирован машинный способ для изучения цифровой дипломатии и дипломатии данных: были получены все твиты (посты), содержащие хештег с определенным термином с веб-страницы расширенного поиска «Твиттер» (Twitter Advanced Search). Разработаны рекомендации органам государственной власти по разработке эффективных мер, направленных на нейтрализацию угроз, исходящих от современных информационных технологий, функционирующих на основе искусственного интеллекта.
Разработаны алгоритмы построения информационной онтологии для сложных структурированных объектов, доказаны оценки вычислительной сложности этих алгоритмов; предложенная аксиоматика для бесконечно больших натуральных чисел позволяет использовать алгоритмы с потенциально бесконечным числом шагов и моделировать вычисления с вещественными числами с помощью гиперцелых, что уменьшает их вычислительную сложность.
Разработан алгоритм группового управления роботов без выделения единого центра и ограничений в знаниях об окружающей среде с применением теории эмерджентного интеллекта. Предложен метод пересылки служебных данных в группе вычислительных узлов в условиях отсутствия видимости единого центра и возможности синхронизации. Предложена система тестирования методов позиционирования робототехнических комплексов в среде без глобальной системы позиционирования. Предложена методика формирования поправок в курс движения БПЛА, который движется в трехмерном пространстве, и на него действует неизвестное по параметрам возмущение (ветровая нагрузка), а данные о местоположении приходят с задержками и помехами. Проведен анализ аппаратных решений и предложено свое решение реализации передачи данных в сети вычислительных узлов с переменной топологией и отсутствием возможности постоянной синхронизации данных между всеми узлами сети. Предложен алгоритм масштабируемой системы управления группой робототехнических комплексов от уровня управления единичным объектом до управления отдельными кластерами с применением методов кластеризации. Предложен алгоритм управления БПЛА типа квадрокоптер с использованием подхода децентрализованного группового управления внутренними управляющими его блоками. Для повышения производительности мобильных устройств с операционной системой Андроид предложен алгоритм динамического управления энергопотреблением вычислительных блоков. Для снижения нагрузки на элементы крыла самолета предложен алгоритм управления многими подвижными элементами крыла. Для решения задач по нахождению разреженных решений уравнений предложен и обоснован новый способ построения решений с фрактальным регулятором.
Разработана новая методика кросс-доменной оценки моделей извлечения отношений из текста и их классификации. Проведены эксперименты на современных моделях и наборах данных для извлечения и классификации отношений из текста. Представлена новая модель, улучшающая результаты ведущей модели BioBERT при кросс-доменной оценке.
Теоретическая значимость научно-исследовательской работы заключается в создании теоретико-практической базы для развития технологий искусственного интеллекта, науки о данных, машинного обучения в ряде ключевых областей науки и производства для успешного перехода к передовым цифровым, интеллектуальным производственным технологиям, роботизированным системам, новым материалам и способам конструирования, создание систем обработки больших объемов данных. Отдельным теоретическими результатами научно-исследовательской работы является: предложение новых алгоритмов построения алгебраической байесовской сети; разработка моделей, методов и алгоритмов анализа социальных сетей и оценки критичности распространения многоходовых социоинженерных атак; теоретическое обоснование как методов построения информационных онтологий, так и методов работы с числовыми данными произвольной длины; изучение рисков злонамеренного использования технологий искусственного интеллекта и научном обосновании необходимости трансформации всей системы медиаобразования; получение новых методов и протоколов для обмена данными в сети узлов с исключением централизации на всех рассматриваемых уровнях. Эти методы позволяют реализовать технологии эмерджентного интеллекта, самоорганизующейся системы, которая достигает решения как «конкурентного равновесия», что достигается параллельной и асинхронной работой сотен и тысяч агентов по выявлению и разрешению конфликтов агентами с взаимными уступками на общем виртуальном рынке системы.
Практическая значимость исследования заключается в возможности применения полученных результатов в различных областях науки и технологий, например, в областях связанных с обработкой знаний с неопределенностью. Результаты, связанные с анализом социальных сетей, имеют широкий спектр приложения, например, информационная безопасность, таргетированная реклама, банковский скоринг.
Теоретические результаты могут применены при практическом построении информационных систем для структурированных объектов, а также использовании бесконечно больших натуральных чисел для моделирования вычислений с вещественными числами, что существенно уменьшает их вычислительную сложность и повышает точность вычислений, что соответствует одному из приоритетных направлений Стратегии научно-технологического развития Российской Федерации, а именно переходу к передовым цифровым, интеллектуальным, производственным технологиям, роботизированным системам, новым материалам и способам конструирования, создание систем обработки больших объемов данных, машинного обучения и искусственного интеллекта.
Также результаты, связанные с изучением злонамеренного использования технологий искусственного интеллекта, могут быть использованы при разработке новой Стратегии развития искусственного интеллекта в России и обновленной Доктрины информационной безопасности, а также в работе органов государственной власти, ответственных за дальнейшую цифровизацию российской экономики.
Практическая значимость результатов, связанных с технологиями управлением группы вычислительных ресурсов заключается в вероятной применимости при разработке новой парадигмы формирования сетей мобильных устройств. В современном мире число мобильных устройств становится все больше, и задача организации связи всех устройств становится всё более актуальной, при том что централизованные парадигмы не показывают высокую эффективность.

Key findings for the stage (summarized)

Представлен PC-алгоритм обучения вторичной структуры алгебраической байесовской сети и алгоритм нахождение канонического представителя фрагмента знаний методом Монте-Карло в алгебраической байесовской сети. Разработаны методы сопоставления аккаунтов пользователей в социальных сетях «ВКонтакте», «Одноклассники» на основе изображений, которые публикует пользователь. Предложен комбинированный метод для восстановления возраста цифрового двойника пользователя социальной сети. Протестирована регрессия Кокса в задаче оценки параметров рискообразующего поведения индивида по данным о нескольких последних эпизодах на примере постинга пользователей социальных сетей. Разработаны подходы к моделированию сценариев развития многоходовых социоинженерных атак.
Выполнена систематизация рисков злонамеренного использования технологий искусственного интеллекта. Разработаны рекомендации по нивелированию угроз, исходящих от технологий искусственного интеллекта. Полученные результаты могут быть использованы при разработки новой Стратегии развития искусственного интеллекта в России и обновленной Доктрины информационной безопасности, а также в работе органов государственной власти, ответственных за дальнейшую цифровизацию российской экономики. Разработаны рекомендации органам государственной власти по разработке эффективных мер, направленных на нейтрализацию угроз, исходящих от современных информационных технологий, функционирующих на основе искусственного интеллекта.
Разработаны алгоритмы построения информационной онтологии для сложных структурированных объектов, доказаны оценки вычислительной сложности этих алгоритмов; предложенная аксиоматика для бесконечно больших натуральных чисел позволяет использовать алгоритмы с потенциально бесконечным числом шагов и моделировать вычисления с вещественными числами с помощью гиперцелых, что уменьшает их вычислительную сложность.
Разработан алгоритм группового управления роботов без выделения единого центра и ограничений в знаниях об окружающей среде с применением теории эмерджентного интеллекта. Предложен метод пересылки служебных данных в группе вычислительных узлов в условиях отсутствия видимости единого центра и возможности синхронизации. Предложена система тестирования методов позиционирования робототехнических комплексов в среде без глобальной системы позиционирования. Предложена новая методология кросс-доменной оценки моделей извлечения отношений из текста и их классификации, экспериментальное сравнение современных моделей, новая модель, улучшающая результаты ведущей модели BioBERT при кросс-доменной оценке.
Все полученные результаты соответствуют стратегии Научно-Технологического развития РФ, а именно пункту «Переход к передовымцифровым, интеллектуальным производственным технологиям, роботизированным системам, новым материалам и способам конструирования, создание систем обработки больших объемов данных, машинного обучения и искусственного интеллекта».

Academic ownership of participants (text description)

Тулупьев Александр Львович — руководство грантом, проведение исследований, написание статей и отчёта; да
Абрамов Максим Викторович — проведение исследований, руководство исследовательской группой, написание статей и отчёта; да
Аксарин Константин Михайлович
Амелин Константин Сергеевич — проведение исследований, написание статей; да
Андреев Алексей Сергеевич
Баранов Александр Валентинович
Богданов Станислав Александрович
Бушмелев Фёдор Витальевич — написание отчёта; да
Гайдучок Владимир Юрьевич
Граничин Олег Николаевич — проведение исследований, написание статей; да
Григорьев Яков Георгиевич
Зароченцева Ольга Дмитриевна
Золотарев Валерий Иванович
Зубач Наталья Владимировна
Иванов Артем Филиппович
Иванский Юрий Владимирович — участие в экспериментах; да
Какичев Вадим Эдуардович
Коваленко Алексей Валерьевич
Корепанова Анастасия Андреевна — проведение исследований, написание статей и отчёта; да
Косовская Татьяна Матвеевна —проведение исследований, написание статей; да
Кузнецов Никита Алексеевич
Лазарев Сергей Викторович
Ловягин Никита Юрьевич — проведение исследований, написание статей; да
Ловягин Юрий Никитич — проведение исследований, написание статей; да
Мазур Юлия Александровна
Николенко Сергей Игоревич — проведение исследований, написание статей; да
Олисеенко Валерий Дмитриевич — проведение исследований, написание статей и отчёта; да
Панцерев Константин Арсеньевич — общее руководство работой исследовательской группы, решение исследовательских задач; да
Пинчук Николай Григорьевич
Сергеев Алексей Владимирович
Суханов Игорь Игоревич
Торопова Александра Витальевна — проведение экспериментов; да
Утешев Николай Алексеевич
Хмель Дмитрий Сергеевич
Цветкова Наталья Александровна — проведение исследований, написание статей; да

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

не разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

не разрешается

Short title	GZ-2021
Acronym	NIR_GZ_2021 – 1
Status	Finished
Effective start/end date	1/01/21 → 31/12/21

ID: 73555262