Технологии облачных и распределенных вычислений в задачах анализа больших данных и машинного обучения, в том числе в режиме реального времени: 2019 г. этап 3

  • Снопова, Светлана Михайловна (PI)
  • Бабарыкин, Константин Валентинович (CoI)
  • Dudina, Viktoriia (CoI)
  • Золотарев, Валерий Иванович (CoI)
  • Клюшников, Георгий Николаевич (CoI)
  • Kuteinikov, Aleksandr (CoI)
  • Legostaeva, Natalia (CoI)
  • Martianov, Denis (CoI)
  • Рыков, Юрий Георгиевич (CoI)
  • Savin, Sergei (CoI)
  • Degtiarev, Aleksandr (CoI)
  • Bogdanov, Aleksandr (CoI)
  • Mareev, Vladimir (CoI)
  • Shchegoleva, Nadezhda (CoI)
  • Иванов, Сергей Анатольевич (CoI)
  • Svetlov, Kirill (CoI)
  • Smirnov, Victor (CoI)
  • Storublevtcev, Nikita (CoI)
  • Станкус, Алексей Сергеевич (CoI)
  • Кузнецов, Алексей Николаевич (CoI)
  • Золотарев, Валерий Иванович (CoI)
  • Пинчук, Николай Григорьевич (CoI)
  • Андреев, Алексей Сергеевич (CoI)
  • Богданов, Станислав Александрович (CoI)
  • Лазарев, Сергей Викторович (CoI)
  • Хмель, Дмитрий Сергеевич (CoI)
  • Утешев, Николай Алексеевич (CoI)
  • Платонов, Константин Аркадьевич (CoI)
  • Радушевский, Владимир Борисович (CoI)
  • Цыганов, Дмитрий Николаевич (CoI)
  • Цыганова, Ксения Владиславовна (CoI)
  • Юдина, Дарья Игоревна (CoI)

Project

Project Details

Description

Разработка моделей и методик для управления системой обработки и хранения больших данных

Key findings for the stage (in detail)

Технологии облачных вычислений являются одним из наиболее перспективных и стремительно развивающихся направлений в современной теории коммуникаций и информатике. Использование распределённой обработки данных существенно ускоряет процесс вычислений и, как следствие, выработку управленческих решений на основе анализа большого массива сложноструктурированных данных. В условиях перехода к цифровой экономике облачные вычисления становятся драйвером роста производительности труда, что в конечном счете способствует к улучшению качества жизни населения.
Разработанные в ходе данного исследования теоретико-методологические положения, методический инструментарий, конкретные рекомендации по использованию технологий облачных вычислений, в том числе прошедшие апробацию в ресурсных центрах Санкт-Петербургского государственного университета, обладают несомненной научной новизной и практической значимостью.
В целом, научные результаты проведенных исследований, представленные в соответствующих разделах данного отчета, являются следующие:
1.В разделе 1 представлено подробное сравнение наиболее известных платформ облачных вычислений с упором на таких аспектах, как архитектура, характеристики, приложения. Из проведённого анализа пользователи могут лучше понять характеристики и надёжнее выбирать платформу облачных вычислений согласно протоколам, интерфейсам, совместимости, реализации, требованию по развёртыванию и возможностям развития и так далее.
2.В разделе 2 приведены разработки авторского коллектива в области параллельных и распределенных вычислений, относящиеся к организации виртуального вычислительного кластера, по материалам которых были защищены выпускные квалификационные работы (3 бакалавра, 2 магистра, 2 аспиранта). Разные части данного исследования были опубликованы в ведущих рецензируемых изданиях, а также в виде монографии, представлены на конференциях.
3.В разделе 3 проведен анализ данных, различных экосистем и существующих решений для хранения больших данных. Данное исследование носит масштабный характер, требует консолидации знаний экспертов во многих областях разработки (BI, Data Science, QA, DevOps и т.д.) и ученых-теоретиков, поэтому в работе сделан основной акцент на решениях для хранения больших данных, таким образом решения для их обработки или аналитики требуют более детального исследования.
4.В разделе 4 проделана классификация современных методов и концепций глубинного обучения и их реализаций для работы с неструктурированными массивами данных. Все описанные подходы были применены для решения важнейшей в настоящее время проблемы – ранняя диагностика болезней преклонного возраста. Анализ проводился на основе результатов многолетних наблюдений в Психоневрологическом институте им. В.М. Бехтерева.
5.В разделе 5 описаны методы работы с большими данными, разработанные и применяемые в ресурсном центре «Вычислительный центр СПбГУ». Дано описание технологий виртуализации и кластерных вычислений, на базе которых создавались сервисы, ориентированные на решение научных задач.
6.В разделе 6 представлены методики анализа данных и машинного обучения, применяемые в ресурсном центре «Центр социологических и интернет-исследовaний» при работе с большими данными, получаемыми из сети Интернет. Указанные методы применяются в том числе к большим массивам данных, полученных из социальных сетей в режиме реального времени.
Полученные результаты в целом вносят вклад в развитие теории и методологии облачных вычислений, инструментарий машинного обучения, подходов к работе с большими данными.

Key findings for the stage (summarized)

В отчете представлены результаты фундаментального исследования по теме «Технологии облачных и распределенных вычислений в задачах анализа больших данных и машинного обучения, в том числе в режиме реального времени».
Целью исследования является разработка новых теоретических положений и методов анализа больших массивов данных в естественно-научных и социально-экономических задачах, с применением облачных технологий и методик распределенных вычислений.
Объектом исследования являются современные технологии облачных и распределенных вычислений, а также методы машинного обучения и анализа больших массивов данных.
В ходе исследования получены следующие научные результаты: на основе анализа наиболее известных платформ облачных вычислений выполнена систематизация их архитектуры, характеристик и используемых приложений; разработана и содержательно раскрыта методика организации виртуального вычислительного кластера; разработана систематизация различных экосистем и существующих решений для хранения больших данных; представлена классификация современных методов и концепций глубинного обучения и их реализаций для работы с неструктурированными массивами данных; описаны методы работы с большими данными, разработанные и применяемые в ресурсном центре «Вычислительный центр СПбГУ». Практическое значение имеют: разработанная технология виртуализации и кластерных вычислений, на базе которых было апробировано создание сервисов, ориентированных на решение научных задач; методики анализа данных и машинного обучения, созданные и проверенные при решении прикладных задач в ресурсном центре СПбГУ «Центр социологических и интернет-исследований» при работе с большими данными, получаемыми из сети Интернет.
Short titleGZ-2019
AcronymNP_2017 - 3
StatusFinished
Effective start/end date25/06/1931/12/19