Технологии облачных и распределенных вычислений в задачах анализа больших данных и машинного обучения, в том числе в режиме реального времени: 2019 г. этап 3

Проект: исполнение гранта/договораисполнение этапа гранта/договора

Сведения о проекте

описание

Разработка моделей и методик для управления системой обработки и хранения больших данных

основные результаты по этапу (подробно)

Технологии облачных вычислений являются одним из наиболее перспективных и стремительно развивающихся направлений в современной теории коммуникаций и информатике. Использование распределённой обработки данных существенно ускоряет процесс вычислений и, как следствие, выработку управленческих решений на основе анализа большого массива сложноструктурированных данных. В условиях перехода к цифровой экономике облачные вычисления становятся драйвером роста производительности труда, что в конечном счете способствует к улучшению качества жизни населения.
Разработанные в ходе данного исследования теоретико-методологические положения, методический инструментарий, конкретные рекомендации по использованию технологий облачных вычислений, в том числе прошедшие апробацию в ресурсных центрах Санкт-Петербургского государственного университета, обладают несомненной научной новизной и практической значимостью.
В целом, научные результаты проведенных исследований, представленные в соответствующих разделах данного отчета, являются следующие:
1.В разделе 1 представлено подробное сравнение наиболее известных платформ облачных вычислений с упором на таких аспектах, как архитектура, характеристики, приложения. Из проведённого анализа пользователи могут лучше понять характеристики и надёжнее выбирать платформу облачных вычислений согласно протоколам, интерфейсам, совместимости, реализации, требованию по развёртыванию и возможностям развития и так далее.
2.В разделе 2 приведены разработки авторского коллектива в области параллельных и распределенных вычислений, относящиеся к организации виртуального вычислительного кластера, по материалам которых были защищены выпускные квалификационные работы (3 бакалавра, 2 магистра, 2 аспиранта). Разные части данного исследования были опубликованы в ведущих рецензируемых изданиях, а также в виде монографии, представлены на конференциях.
3.В разделе 3 проведен анализ данных, различных экосистем и существующих решений для хранения больших данных. Данное исследование носит масштабный характер, требует консолидации знаний экспертов во многих областях разработки (BI, Data Science, QA, DevOps и т.д.) и ученых-теоретиков, поэтому в работе сделан основной акцент на решениях для хранения больших данных, таким образом решения для их обработки или аналитики требуют более детального исследования.
4.В разделе 4 проделана классификация современных методов и концепций глубинного обучения и их реализаций для работы с неструктурированными массивами данных. Все описанные подходы были применены для решения важнейшей в настоящее время проблемы – ранняя диагностика болезней преклонного возраста. Анализ проводился на основе результатов многолетних наблюдений в Психоневрологическом институте им. В.М. Бехтерева.
5.В разделе 5 описаны методы работы с большими данными, разработанные и применяемые в ресурсном центре «Вычислительный центр СПбГУ». Дано описание технологий виртуализации и кластерных вычислений, на базе которых создавались сервисы, ориентированные на решение научных задач.
6.В разделе 6 представлены методики анализа данных и машинного обучения, применяемые в ресурсном центре «Центр социологических и интернет-исследовaний» при работе с большими данными, получаемыми из сети Интернет. Указанные методы применяются в том числе к большим массивам данных, полученных из социальных сетей в режиме реального времени.
Полученные результаты в целом вносят вклад в развитие теории и методологии облачных вычислений, инструментарий машинного обучения, подходов к работе с большими данными.

основные результаты по этапу (кратко)

В отчете представлены результаты фундаментального исследования по теме «Технологии облачных и распределенных вычислений в задачах анализа больших данных и машинного обучения, в том числе в режиме реального времени».
Целью исследования является разработка новых теоретических положений и методов анализа больших массивов данных в естественно-научных и социально-экономических задачах, с применением облачных технологий и методик распределенных вычислений.
Объектом исследования являются современные технологии облачных и распределенных вычислений, а также методы машинного обучения и анализа больших массивов данных.
В ходе исследования получены следующие научные результаты: на основе анализа наиболее известных платформ облачных вычислений выполнена систематизация их архитектуры, характеристик и используемых приложений; разработана и содержательно раскрыта методика организации виртуального вычислительного кластера; разработана систематизация различных экосистем и существующих решений для хранения больших данных; представлена классификация современных методов и концепций глубинного обучения и их реализаций для работы с неструктурированными массивами данных; описаны методы работы с большими данными, разработанные и применяемые в ресурсном центре «Вычислительный центр СПбГУ». Практическое значение имеют: разработанная технология виртуализации и кластерных вычислений, на базе которых было апробировано создание сервисов, ориентированных на решение научных задач; методики анализа данных и машинного обучения, созданные и проверенные при решении прикладных задач в ресурсном центре СПбГУ «Центр социологических и интернет-исследований» при работе с большими данными, получаемыми из сети Интернет.
Короткий заголовокGZ-2019
АкронимNP_2017 - 3
СтатусЗавершено
Действительная дата начала/окончания25/06/1931/12/19

Ключевые слова

  • большие данные
  • Облачные вычисления
  • распределенные вычисления
  • параллельные вычисления
  • машинное обучение
  • интеллектуальный анализ данных
  • визуализация
  • математическое моделирование