Лаборатория "Центр биоинформатики и алгоритмической биотехнологии" в СПбГУ: 2021 г. этап 7

Певзнер, Павел Аркадьевич (PI)
Lapidus, Alla (CoPI)
Korobeinikov, Anton (CoI)
Mikheenko, Alla (CoI)
Przhibelskii, Andrei (CoI)
Gurevich, Aleksei (CoI)
Antipov, Dmitrii (CoI)
Raiko, Mikhail (CoI)
Dvorkina, Tatiana (CoI)
Tagirdzhanov, Azat (CoI)
Tolstoganov, Ivan (CoI)
Aleksandrov, Ivan (CoI)
Meleshko, Dmitrii (CoI)
Шафранская, Дарья Дмитриевна (CoI)
Bushmanova, Elena (CoI)
Kuniavskaia, Olga (CoI)

Description

Основными направлениями деятельности лаборатории “Центр биоинформатики и алгоритмической биотехнологии” СПбГУ (ЦБАБ) являются исследования в области геномики, метагеномики, транскриптомики и метаболомики. Значительная часть проектов лаборатории направлена на разработку алгоритмов и создание компьютерных программ для анализа данных секвенирования различной природы, а также данных масс-спектрометрии.
Результатами научной деятельности лаборатории являются новые вычислительные методы и программные продукты, позволяющие осуществлять различные виды анализа биологических данных. Разработанное программное обеспечение используется биологами и биоинформатиками всего мира для анализа геномов и транскриптомов отдельных организмов и микробных сообществ, а также упрощает задачу поиска новых антибиотиков и производящих их организмов. Сотрудники лаборатории также принимают непосредственное участие в конкретных биологических исследованиях, в которых требуется реализация новых или адаптация уже имеющихся вычислительных методик анализа.
Одним из важнейших факторов, позволяющих регулярно создавать качественное и востребованное программное обеспечение, является налаженное научное сотрудничество с различными лабораториями и институтами — мировыми лидерами в области биоинформатики. Такие контакты дают возможность лучше получать доступ к самым современным данным, решать действительно актуальные на сегодняшний день задачи и применять разработанные алгоритмы в передовых исследованиях. В 2021 году сотрудники лаборатории продолжили свое участие в таких крупных международных консорциумах, как The Telomere-to-Telomere consortium, The Long-read RNA-seq Genome Annotation Assessment Project, SEQC2, Serratus, TBresist.
В 2021 году ключевыми темами НИР в лаборатории являлись разработка новых алгоритмических подходов к анализу данных секвенирования ДНК и РНК, а также в других смежных направлениях, включая поиск антибиотиков и других биологически активных соединений.
Были решены задачи по следующим научным направлениям:
транскриптомика и метатранскриптомика;
сборка и анализ вирусных последовательностей;
поиск антибиотиков и других биологически активных соединений природного происхождения;
применение данных технологии Hi-C для сборки и классификации метагеномов;
анализ длинных тандемных повторов;
развитие и поддержка инструментов на базе геномного сборщика SPAdes;
анализ метагеномных данных.
Проводимые научные исследования тесно связаны с образовательной деятельностью и организацией мероприятий. Так, в 2021 году состоялся второй выпуск магистров программы Биоинформатика, прочитан межуниверситетский курс “Bioinformatics Algorithms, создана программа профессиональной переподготовки «Биоинформатика». Летом 2021-ого года в дистанционном формате прошла V международная конференция “Bioinformatics: from Algorithms to Applications”.

Key findings for the stage (in detail)

Детальное описание результатов Этапа приведено в приложенном файле "ГОСТ-отчет".

Источники со-финансирования за 2021 год:

Грант РФФИ 18-54-74004 “Высокопроизводительная цепочка анализа метагеномов в EBI на базе инструментов семейства SPAdes” (сотрудничество с EMBL-EBI)
Грант РФФИ 19-34-51017 “Биоинформатика микробиоты”
Грант РНФ 19-14-00172 “Адаптация семейства программ SPAdes для использования новейших технологий, применяемых в анализе и сборке геномных, метагеномных и транскриптомных данных”
Грант РНФ 19-16-00049 “Метагеномика в оценке экологических функций почв: анализ почвенной микробиоты, связанной с феноменом гигантизма растений черневой тайги Сибири”
Грант РФФИ 20-04-01096 “Разработка вычислительных методов для идентификации вторичных метаболитов растений с использованием данных масс-спектрометрии”
Грант РНФ 20-74-00032 “Создание онлайн базы данных гипотетических вторичных метаболитов пептидной структуры”

В лаборатории проводились совместные проекты с рядом университетов и научных организаций США (University of California San Diego, Scripps Institute of Oceanography, Rutgers University, Cornell University, Carnegie Mellon University, National Center for Biotechnology Information), Германии (Helmholtz Centre for Infection Research), Италии (Institute for Agricultural and Forest Systems in the Mediterranean), Великобритании (EMBL-EBI), а также Институтом Биологии Гена РАН, которые вылились как в создание новых программных инструментов, так и совместные публикации в высокорейтинговых журналах.

Сотрудники лаборатории входят в состав значимых международных консорциумов:
The Long-read RNA-seq Genome Annotation Assessment Project (LRGASP) Consortium (https://www.gencodegenes.org/pages/LRGASP/);
Serratus (https://www.serratus.io);
The Telomere-to-Telomere (T2T) consortium (https://sites.google.com/ucsc.edu/t2tworkinggroup/home).
SEQC2 consortium.
Critical Assessment of Metagenome Interpretation (CAMI) initiative (https://www.microbiome-cosi.org/cami).
TBResist - Международный консорциум по изучению геномной лекарственной устойчивости Mycobacterium tuberculosis и противодействия ей (https://projects.iq.harvard.edu/tbresist).

Key findings for the stage (summarized)

1.Произведен анализ свойств и сравнение данных транскриптомного секвенирования, полученных при помощи технологий PacBio и Oxford Nanopore; впервые были проанализированы данные, получении при секвенировании одной молекулы разными технологиями. На основе анализа были созданы новых алгоритмов для работы с такого рода данными и улучшения нахождения новых неизвестных изоформ.
2.В вычислительном пакете IsoQuant реализованы методы, позволяющие по длинным прочтениям РНК определять транскриптомные модификации и новые ранее неизвестные изоформы; обновленная версия программы выложена в публичный доступ.
3.В рамках IsoQuant разработан ряд вычислительных методов, позволяющих производить анализ длинных прочтений РНК, полученных по индивидуальным клеткам и по срезу ткани (пространственная транскриптомика); созданное ПО выложено в публичный доступ; реализованные методы были использованы для анализа транскриптома мозга мыши и опубликованы в международном журнале.
4.Исследованы возможности применения методов машинного обучения к задаче сборки. Задача транскриптомной сборки сведена к задаче поиска сообществ во взвешенном графе персон. Разработанный подход позволяет совмещать сразу несколько типов данных (различные длинные прочтения и транскрипты из базы). Сравнение полученных результатов с обычной rnaSPAdes сборкой производилось на данных мыши.
5.Был выполнен анализ и изучены ключевые особенности метатранскриптомных данных. Используя результаты анализа, была разработана и реализована вычислительная цепочка metaGT, использующая метагеномные и метатранскриптомные данные и улучшающая качества метатранскриптомных сборок, на основе программы rnaSPAdes. Разработанная цепочка реализована на языке nextflow и выложена в открытый доступ.
6.Произведен анализ новых циклических экстрахромосомных элементов в метагеномах кишечника человека. С помощью разработанной вычислительной цепочки CEEsearch было обнаружено несколько десятков групп небольших циклических молекул ДНК, не имеющих сходства с известными плазмидами и вирусами.
7.В рамках сотрудничества с группой Е. Кунина (NCBI, Bethesda) были опубликованы две статьи, описывающие группы бактериофагов в метагеномах человеческого кишечника.
8.Было проведено усовершенствование кодовой базы разработанных инструментов (viralComplete и viralVerify) для поиска вирусов в метагеномах, направленное на упрощение работы с ними и повышение точности.
9.Разработан прототип Nerpa-2 -- программы для поиска биосинтетических кластеров генов гибридных соединений класса поликетид-нерибосомный пептид (ПК-НРП). Nerpa-2 создана на базе реализованной ранее программы Nerpa, предназначенной исключительно для нерибосомных пептидов (НРП). Знание биосинтетических кластеров генов соединений ПК-НРП поможет упростить промышленный синтез известных соединений данного класса и ускорит поиск новых его представителей.
10.Создана тестовая версия веб сервиса для программ Nerpa/Nerpa-2, адаптированная для работы с биосинтетическими кластерами генов известных природных соединений как класса НРП, так и гибридов ПК-НРП. Текущая версия Nerpa доступна только как приложение командной строки, что существенно ограничивает ее применение целевой аудиторией проекта -- исследователями природных соединений. Запуск веб сервиса решает эту проблему, т.к. загрузку входных данных (геномов и/или химических структур НРП/ПК-НРП) и анализ результатов можно будет выполнять в графическом интерфейсе без необходимости применять специальные компьютерные навыки и наличия компьютера с Linux/macOS.
11.Более 13,000 референсных и репрезентативных бактериальных геномов из базы NCBI RefSeq проанализированы на предмет наличия биосинтетических кластеров генов поликетидов и гибридных соединений ПК-НРП с использованием Nerpa-2 и antiSMASH.
12.Подготовлена черновая версия статьи о Nerpa-2 и ее применении в высокопроизводительном анализе геномных и метагеномных данных.
13.Подготовлена и опубликована статья о протоколах оценки качества метагеномных данных и их постобработки. Данные методики могут в дальнейшем применяться при построении вычислительных конвейеров по высокопроизводительному поиску биосинтетических кластеров генов в метагеномных данных, в том числе с использованием Nerpa и Nerpa-2.
14.Реализована первая версия интерактивного визуализатора соответствий соединение--масс-спектр, позволяющая работать как с пептидными, так и непептидными биологически активными соединениями природного происхождения (БАС). Использование визуализатора упростит анализ корректности идентификаций масс-спектров, что в свою очередь повысит качество последующего поиска и анализа БАС.
15.Оптимизирована кодовая база программного пакета NPDtools для поиска БАС по масс-спектрам (релиз v.2.6.0). В частности это позволило реализовать алгоритм идентификации модифицированных непептидных БАС по масс-спектрам и базе данных соединений с использованием созданного ранее метода molDiscovery, значительно повышающего точность идентификаций. Нахождение новых (модифицированных) вариантов представленных в базе БАС имеет важное прикладное значение, так как данные более редкие варианты часто обладают более сильными биологическими активностями, чем оригинальные соединения.
16.Был разработан и реализован прототип инструмента для поиска структурных ошибок в геномных сборках помощью данных Hi-C. Прототип был протестирован на данных метагенома кишечника овцы.
17.Разработан вычислительный метод CentromereArchitect для аннотации альфа-сателлитных последовательностей центромерного региона в геноме человека.
18.Произведен анализ альфа-сателлитных последовательностей и повторов высшего порядка для сборки генома человека.
19.Результаты исследования альфа-сателлитов представлены в виде геномных карт в GenomeBrowser и находятся в общем доступе.
20.Проведен анализ длинных повторных последовательностей в новой сборке генома человека. Значительно улучшены методы прикладывания длинных прочтений с высоким уровнем ошибок, расширена область применения на все длинные повторные последовательности, включая простые повторы и последовательности HSAT1/2/3.
21.Разработана новая версия инструмента TandemMapper, позволяющая получать точные прикладывания длинных прочтений с высоким уровнем ошибок не только к повторным регионам, но к полногеномным сборкам. TandemMapper2 использован для полногеномного анализа нового референсного генома человека в рамках консорциума Telomere-to-Telomere. Программа находится в публичном доступе.
22.Разработанные методы сборки данных РНК-вирусов (алгоритм rnaviralSPAdes и coronaSPAdes) были апробированы в рамках коллаборации Serratus на широкомасштабной сборке транскриптомных данных из SRA и ENA. В результате анализа более 5 млн. библиотек SRA/ENA было обнаружено более 120 тыс. кандидатов на новые виды РНК вирусов, включающих более 100 новых видов коронавирусов (а также кандидат на новый род коронавирусов).
23.Созданы наборы профильных скрытых марковских моделей для сборки геномов вирусов гриппа, ВИЧ и коронавирусов и протестированы на открытых наборах данных. Показано преимущество сборки таких данных с использованием марковских моделей по сравнению с обычными вирусными сборщиками.
24.Разработан прототип алгоритма разрешения повторов по оптическим картам. Алгоритм протестирован на бактериальных данных.
25.Реализован и протестирован новый алгоритм для прикладывания нуклеотидных последовательностей на граф сборки.
26.Проведены работы по оптимизации используемых структур данных в сборщике SPAdes, что позволило ускорить процедуру упрощения графа де Брюйна в 2-3 раза на сложных метагеномах. Наработки вошли в релиз SPAdes 3.15.
27.Для улучшения качества тестирования SPAdes был разработан набор тестов, покрывающих все возможные режимы работы SPAdes. Кроме того, разработаны подходы тестирования SPAdes на предмет воспроизводимости результатов, не зависимо от используемого количества памяти и процессорных ядер.
28.Совместно с коллегами с кафедры зоологии беспозвоночных СПбГУ была проведена сборка, биннинг и анализ геномов мечниковеллид из ряда образцов полихет, разделены геномы паразита и хозяина, проаннотированы белки и рРНК для изучения перехода к паразитическому образу жизни.
29.С помощью технологии секвенирования 3-его поколения Оxford Nanopore проведено полногеномное секвенирование 7 проб почв с уникальными свойствами. Полученные данные сиквенса собраны с использованием сборщика Flye Version 2.9. Подобраны оптимальные условия сборки в зависимости от качества и количества данных, полученных для индивидуальных проб. Длины самых протяженных фрагментов в сборках варьируют от 951 тысячи до 6 620 245 нуклеотидов.
30.На различных метагеномных сообществах был проведен анализ с помощью разработанного инструмента graphAMR. Было показано, что использование графа сборки дает возможность восстанавливать больше полных, а также более точных последовательностей генов антибиотической резистентности в метагеномных сообществах по сравнению с другими известными подходами.

Academic ownership of participants (text description)

П.А.Певзнер - постановка научных задач и способов их достижения. Написание статей; нет

А.Л.Лапидус - руководство лабораторией, участие в разработке программ, участие в международных консорциумах,преподавание, написание отчетов и статей, участие в конференциях, проведение ежегодной международной конференции BiATA;

А.И.Коробейников - руководство группой разработки SPAdes, участие в разработке алгоритмов и программ, участие в международных консорциумах, преподавание, написание отчетов и статей, участие в конференциях, проведение ежегодной международной конференции BiATA; да

И.А.Александров - участие в разработке программ, участие в международных консорциумах, написание отчетов и статей; да

А.А.Гуревич - руководство группой разработки алгоритмов и программных продуктов поиска биологически активных молекул, участие в международных консорциумах, преподавание, написание отчетов и статей, участие в конференциях; да

А.Д.Пржибельский - руководство группой разработки алгоритмов и программных продуктов анализа данных сиквенса РНК, участие в международных консорциумах, преподавание, написание отчетов и статей, участие в конференциях; да

М.П.Райко - участие в разработке программ, анали данных геномного секвенирования, участие в международных консорциумах, написание отчетов и статей; да

А.М.Тагирджанов - участие в разработке алгоритмов и программ, участие в международных консорциумах, написание отчетов и статей; да

А.А.Михеенко - участие в разработке алгоритмов и программ, участие в международных консорциумах, написание отчетов и статей; да

Д.Ю.Антипов - участие в разработке алгоритмов и программ, участие в международных консорциумах, написание отчетов и статей; да

Е.А.Бушманова - участие в разработке алгоритмов и программ, участие в международных консорциумах, написание отчетов и статей; да

О.А.Кунявская - участие в разработке алгоритмов и программ, участие в международных консорциумах, написание отчетов и статей; да

Д.А.Мелешко - участие в разработке алгоритмов и программ, участие в международных консорциумах, написание отчетов и статей; да

И.Н.Толстоганов - участие в разработке алгоритмов и программ, участие в международных консорциумах, написание отчетов и статей; да

Т.Е.Дворкина - участие в разработке алгоритмов и программ, участие в международных консорциумах, написание отчетов и статей; да

Д.Д.Шафранская - участие в разработке алгоритмов и программ, участие в международных консорциумах, написание отчетов и статей; да

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

разрешается

Short title	GZ-2021
Acronym	LAB_GZ_2015 - 7
Status	Finished
Effective start/end date	1/01/21 → 31/12/21

ID: 73023672