Description

Основными направлениями деятельности лаборатории “Центр биоинформатики и алгоритмической биотехнологии” СПбГУ (ЦБАБ) являются исследования в области геномики, метагеномики, транскриптомики и метаболомики. Значительная часть проектов лаборатории направлена на разработку алгоритмов и создание компьютерных программ для анализа данных секвенирования различной природы, а также данных масс-спектрометрии.
Результатами научной деятельности лаборатории являются новые вычислительные методы и программные продукты, позволяющие осуществлять различные виды анализа биологических данных. Разработанное программное обеспечение используется биологами и биоинформатиками всего мира для анализа геномов и транскриптомов отдельных организмов и микробных сообществ, а также упрощает задачу поиска новых антибиотиков и производящих их организмов. Сотрудники лаборатории также принимают непосредственное участие в конкретных биологических исследованиях, в которых требуется реализация новых или адаптация уже имеющихся вычислительных методик анализа.
Одним из важнейших факторов, позволяющих регулярно создавать качественное и востребованное программное обеспечение, является налаженное научное сотрудничество с различными лабораториями и институтами — мировыми лидерами в области биоинформатики. Такие контакты дают возможность лучше получать доступ к самым современным данным, решать действительно актуальные на сегодняшний день задачи и применять разработанные алгоритмы в передовых исследованиях. В 2021 году сотрудники лаборатории продолжили свое участие в таких крупных международных консорциумах, как The Telomere-to-Telomere consortium, The Long-read RNA-seq Genome Annotation Assessment Project, SEQC2, Serratus, TBresist.
В 2021 году ключевыми темами НИР в лаборатории являлись разработка новых алгоритмических подходов к анализу данных секвенирования ДНК и РНК, а также в других смежных направлениях, включая поиск антибиотиков и других биологически активных соединений.
Были решены задачи по следующим научным направлениям:
транскриптомика и метатранскриптомика;
сборка и анализ вирусных последовательностей;
поиск антибиотиков и других биологически активных соединений природного происхождения;
применение данных технологии Hi-C для сборки и классификации метагеномов;
анализ длинных тандемных повторов;
развитие и поддержка инструментов на базе геномного сборщика SPAdes;
анализ метагеномных данных.
Проводимые научные исследования тесно связаны с образовательной деятельностью и организацией мероприятий. Так, в 2021 году состоялся второй выпуск магистров программы Биоинформатика, прочитан межуниверситетский курс “Bioinformatics Algorithms, создана программа ​профессиональной переподготовки «Биоинформатика». Летом 2021-ого года в дистанционном формате прошла V международная конференция “Bioinformatics: from Algorithms to Applications”.

Key findings for the stage (in detail)

В 2022 году научно-исследовательская работа лаборатории «Центр биоинформатики и алгоритмической биотехнологии» велась по 5 направлениям в области вычислительной биологии: транскриптомика, метагеномика, разработка инструментов для анализа графа сборки, анализ длинных тандемных повторов в новых сборках генома человека, а также поиск антибиотиков и других БАС природного происхождения. В рамках каждого направления основная часть проектов была направлена на создание новых алгоритмов и их реализации. Также сотрудники лаборатории принимали участие в проектах, направленных на решение прикладных биоинформатических задач.
В отчетном периоде было разработано несколько новых программных продуктов, таких как NPOmix, VerityMap, HORmon. Целый ряд вычислительных методов был усовершенствован за счет создания новых алгоритмов, или же адаптирован для поддержки новых типов данных: IsoQuant, rnaSPAdes, metaSPAdes, PathRacer, StringDecomposer, Nerpa и др. Разрабатываемые и поддерживаемые программы используются исследователями во всем мире, включая дружественные научные коллективы, что позволяет получать своевременную обратную связь, а также развивать и совершенствовать вычислительные методы в соответствии с наиболее актуальными в области задачами. Среди научных сотрудничеств лаборатории стоит упомянуть такие передовые исследовательские центры и сообщества как UC Santa Cruz, UC San Diego, Weill Cornell Medicine, NIH, NCBI (все США), а также несколько международных консорциумов: The Telomere-to-Telomere consortium (T2T), The Long-read RNA-seq Genome Annotation Assessment Project (LRGASP), SEQC2, Critical Assessment of Metagenome Interpretation (CAMI), Serratus.
Результаты исследований вошли в 16 статей, опубликованных в рецензируемых международных журналах Scopus/WoS: из них 12 — в журналах первого квартиля и 10 в ведущих специализированных журналах с IF больше 8.0, в том числе Science (IF 63.714), Nature Methods (IF 47.99) и Nature Biotechnology (IF 68.16). По результатам НИР было представлено 2 устных доклада на национальной и международной конференциях. Востребованность создаваемых в лаборатории программных методов подтверждается крайне высоким уровнем цитирования соответствующих публикаций. Статьи, вышедшие в 2022 году, уже были процитированы более 500 раз (по данным Google Scholar), то есть уже активно используются научным сообществом.
Кроме того, большое внимание уделялось вопросу подготовки кадров по направлению «Биоинформатика». Центр организовывал и проводил образовательные и научные мероприятия участвуя в руководстве и проведении магистерской программы «Биоинформатика» на Биологическом факультете СПбГУ и межуниверситетского курса «Bioinformatics Algorithms на Факультете математики и компьютерных наук, программы ​профессиональной переподготовки «Биоинформатика».

Key findings for the stage (summarized)

Результатами данного этапа стало создание новых вычислительных методов и программных продуктов, а также существенная переработка и расширение функциональности созданных ранее инструментов. В 2022 году были созданы программы VerityMap и HORmon (для работы со сборками генома человека) и программа NPOmix (для работы с геномными и метаболомными данными). Также в результате активной разработки были выпущены новые версии широко используемых в научном сообществе программных пакетов SPAdes, IsoQuant, Patheacer и Nerpa. Значимость выполненных работ подтверждается публикацией результатов исследований в высокорейтинговых международных журналах и высоким уровнем цитирования уже в первый год выхода статей. Создаваемые в лаборатории программы используются в широком спектре генетических исследований в биологии, сельском хозяйстве, медицине и других областях.
Доклады о созданных программных продуктах были представлены на ведущих международных конференциях по биоинформатике.
В 2022 году сотрудники лаборатории продолжили совместную работу в рамках международных консорциумов: «The Telomere-to-Telomere consortium», «The Long-read RNA-seq Genome Annotation Assessment Project», «Serratus», «SEQC2 consortium», «Critical Assessment of Metagenome Interpretation (CAMI) initiative», а так приняли участие в научно-исследовательских проектах совместно с учеными ведущих университетов мира. В результате их сотрудничеств был опубликован целый ряд статей в ведущих мировых журналах.
В отчетном году расширилась вовлеченность в образовательные процессы СПбГУ, включающая участие сотрудников лаборатории в преподавании ​в рамках магистерской программы «Биоинформатик​а​», межуниверситетского курса «Bioinformatics Algorithms», в образовательной программе​ ​профессиональной переподготовки «Биоинформатика».

Academic ownership of participants (text description)

Лапидус Алла Львовна – общее руководство лабораторией, руководство магистерской программой «Биоинформатика», руководство направлением «Анализ метагеномных данных», в рамках которого проведено секвенирование и анализ метагеномов почвенных проб отдельных регионов бореальных лесов России, описаны новые некультивируемые организмы, три новых семейства DJR-вирусов (Varidnaviria) в пределах порядка Vinavirales, проведены сборка, биннинг и анализ геномов, разделены геномы паразитов и хозяина, обнаружен новый природный резервуар патогенной бактерии Legionella pneumophila. Проведена оптимизация потребления памяти и времени работы геномного сборщика metaSPAdes. В рамках сотрудничества с консорциумом Critical Assessment of Metagenome Interpretation (CAMI) подготовлена и опубликована в журнале Nature Methods (IF=47.99, Q1) статья об оценке качества методов обработки метагеномных данных; подготовлен и/или опубликован ряд статей в ведущих рецензируемых журналах.

Коробейников Антон Иванович-руководство направлениями «Разработка методов и алгоритмов анализа графа сборки» и «Разработка методов и программ для поиска антибиотиков и других биологически активных соединений природного происхождения».В рамках направлений разработаны алгоритмы и подходы для локальной таргетированной пересборки последовательностей генов, профагов и т.п. в сложных метагеномах без сборки всего метагенома; утилита PathRacer доработана на предмет использования графов сборки, полученных сборщиками Flye и minigraph, улучшено восстановление генов обуславливающих антибиотикорезистентность из графов сборки метагеномов; разработана новая скоринг-функция для программы Nerpa, на тестовом наборе данных из 64 известных пар нерибосомный пептид-геномный кластер из базы MIBiG показано улучшение результата на 25% при нулевом уровне ложноположительных идентификаций; разработан и выпущен в публичный доступ инструмент NPOmix для сопоставления геномных и метаболомных данных БАС на основе метода k-ближайших соседей; подготовлен и/или опубликован ряд статей в ведущих журналах.

Пржибельский Андрей Дмитриевич – руководство направлением «Анализ транскриптомных и метатранскриптомных данных», в рамках которого был (1) разработан вычислительный конвейер для совместного анализа метагеномных и метатранскриптомных данных секвенирования второго поколения; (2) проведены работы по усовершенствованию сборщика rnaSPAdes, который позволяет осуществлять сборку эукариотических транскриптомов по данным Illumina; (3) усофершенстованна ранее созданная программа IsoQuant; (4) реализован ряд методов, позволяющих осуществлять детальное сравнение методов секвенирования третьего поколения; (5) разработан универсальный симулятор транскриптомных данных; подготовлен и/или опубликован ряд статей в ведущих журналах.

Райко Михаил Петрович - Райко Михаил Петрович –
анализ метагеномов почвенных проб отдельных регионов бореальных лесов России в рамках направления «Анализ метагеномных данных»; выявлнеие характерных видов бактерий и архей для экосистемы черневой тайги Новосибирской области, поиск новых некультивируемых геномов в метагеномных сборках; поиск новых семейств DJR-вирусов; сборка, биннинг и анализ геномов простейших (амёб и микроспоридий) из ряда образцов;
сотрудничество с консорциумом Critical Assessment of Metagenome Interpretation (CAMI) по вопросам оценки качества методов обработки метагеномных данных.

Александров Иван Александрович - руководство направлением «Разработка алгоритмов для анализа повторных регионов в геноме человека», осуществявшегося в рамках сотрудничества с консорциумами Telomere-to-Telomere (Т2Т) и Human Pangenome Reference Consortium (HPRC). В рамках направления была разработана программа VerityMap для высокоточного выравнивания длинных прочтений на сборку, поиска ошибок и гетерозиготных вариантов в сборке на основе полученных выравниваний, которая была использована для анализа новых сборок генома человека (статья, описывающая алгоритм и результаты работы программы VerityMap, принята к публикации в журнале Genome Research (IF = 9.043)). Была продолжена работа по усовершенствованию программных продуктов для автоматического анализа центромерных участков в геноме человека. Кроме того, в рамках сотрудничества с консорциумом Т2Т опубликован целый ряд статей в самых высокорейтинговых журналах таких как Science (IF=63.7 и Nature Methods (IF=47.99), описывающих разные этапы создания новой референсной сборки генома человека.

Антипов Дмитрий Юрьевич - разработка алгоритмов, создание программ для анализа биологических данных, анализ данных в рамках проектов лаборатории.

Дворкина Татьяна Евгеньевна - разработка алгоритмов, создание программ для анализа биологических данных в рамках направления «Разработка алгоритмов для анализа повторных регионов в геноме человека». Соавтор программных продуктов HORmon и CentromereArchitect, опубликованных в журналах (Q1). Статья, посвященная структуре, функциям и эволюции хромосомы 8 человека, в работе над которой принимала участие Татьяня, опубликована в журнале Nature (Q1).

Кунявская Ольга Александровна – активный участник проекта T2T, со-разработчик программных продуктов HORmon, CentromereArchitect и др, направленных на решение задачи анализа и сборки центромер. Со-автор целого ряда публикаций в журналах Q1.

Мелешко Дмитрий Алексеевич - Разработка алгоритмов, создание программ для анализа биологических данных, анализ данных в рамках проектов лаборатории. Оптимизация потребления памяти и времени работы геномного сборщика metaSPAdes.

Михеенко Алла Александровна - разработка алгоритмов, создание программ для анализа биологических данных в рамках направления «Разработка алгоритмов для анализа повторных регионов в геноме человека». Соавтор программных продуктов HORmon и CentromereArchitect, опубликованных в журналах (Q1). Статья, посвященная структуре, функциям и эволюции хромосомы 8 человека, в работе над которой принимала участие Татьяня, опубликована в журнале Nature (Q1). Разработка программы VerityMap для быстрого и точного сопоставления длинных ридов при полных сборках генома. Разработка и пуюликация интерактивного визуализатора совпадений пептидных натуральных продуктов и МС/МС NPvis и инструмента IsoQuant: для точного обнаружения новых изоформ с помощью длинных ридов.

Очкалова Софья Дмитриевна - создание аналитических подходов для анализа биологических данных, анализ данных в рамках проектов лаборатории.

Толстоганов Иван Николаевич - разработка алгоритмов, создание программ для анализа биологических данных, анализ данных в рамках проектов лаборатории

Шафранская Дарья Дмитриевна - анализ метагеномов почвенных проб бореальных лесов России на предмет поиска ранее неизвестных микроорганизмов и характерных для экосистемы черневой тайги Новосибирской области видов бактерий и архей, потенциально связанные с высокой продуктивностью почвы.



Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

не разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

не разрешается

Rationale of the interdisciplinary approach

Междисциплинарность проекта подтверждается использованием современных информационных технологий, математических и статистических методов при разработке лабораторией программных продуктов для решения широкого спектра медико-биологических задач, сопряженных в первую очередь с изучением первичной структуры таких биологически активных молекул как ДНК, РНК, белки.
Short titleGZ-2022
AcronymLAB_GZ_2015 - 8
StatusFinished
Effective start/end date1/01/2231/12/22

ID: 93023437