Объектом исследования лаборатории «Центр биоинформатики и алгоритмической биотехнологии СПбГУ» являются геномные, транскриптомные и иные данные, полученные при исследовании вирусов, микро- и макроорганизмов и микробных сообществ.
Целью работы Центра является усовершенствование и применение в широком спектре актуальных биологических и медико-биологических задач алгоритмических подходов и программных инструментов разработанных и разрабатываемых в лаборатории для обработки и анализа больших объемов биологических и медико-биологических данных.
Создаваемые в лаборатории компьютерные программы широко используются для анализа данных секвенирования различной природы.
Лаборатория признана мировым лидером в области геномной биоинформатики.
В 2023 году ключевыми темами НИР в лаборатории являлись разработка новых алгоритмических подходов и усовершенствование ранее созданных программ, широко используемых научным сообществом для анализа данных секвенирования ДНК и РНК, включая анализ структурных особенностей геномов, поиск антибиотиков и других биологически активных соединений. По результатам разработок опубликовано 15 статей, 9 из которых в журналах первого или второго квартиля.
Объектом исследования лаборатории «Центр биоинформатики и алгоритмической биотехнологии СПбГУ» являются геномные, транскриптомные и иные данные, полученные при исследовании вирусов, микро- и макроорганизмов, микробных сообществ. Целью работы Центра является разработка новых и усовершенствование ранее созданных в лаборатоии программ применяемых в широком спектре актуальных биологических и медико-биологических задач.
В целях упрощения анализа сложных фрагментов метагеномов таких как вирусные геномы, плазмиды, профаги и т.п. разработаны методы локальной пересборки данных сложных метагеномах. Для восстановления транскриптов при помощи референсного генома и без него в лаборатории был произведен анализ более 30 различных образцов, взятых из тканей человека, мыши и морской коровы что составило полтерабайта данных секвенирования.
Исследован состав микобиоты образцов почвы черневой тайги и проведен анализ нового штамма Azospirillum, геном которого обладает униакльной геномной архитектурой.
В отчетном году инициированы 2 новых направления исследований, связанные с анализом особенностей сообщества арбускулярных микоризных грибов, ассоциированных с инвазивными растениями подсемейства Asteroideae и исследованием микробиоты кишечника больных туберкулезом на основе данных shotgun секвенирования и методов метагеномного анализа.
В 2023 году сотрудники лаборатории продолжили и успешно завершили совместную работу в рамках международных консорциумов: «The Telomere-to-Telomere consortium»), «The Long-read RNA-seq Genome Annotation Assessment Project», «SEQC2 consortium». Также в 2023 году успешно завершилась работа по расшифровке генома единственного млекопитающего озера Байкал — байкальской нерпы (https://journal.spbu.ru/ №4 (3942), стр. 26-29, 7июля, 2023 («Код нерпы»)).
По результатам проведенных исследований опубликовано 15 статей в ведущих мировых журналах, подавляющее большинство которых входит в Q1/Q2 квартили. Доклады о созданных программных продуктах и проведенных исследованиях были представлены на ведущих профильных международных конференциях.
Создаваемые в лаборатории программы используются в широком спектре генетических исследований в биологии, сельском хозяйстве, медицине и других областях.
В отчетном году продолжилось активное участие сотрудников лаборатории в образовательных процессах СПбГУ, включающее преподавание в рамках магистерской программы «Биоинформатика», межуниверситетского курса «Bioinformatics Algorithms», в образовательной программе профессиональной переподготовки «Биоинформатика». Онлайн курс «Введение в биоинформатику» включен в образовательный план математико-механического факультета (матмех) СПбГУ.
Исследования в отчетном периоде велись по следующим направлениям:
1.Разработка новых алгоритмов анализа пангенома человека
- В целях значительного повышения эффективности анализа пангенома человека, проводимого в рамках консорциумов Telomere-to-Telomere (Т2Т) и Human Pangenome Reference Consortium (HPRC) доработан и усовершенствован ранее созданный в лаборатории программный продукт QUAST-LG
2.Разработка высокопроизводительных алгоритмов для точного прикладывания длинных прочтений с низким количеством ошибок к полному геному.
- 2023 году продолжалась работа по усовершенствованию программного продукта для анализа полногеномных сборок VerityMap.
3.Разработка алгоритмов для анализа архитектуры центромер по длинным прочтениям с низким количеством ошибок
- Получить первую, действительно полную, сборку референсного генома человека (клеточная линия CHM13) было бы невозможно без разработок Центра биоинформатики и алгоритмической биотехнологии СПбГУ, целенаправленно созданных для анализа самых сложных повторов различной природы. При этом, не все запланированные нами задачи по этому направлению удалось воплотить в жизнь из-за ограниченного доступа к экспериментальным данным. Не в полной мере выполненные задачи этого раздела обязательств компенсированы новыми направлениями, инициированными в 2023 году (см. Разделы 2.13 и 2.14 в приложенном полном отчете ).
4.Разработка алгоритмов валидации новых сборок генома человека
- Программный продукт VerityMap был адоптирован и применен для валидации сборки Y хромосомы человека. Улучшенный алгоритм VerityMap позволил провести оценку нескольких версий сборки и найти пропущенные ранее ошибки сборки.
5.Разработка вычислительных методов для автоматической аннотации центромер по референсным сборкам и длинным прочтениям с низким уровнем ошибок
- В качестве первого этапа данного направления было выполнено усовершенствование алгоритма HORmon для анализа центромерных участков по длинным прочтениям с низким количеством ошибок. В отчетном году было показано, что аннотации прочтений c низким количеством ошибок центромерных последовательностей, полученные с помощью HORmon, консистентны с аннотациями полных сборок. Программный продукт HORmon быт также впервые применен при анализе аннотаций сложнейших центромерных сборок.
6.Разработка алгоритмов для выравнивания центромерных сборок
- Высокое качество разработанных в 2022 году алгоритмов для решения задачи выравнивания центромерных сборок не потребовало ни создания новых подходов, ни доработки старых. В результате чего мы смогли сосредоточиться на инициации новых проектов (см. Разделы 2.13 и 2.14 ниже).
7.Исследование микробиоты почв бореальной зоны России, характеризующихся гигантизмом трав, с применением комплексных подходов и методов анализа больших данных метагеномики в совокупности с другими метаданными.
- в рамках этого проекта анализировались особенности грибных сообществ ризосфер сельскохозяйственных культур, выращенных в лабораторных условиях на уникально почве Черневой тайги. Изучение таксономического состава ризосферной микробиоты сельскохозяйственно-значимых растений, выращиваемых в почве Черневой тайги в лабораторных условиях, в совокупности с полученными нами ранее данными открывает путь к созданию in vitro, устойчивых сообществ, способствующих успешному развитию сельскохозяйственных культур. Также в рамках этого направления выявлен новый, ранее неописанный штамм Azospirillum spp., выделенный из почвы черневой тайги. Предварительный анализ генома нового штамма показал уникальность его строения.
Понимание всей структуры природного сообщества микроорганизмов, присутствующих в почве и ризосфере Черневой тайги, включая бактерии и грибы, может стать важным шагом в разработке природных биоудобрений.
8.Разработка методов локальной таргетированной пересборки последовательностей генов, профагов и т.п. в сложных метагеномах
- По данному направлению в 2023 году разработаны алгоритмы и подходы локальной таргетированной пересборки, не требующие с одной стороны сборки полного метагенома, но позволяющие выделить интересующие фрагменты графа сборки последовательностей генов, профагов и т.п. в сложных метагеномах. Реализованный подход NFilter отличается предсказуемым потреблением памяти (8-16 бит на каждый уникальный k-мер), реализован на основе кодовой базы сборщика SPAdes с переиспользованием эффективных алгоритмов и структур данных. Алгоритмы распараллелены с использованием технологии OpenMP.
Разработанные методы будут включены в очередной релиз набора инструментов SPAdes.
9.Разработка методов прикладывания скрытых марковских моделей (HMM) к графам сборки, отличных от графов де Брюйна
- В отчетном периоде алгоритм PathRacer был доработан с целью поддержки графов сборки, производимыми сборщиками данных третьего поколения. Набор требуемых изменений для работы с данными третьего поколения велся по трем направлениеям
1.Структура данных для поддержки новых форматов графов
2.Трансформация входных графов в псевдо-графы де Брюйна
3.Обобщение алгоритма PathRacer на псевдо-графы де Брюйна
В итоге, алгоритмы PathRacer прикладывания скрытых марковских моделей к графам сборки обобщены на графы сборки технологий третьего поколения.
10.Разработка подходов совместного анализа метагеномных и метатранскриптомных
Данных
- В рамках данного направления осуществлялась техническая поддержка ранее созданного нами конвейера для совместного анализа метагеномных и метатранскриптомных данных секвенирования второго поколения. Данный инструмент основан на широко известных программах rnaSPAdes и metaSPAdes и находится в публичном доступе. За отчетный период были улучшены технические параметры, пользовательский интерфейс и добавлена функциональность, позволяющая осуществлять перезапуск программы в случае аварийной остановки. Была также добавлена поддержка данных секвенирования второго поколения, которые позволяют повысить точность обнаружения изоформ.
11.Анализ большого количества транскриптомных данных мыши и человека.
- В рамках данного направления был произведен анализ более 1 терабайта данных транскриптомного секвенирования различных клеточных линий человека, а также их смесей в различных пропорциях. Данные секвенирования были получены при помощи технологий третьего поколения (Pacific Biosciences и Oxford Nanopores).
12.Разработка и реализация алгоритмов для симуляции транскриптомных данных различных поколений.
- по данному направлению в 2023 году разработан, протестирован и выпущен в публичный доступ программный пакет для симуляции транскриптомных данных второго и третьего поколений. Для дальнейшего анализа подготовлено два набора симулированных данных. При помощи разработанных алгоритмов симуляции создано 2 набора симулированных данных секвенирования: мыши и человека. Каждый набор состоял из коротких прочтений Illumina, а также длинных прочтений PacBio и Oxford Nanopore. Все наборы данных были использованы для сравнения качества различных программных продуктов.
13.Биоинформатический анализ особенностей сообщества арбускулярных микоризных грибов, ассоциированных с инвазивными растениями подсемейства Asteroideae
- Инвазивные растения наносят значительный ущерб региональному биоразнообразию. Одним из биотических факторов, оказывающих влияние на возможность распространения растений и закрепления их за пределами естественного ареала, является почвенное микробиологическое сообщество.
В рамках этого нового направления нами выявлен кластер арбускулярных микоризных грибов, характерных симбионтов инвазивных растений подсемейства Asteroideae, который способствует успешному распространению этих растений на новых территориях. На основании анализа ДНК-последовательностей этих грибов по локусу рДНК разрабатывается диагностическая система, которая позволит проводить количественный анализ представителей этого кластера. Данная система будет валидирована в 2024 году и оформлена заявка на патент.
14.Исследование микробиоты кишечника больных туберкулезом на основе данных shotgun секвенирования и методов метагеномного анализа.
- В рамках нового направления были начаты исследования, направленные на изучение кишечного микробиома у пациентов с впервые диагностированным туберкулезом легких. Сравнительный анализ метагеномных данных shotgun секвенирования 40 больных ТБ и 48 здоровых доноров позволил выявить явные признаки дисбиоза кишечного сообщества у больных ТБ: обедненный таксономический состав, истощение типичных комменсалов толстого кишечника (виды, принадлежащие к филуму Bacteroidetes) на фоне резкого увеличения количества условно-патогенных видов, принадлежащих к Actinobacteria, Firmicutes и Proteobacteria. В далбнейшем нами запланировано более глубокое исследование функционального потенциала микробиоты кишечника больных ТБ и возможного распространения штаммов с вирулентными факторами.
Детальное описание, отражающее фактическое выполнение работ, достигнутые результаты по каждому направлению НИР и их научно-практическая значимость подробно представлено в прилагаемом полном отчете за текущий период.
Финансирование из внешних по отношению к СПбГУ источников:
за истекший было заключено несколько
В 2023 году научно-исследовательская работа лаборатории велась по целому ряду направлений в области вычислительной биологии и анализа данных: транскриптомика, метагеномика, разработка инструментов для анализа графов сборок, анализ центромер в новых сборках генома человека, исследование микобиоты бореальных лесов Западной Сибири и микробиоты кишечника больных туберкулезом.
Важнейшими составляющими всех направлений было создание новых алгоритмов, оптимизация ранее созданных продуктов под решение новых задач, их реализация и поддержка. Также сотрудники лаборатории принимали участие в проектах, направленных на решение прикладных биологических и медико биологических задач.
За отчетный период были разработаны методы локальной таргетированной пересборки последовательностей генов, профагов и т.п. в сложных метагеномах, методы прикладывания скрытых марковских моделей (HMM) к графам сборки, отличных от графов де Брюйна, проведен анализ большого количества (около одного терабайта) транскриптомных данных высших. Разработаны и реализованы алгоритмы симуляции транскриптомных данных различных поколений. Выполнено описание микобиоты бореальных лесов и проведен предварительный анализ потенциального использования результатов исследования на практике. Завершен цикл работ в рамках геномного проекта Т2Т, посвященного созданию первой полной сборки генома человека референсного качества.
Инициированы новые направления в области исследования особенностей сообщества арбускулярных микоризных грибов, ассоциированных с инвазивными растениями подсемейства Asteroideae и анализа микробиоты кишечника больных туберкулезом на основе данных shotgun секвенирования и методов метагеномного анализа. По обоим проектам получены интересные предварительные данные.
Результаты исследований вошли в 14 статей, опубликованных в рецензируемых международных журналах Scopus/WoS/РИНЦ, 9 из которых в журналах первого или второго квартиля, в том числе одна в Science (IF=63.7), одна в Nature Biotechnology (IF = 59.1); две в Nature Methods (IF = 48.0), по одной в Genome Research (IF=9.043) и World Journal of Microbiology and Biotechnology” (IF 4.253)
По результатам НИР было представлено 6 устных и постерных докладов на национальных и международной конференциях. Защищена одна кандидатская диссертация. Востребованность создаваемых в лаборатории программных методов подтверждается высоким уровнем цитирования соответствующих публикаций.
Традиционно, большое внимание уделялось вопросу подготовки кадров по направлению «Биоинформатика».
Софинансирование из внешних по отношению к СПбГУ источников:
За отчетный период заключен ряд договоров с Акционерным Обществом "Научно-исследовательский институт Аджиномото-Генетика" на проведение биоинформатического анализа бактериальных и фаговых геномов.
Продолжилась работа в рамках 5-ого этапа гранта РНФ № 19-14-00172 «Адаптация семейства программ SPAdes для использования новейших технологий, применяемых в анализе и сборке геномных, метагеномных и транскриптомных данных: 2023 г.
Подана заявка и получен грант РНФ в рамках Конкурса 2023 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами» - Приоритизация генетических локусов риска псориаза и функциональный анализ кандидатных полиморфизмов в контексте инфекционного триггера
1.Лапидус Алла Львовна, руководитель проекта
- Общее руководство лабораторией
- Разработка и корректировка планов и задач в рамках научных исследований лаборатории
- Проведение семинаров
- Представление результатов исследований на конференциях
- Инициация, подготовка и написание статей
- Написание отчетов
2.Райко Михаил Петрович, исполнитель
- Проведение исследований в рамках направлений
Разработка новых алгоритмов анализа пангенома человека
Разработка высокопроизводительных алгоритмов для точного прикладывания длинных прочтений с низким количеством ошибок к полному геному.
Разработка алгоритмов для анализа архитектуры центромер по длинным прочтениям с низким количеством ошибок
Исследование микробиоты почв бореальной зоны России, характеризующихся гигантизмом трав, с применением комплексных подходов и методов анализа больших данных метагеномики в совокупности с другими метаданными.
- Представление результатов исследований на конференциях
- Написание отчетов
- Инициация, подготовка и написание статей
3.Мелешко Дмитрий Алексеевич, исполнитель
- Проведение исследований в рамках направлений
Разработка методов локальной таргетированной пересборки последовательностей генов, профагов и т.п. в сложных метагеномах
Разработка методов прикладывания скрытых марковских моделей (HMM) к графам сборки, отличных от графов де Брюйна
Разработка подходов совместного анализа метагеномных и метатранскриптомных данных
Анализ большого количества транскриптомных данных мыши и человека.
Разработка и реализация алгоритмов для симуляции транскриптомных данных различных поколений.
- Написание статей.
- Участие в работе лабораторного семинара
4.Очкалова София Дмитриевна, исполнитель
- Проведение исследований в рамках направлений:
Разработка методов локальной таргетированной пересборки последовательностей генов, профагов в сложных метагеномах
Разработка подходов совместного анализа метагеномных и метатранскриптомных данных
Разработка и реализация алгоритмов для симуляции транскриптомных данных различных поколений.
- Подготовка данных для публикации статей.
- Участие в работе лабораторного семинара
5.Дворкина Татьяна Евгеньевна, исполнитель
- Проведение исследований в рамках направлений:
Разработка алгоритмов валидации новых сборок генома человека
Разработка вычислительных методов для автоматической аннотации центромер по референсным сборкам и длинным прочтениям с низким уровнем ошибок
Разработка алгоритмов для выравнивания центромерных сборок
- Написание статей.
- Участие в работе лабораторного семинара
6.Малыгин Даниил Михайлович, исполнитель
- Проведение исследований в рамках направлений:
Биоинформатический анализ особенностей сообщества арбускулярных микоризных грибов, ассоциированных с инвазивными растениями подсемейства Asteroideae
Исследование микробиоты почв бореальной зоны России, характеризующихся гигантизмом трав, с применением комплексных подходов и методов анализа больших данных метагеномики в совокупности с другими метаданными.
- Написание статей.
- Участие в работе лабораторного семинара
- Выступление на конференциях
7.Юнусбаев Баязит Булатович, исполнитель
- Проведение исследований в рамках направления :
Исследование микробиоты кишечника больных туберкулезом на основе данных shotgun секвенирования и методов метагеномного анализа.
- Написание грантов
- Написание статей
- Участие в работе лабораторного семинара
8.Согомонян Каринэ Сергеевна, исполнитель
- Проведение исследований в рамках направлений
Новый штамм Azospirillum spp., выделенный из почвы черневой тайги.
Анализ метагеномных данных
- Подготовка данных для аписания статей
- Участие в работе лабораторного семинара
9.Бойко Галина Алексеевна, исполнитель
- Проведение исследований в рамках направлений, посвященных анализу метагеномных данных разной природы
10.Лебедев Андрей Сергеевич, исполнитель
- Проведение исследований в рамках направлений, посвященных анализу метагеномных данных различного происхождения
Междисциплинарность проекта подтверждается использованием современных информационных технологий, математических и статистических методов при разработке лабораторией программных продуктов для решения широкого спектра медико-биологических задач, сопряженных в первую очередь с изучением первичной структуры таких биологически активных молекул как ДНК, РНК, белки.
Short title | GZ-2023 |
---|
Acronym | LAB_GZ_2015 - 9 |
---|
Status | Finished |
---|
Effective start/end date | 1/01/23 → 31/12/23 |
---|