Description

Появление новых технологий и постоянно уменьшающаяся стоимость высокопроизводительного сиквенирования приводит к лавинообразному потоку получаемых данных. Так, помимо работ по прочтению генома человека, одним из главных источников данных для сиквенсных репозиториев стали проекты по метагеномному секвенированию. Как следствие этого, с ростом объема данных возрастает потребность масштабировать методы анализа, дающие возможность систематической интерпретации данных секвенирования, а для биологов дающие возможность определять присутствие конкретных организмов в конкретном образце и конкретную функцию, которую они выполняют.

Задачи проекта:
1. Разработка сборщика ForkSPAdes. Разработка данного метода является основной целью данного гранта и пререквизитом для остальных задач. В рамках данного задачи предполагается разработка варианта метагеномного сборщика metaSPAdes, оптимизированного для запуска на большом высокопроизводительном кластере с гетерогенной архитектурой. Типичный кластер (аналогичный кластеру EMBL-EBI) состоит из тысяч узлов, каждый из которых содержит 1-2 Gb ОЗУ на одно процессорное ядро с небольшим (<10) количеством узлов, имеющих большой (1-2 Tb) ОЗУ. Для оптимизации производительности текущего алгоритма metaSPAdes будет осуществлена декомпозиция существующих алгоритмов на отдельные шаги так, чтобы шаги, требующие меньший объем памяти, могли выполнятся на вычислительных узлах общего назначения, и только те шаги, которые требуют большого объема памяти одновременно, мигрировали бы на узлы с большим объемом ОЗУ.

2. Аннотация собранных метагеномов. Выполнение задачи 1, позволит осуществить широкомасштабную сборку метагеномных образцов. Мы произведем аннотацию этих сборка для вторичной оценки качества сборки, а также получения новых биологических знаний для данного конкретного набора данных.

3. Дополнительные стратегии сборки посредством инструментов набора SPAdes. Несмотря на то, что сборка последовательностей, полученных из одного образца, является самым распространенным способом сборки геномов de novo, тем не менее данный подход может привести к неполным или фрагментарным черновым сборкам. Совместная (ко-сборка) проб, содержащих близкородственные организмы может существенно улучшить качество сборок отдельных организмов. Более того, базы данных прочитанных геномов (особенно связанных с человеком микроорганизмов) становятся все более и более обширными, что позволяет исследовать качество гибридных (на основе близкородственных геномов и de novo). В рамках данной задачи будет проведено исследование возможности ко-сборок и гибридных сборок метагеномов, наблюдаемых проблем и возможных способов их решения.

4. Разработка metaRNA-SPAdes. На текущие момент объем метатранскриптомных данных существенно меньше метагеномных за счет более сложной процедуры пробоподготовки. Однако, метатранскриптомные данные, особенно совмещенные с соответствующими метагеномными, дают четкую картину функционирования экосистемы, а не просто набор геномов отдельных представителей. Задача посвящена адаптации алгоритмов rnaSPAdes для сборки метатранскриптомных данных, а также портирование их для запуска на высокопроизводительных вычислительных кластерах.








Layman's description

Проект направлен на модификацию и адаптацию метагеномного сборщика metaSPAdes с целью использования в высокопроизводительной цепочке анализа метагеномов в EMBL-EBI.
Основными задачами проекта являются: анализ и модификация алгоритмов SPAdes и metaSPAdes с целью запуска на вычислительном кластере EMBL-EBI; определение оптимальной конфигурации вычислительного кластера и параметров алгоритмов SPAdes и metaSPAdes с целью наилучшего использования ресурсов вычислительного кластера при запуске metaSPAdes в составе аналитической цепочки сборки и анализа метагеномов EBI; разработка новой аналитической цепочки сборки метагеномов EBI; пересборка и анализ метагеномов и метатранскриптомов из ENA.
Результаты проекта позволят не только улучшить аналитическую цепочку анализа и сборки метагеномов в EMBL-EBI, но и получить реализации сборщиков SPAdes, metaSPAdes и rnaSPAdes, способные эффективно использовать ресурсы высокопроизводительных вычислительных кластеров, что позволит существенно сократить использование вычислительных ресурсов для сборки геномов, метагеномов и метатранскриптомов.

Key findings for the project

Основным результатом, полученным в результате выполнения задач гранта, является распределенный сборщик hpcSPAdes, способный одновременно использовать ресурсы нескольких узлов распределенных вычислительных кластеров.

hpcSPAdes разработан на основе кодовой базе геномного сборщика SPAdes путем глубокой доработки многих входящих в его состав методов и алгоритмов для независимой параллельной работы на отдельных вычислительных узлах с последующей синхронизацией и объединением результатов. Стоит отдельно отметить, что наработки, полученные во время работы над hpcSPAdes, были интегрированы обратно в кодовую базу SPAdes, тем самым упрощая дальнейшую разработку и поддержку сборщика. Текущая версия hpcSPAdes основана на SPAdes 3.15.3 и доступна на https://cab.spbu.ru/software/hpcspades/. В дальнейшем hpcSPAdes будет распространяться в составе SPAdes в виде отдельного режима запуска последнего на вычислительных кластерах поверх MPI.

hpcSPAdes был интегрирован в вычислительную цепочку анализа метагеномов EMBL-EBI MGnify версии 5 (https://www.ebi.ac.uk/metagenomics/), и является там основным инструментом для сборки метагеномов. Отдельно отметим, что хоть одной из основных целей была интеграция с кластером EMBL-EBI, при разработке не было сделано жесткой привязки к используемой вычислительной платформе. Это позволило провести апробацию hpcSPAdes в других геномных центрах (JGI, UCSD), использовать ресурсы Ресурсного Центра “Вычислительный Центр СПбГУ” для ежедневной разработки, а также тривиально перенести запуски hpcSPAdes на новый кластер Codon в EBI, введенный в эксплуатацию летом 2021 года. В частности, это стало возможным за счет разработанной специальной прослойки абстрагирования от используемого на вычислительном кластере планировщика задач: поддерживаются как широко известные планировщики LSF и Slurm, так и имеется возможность поддержки задаваемых пользователем произвольных планировщиков задач.

При помощи новой версии вычислительной цепочки MGnify с использованием hpcSPAdes были пересобраны и проанализированы более 100 тыс. данных метагеномов, депонированных в ENA, а также произведена их аннотация и поиск кластеров биосинтетизирующих генов (режим bgcSPAdes), плазмид (metaplasmidSPAdes) и генов, обуславливающих антибиотикорезистентность. Полученные сборки в настоящий момент депонируются в ENA, а результаты аннотации доступны через интерфейс MGnify.

Функциональность разработанных ранее сборщиков rnaSPAdes и metaSPAdes была расширена с целью осуществления ко-сборки метатранскриптомных и метагеномных данных. На их основе была разработана вычислительная цепочка metaGT, использующая пакет Nextflow для распараллеливания отдельных шагов сборки на отдельные узлы вычислительного кластера. Разработанное ПО было выложено в публичный доступ на https://github.com/ablab/metaGT. Для апробации metaGT был развернут на вычислительном кластере EMBL-EBI, где в рамках международного проекта HoloFood (holofood.eu) был произведен анализ нескольких сотен наборов данных, полученных секвенированием метатранскриптома кишечников кур и лососей. Проведенные эксперименты подтвердили высокую производительность разработанных методов и хорошее качество получаемых результатов. Планируется включение metaGT в следующую версию вычислительной цепочки анализа метагеномов MGnify в EMBL-EBI, а также использование metaGT для широкомасштабной сборки метатранскриптомов из ENA.

Academic ownership of participants (text description)

Коробейников, Антипов, Кунявская – разработка алгоритмов и методов анализа и сборки метагеномов
Бушманова, Пржибельский – разработка алгоритмов и методов анализа и сборки метатранскриптомов
Лапидус – анализ данных метагеномов

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

разрешается
Short title__
AcronymRFBR_EMBL_2018 - 3
StatusFinished
Effective start/end date23/09/209/09/21

ID: 62752609