Появление новых технологий и постоянно уменьшающаяся стоимость высокопроизводительного сиквенирования приводит к лавинообразному потоку получаемых данных. Так, помимо работ по прочтению генома человека, одним из главных источников данных для сиквенсных репозиториев стали проекты по метагеномному секвенированию. Как следствие этого, с ростом объема данных возрастает потребность масштабировать методы анализа, дающие возможность систематической интерпретации данных секвенирования, а для биологов дающие возможность определять присутствие конкретных организмов в конкретном образце и конкретную функцию, которую они выполняют.
Задачи проекта:
1. Разработка сборщика ForkSPAdes. Разработка данного метода является основной целью данного гранта и пререквизитом для остальных задач. В рамках данного задачи предполагается разработка варианта метагеномного сборщика metaSPAdes, оптимизированного для запуска на большом высокопроизводительном кластере с гетерогенной архитектурой. Типичный кластер (аналогичный кластеру EMBL-EBI) состоит из тысяч узлов, каждый из которых содержит 1-2 Gb ОЗУ на одно процессорное ядро с небольшим (<10) количеством узлов, имеющих большой (1-2 Tb) ОЗУ. Для оптимизации производительности текущего алгоритма metaSPAdes будет осуществлена декомпозиция существующих алгоритмов на отдельные шаги так, чтобы шаги, требующие меньший объем памяти, могли выполнятся на вычислительных узлах общего назначения, и только те шаги, которые требуют большого объема памяти одновременно, мигрировали бы на узлы с большим объемом ОЗУ.
2. Аннотация собранных метагеномов. Выполнение задачи 1, позволит осуществить широкомасштабную сборку метагеномных образцов. Мы произведем аннотацию этих сборка для вторичной оценки качества сборки, а также получения новых биологических знаний для данного конкретного набора данных.
3. Дополнительные стратегии сборки посредством инструментов набора SPAdes. Несмотря на то, что сборка последовательностей, полученных из одного образца, является самым распространенным способом сборки геномов de novo, тем не менее данный подход может привести к неполным или фрагментарным черновым сборкам. Совместная (ко-сборка) проб, содержащих близкородственные организмы может существенно улучшить качество сборок отдельных организмов. Более того, базы данных прочитанных геномов (особенно связанных с человеком микроорганизмов) становятся все более и более обширными, что позволяет исследовать качество гибридных (на основе близкородственных геномов и de novo). В рамках данной задачи будет проведено исследование возможности ко-сборок и гибридных сборок метагеномов, наблюдаемых проблем и возможных способов их решения.
4. Разработка metaRNA-SPAdes. На текущие момент объем метатранскриптомных данных существенно меньше метагеномных за счет более сложной процедуры пробоподготовки. Однако, метатранскриптомные данные, особенно совмещенные с соответствующими метагеномными, дают четкую картину функционирования экосистемы, а не просто набор геномов отдельных представителей. Задача посвящена адаптации алгоритмов rnaSPAdes для сборки метатранскриптомных данных, а также портирование их для запуска на высокопроизводительных вычислительных кластерах.