Layman's description

В рамках предложенного проекта предполагается разработка новых подходов, методов и алгоритмов, направленных на:
- использование таких новых технологий как 3C, Chromium SLRs и геномных карт высокого разрешения для существенного улучшения качества метагеномных и метатранскриптомных сборок
- улучшение информативности и релевантности информации, получаемой из геномных, метагеномных и метатранскриптомных сборок за счет использования топологии графа сборки, а не результирующих последовательностей-контигов.

Key findings for the project

1. Разработан новый алгоритм гибридной метагеномной сборки. Реализация алгоритма вошла в релиз SPAdes 3.14. Результаты испытаний, проведенных международным консорциумом по тестированию программ для метагеномного анализа CAMI 2 challenge показали, что разработанный алгоритм является одним из лидеров в своей области. Статья, описывающая результаты CAMI 2 challenge находится на рецензировании в журнале Nature Methods (Q1, IF=34.9), препринт доступен на https://www.biorxiv.org/content/10.1101/2021.07.12.451567v1.full.pdf
2. Разработан алгоритм разрешения повторов по длинным точным геномным фрагментам. Новый алгоритм продемонстрировал заметное увеличение метрики NGA50 и снижение числа структурных ошибок. Реализация алгоритма вошла в релиз SPAdes 3.15.
3. Реализован и протестирован алгоритм для коррекции метагеномных сборок, полученных по данным секвенирования третьего поколения. Разработанный инструмент показал среднее снижение уровня ошибок на 30%. Прототип алгоритма коррекции ошибок реализован на С++ как часть сборщика SPAdes (github.com/ablab/spades/tree/contig_corrector).
4. Разработан алгоритм гибридной транскриптомной сборки, который восстанавливает в среднем на 8% больше генов и на 14% больше альтернативных изоформ по сравнению со сборщиками, не использующими длинные прочтения. Реализация алгоритма вошла в пакет SPAdes начиная с версии 3.14.0.
5. Гибридный транскриптомный сборщик применен в проекте по исследованию экспрессии генов артишока, с его помощью расширена существующая геномная аннотация артишока: обнаружено 578 новых генов и 10’613 новых изоформ.
6. Статья, описывающая реализованные алгоритмы гибридной транскриптомной сборки, опубликована в международном журнале BMC Bioinformatics (Q1, IF 2.614).
7. Реализованы инструменты оценки качества метатранскриптомных сборок, основанные на сравнении собранных контигов с базами известных белков (github.com/ablab/metarna/blob/master/QA.py).
8. Разработаны программы для генерации метатранскриптомных данных metachef (github.com/ablab/metarna/tree/master/metachef). Его код переиспользован для симуляции метранскриптомных прочтений в симуляторе LRGASP (github.com/andrewprzh/lrgasp-simulation/tree/meta_rna). Создано три набора симулированных данных с различной сложностью бактериального состава.
9. Реализован алгоритм метатранскриптомной сборки, основанный на идее совместной сборки метагеномных и метатранскриптомных данных (https://github.com/ablab/metaGT).
10. Новый метатранскриптомный сборщик протестирован на симулированных и реальных данных и позволяет восстанавливать в среднем в 1,5 раза больше полных белковых последовательностей по сравнению с предыдущим алгоритмом.
11. Разработан инструмент HiCSPAdes (https://cab.spbu.ru/software/hicspades/), включающий в себя модули для биннинга контигов, скаффолдинга метагеномных сборок и поиска ошибок в сборке. Модуль для скаффолдинга был протестирован на синтетическом метеганоме из 8 бактериальных геномов, показав значительно более высокое NGA50 на 3 из 8 бактериях чем существующий инструмент SALSA2.
12. Модуль HiCSPAdes для биннинга был апробирован на данных Hi-C и Illumina, полученных путем секвенирования четырех образцов микрофлоры кишечника двух пациентов реанимации. С помощью модуля для биннинга в четырёх образцах удалось обнаружить суммарно 88 бинов (кластеров) высокого качества, в то время как с помощью инструмента bin3C удалось обнаружить только 83 бина высокого качества. Также в бинах, полученных с помощью HiCSPAdes было найдено суммарно 398 вирулентных факторов, в то время как в бинах, полученных с помощью данных Illumina удалось найти только 323 вирулентных фактора.
13. Статья, описывающая методы анализа данных микробиоты пациентов из реанимации с помощью Hi-C (включая результаты модуля биннинга HiCSPAdes), принята к публикации в журнал Frontiers in Microbiology (Q1, IF=5.26).
14. Инструмент cloudSPAdes для сборки микробных сообществ и небольших эукариотических организмов на основе синтетических длинных прочтений разработан и интегрирован в геномный сборщик SPAdes в качестве дополнительного модуля. Версия SPAdes, включающая в себя модуль cloudSPAdes, доступна здесь https://cab.spbu.ru/software/cloudspades/.
15. Разработана модификация модуля cloudSPAdes для гибридной сборки длинных прочтений и данных TELL-Seq и\или stLFR в виде утилиты cloudExtractor, выдающей набор путей в графе сборки, предположительно соответствующих синтетическим длинным прочтениям. Утилита была протестирована на наборе данных из симулированных высокоточных прочтений X-хромосомы человека, с помощью полученных путей удалось разрешить 236 из 796 повторов в графе сборки. Утилита доступна на https://github.com/ablab/spades/tree/cloud_extractor
16. Алгоритм, лежащий в основе модуля cloudSPAdes, полученные результаты и вычислительные методы были представлены в устном докладе на международной конференции ISMB/ECCB 2019. Статья с описанием алгоритма и полученных результатов была опубликована в журнале Bioinformatics (IF 6.937).
17. Разработана вычислительная цепочка viralFlye, предназначенная для анализа геномов вирусов в метагеномных данных секвенированных при помощи технологий второго и третьего поколения. Код был опубликован на портале Github (https://github.com/Dmitry-Antipov/viralFlye).
18. Статья, описывающая viralFlye принята к публикации в журнале Genome Biology. На данных 12 метагеномов человеческого кишечника из статьи (Suzuki et al., 2019) viralFlye собрал более чем в четыре раза больше вирусных последовательностей чем в оригинальном исследовании.
19. Разработаны алгоритмы rnaviralSPAdes / coronaSPAdes для сборки РНК-вирусов в общем и коронавирусов в частности. Реализация алгоритмов доступна в SPAdes, начиная с версии 3.15.0
20. В 2021 году в журнале Bioinformatics (Q1, IF = 6.9) была опубликована статья, описывающая алгоритмы coronaSPAdes и rnaviralSPAdes.
21. В результате анализа более 5 млн. библиотек SRA/ENA в рамках коллаборации Serratus (http://serratus.io) было обнаружено более 120 тыс. кандидатов на новые виды РНК вирусов, включающих более 110 новых видов коронавирусов (а также кандидат на новый род коронавирусов). Таким образов, за счет использования инструментов rnaviralSPAdes/coronaSPAdes было увеличено примерно в 9.8 раз общее число известных видов РНК вирусов, в 8 раз увеличено число родов РНК вирусов и в 1.9 раз – число семейств. Статья принята в Nature (Q1, IF=46.9). Препринт: https://www.biorxiv.org/content/10.1101/2020.08.07.241729v2.full.pdf
22. Разработан инструмент PathRacer для прикладывания нуклеотидных и аминокислотных скрытых марковских моделей к графам сборки (http://cab.spbu.ru/software/pathracer). Помимо непосредственно прикладывания PathRacer выдает также визуализацию полученного пути в CIGAR-подобном формате, а также аннотированный граф сборки с добавленными путями скрытых марковских моделей.
23. Реализован и протестирован инструмент SPAligner для прикладывания молекулярных последовательностей к графу сборки (http://cab.spbu.ru/software/spaligner/)
24. SPAligner был представлен на международной конференции BiATA-2019 и опубликован в журнале BMC Bioinformatics (Q1, IF=2.614) (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-020-03590-7)
25. SPAligner был применён для поиска инсектицидных генов в конвейре ORFograph (Dvorkina et al., 2021)
26. Реализована вычислительная цепочка ORFograph для поиска генов в графах сборки (https://github.com/ablab/orf-search)
27. Было показано, что ORFograph успешно справляется с задачей поиска достаточно длинных инсектицидных генов, которые невозможно найти в обычной метагеномной сборке из-за фрагментации.
28. Статья по итогам работы ORFograph была опубликована в журнале Microbiome (Q1, IF 11.6)

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

разрешается
AcronymRSF_RG_2019 - 3
StatusFinished
Effective start/end date1/01/2131/12/21

ID: 72774008