Вторичные метаболиты растений лежат в основе многих лекарственных препаратов включая антибиотики, иммунодепрессанты, витамины и другие. Современные технологии масс-спектрометрии позволяют за короткое время произвести сканирование образцов с тысячами метаболитов, получая в результате огромные объемы данных высокого разрешения. Несмотря на то, что эти данные представляют собой перспективный источник для открытия новых соединений, их интерпретация остается узким местом, требующим развития соответствующих вычислительных методов.
В рамках данного проекта были разработаны два новых подхода к высокопроизводительному анализу данных тандемной масс-спектрометрии вторичных метаболитов растений. Мы показали, что по точности работы наши методы соответствуют или превосходит все существующие аналоги и при этом обрабатывают данные на несколько порядков быстрее, что позволило применить их к анализу миллионов масс-спектров против базы с сотнями тысяч вторичных метаболитов. Кроме того, созданные программные инструменты обладают уникальной на данный момент функциональностью и позволяют находить в спектрах не только известные соединений, но и их новые варианты, не представленных в базе данных.
Вычислительные методы были созданы в тесном сотрудничестве опытных разработчиков научного программного обеспечения и их конечных пользователей -- исследователей вторичных метаболитов. Апробация методов на больших объемах метаболомных данных показала их эффективность как для вторичных метаболитов растительного, так и микробного (бактерии, грибы) происхождения, таким образом расширяя охват использования созданных инструментов. Оба подхода доступны в виде приложения для командной строки и удобного веб сервиса на GNPS, крупнейшей международной платформе по анализу масс-спектров вторичных метаболитов (Wang et al, Nature Biotechnology, 2016). Мы расчитываем, что созданные методы будут активно использоваться другими научным группами, изучающими вторичный метаболизм, и помогут быстрее находить потенциально полезные биоактивные вещества природного происхождения.
1. Продемонстрирована практическая польза от применения созданного на первом этапе инструмента molDiscovery в реальных метаболомных исследованиях. MolDiscovery идентифицировал в шесть раз больше уникальных соединений по сравнению с существующими аналогами при анализе более 8 миллионов масс-спектров из общедоступных данных с платформы GNPS против базы с химическими структурами более 700 тысяч вторичных метаболитов (см. Cao et al, 2021). Применение molDiscovery к набору микробных масс-спектров с известными геномами организмов-продуцентов позволило связать масс-спектры 19 молекул с известными биосинтетическими генными кластерами, отвечающими за их синтез, а также обнаружить 3 ранее неописанных генных кластера (см. Cao et al, 2021).
2. На базе molDiscovery разработан подход к вариативной идентификации вторичных метаболитов по масс-спектрам и базе химических соединений. В отличии от существующих аналогов, подход позволяет выполнять высокопроизводительный анализ (миллионы масс-спектров и миллионы соединений) и работает со всеми классами вторичных метаболитов. Подход реализован в программе varDiscovery, подготовлены статья и заявка на регистрацию программы для ЭВМ (отправка статьи в журнал и завершение регистрации в Роспатенте планируется после окончания гранта).
Гуревич Алексей Александрович, Старший научный сотрудник, общее руководство проектом, написание статьи, разработка алгоритма
Михеенко Алла Александровна, Научный сотрудник, анализ и интерпретация результатов molDiscovery и varDiscovery на больших объемах реальных данных
Пржибельский Андрей Дмитриевич, Старший научный сотрудник, апробация программы molDiscovery на реальных данных
Тагирджанов Азат Мухаммедович, Старший научный сотрудник, разработка и апробация программы varDiscovery, написание статьи