Automated data integration for increased sensitivity and specificity in the LC-MS-based identification of natural products

Project: Grant fulfilmentTotal grant fulfilment

Project Details

Description

Актуальность:
Биологически активные соединения природного происхождения (БАС, англ. natural products) являются богатым источником ценных с точки зрения медицины веществ: антибиотиков, витаминов, иммуномодуляторов, иммунодепрессантов и других (Dias et al., Metabolites 2012). Их обнаружение и исследование особенно актуально с учетом того, что проблема выработки устойчивости болезнетворных микроорганизмов к существующим противомикробным препаратам (прежде всего антибиотикам) уже сейчас носит глобальный характер и отнесена ВОЗ к наиболее серьезным угрозам для здоровья человечества (https://www.who.int/mediacentre/factsheets/antibiotic-resistance/ru/). Успехи последних лет в развитии биотехнологий привели к настоящей революции в биомедицине. В частности, современные технологии масс-спектрометрии позволяют получать огромные массивы информации о БАС, синтезируемых в прежде недоступных для изучения микроорганизмах и микробных сообществах (Wang et al., Nature Biotechnology 2016). Увеличение объемов данных влечет за собой необходимость разработки соответствующих вычислительных методов для их анализа и обработки. В то время как в ряде областей, таких как геномика и протеомика, компьютерные методы анализа уже давно являются неотъемлемой частью повседневных биомедицинских исследований, программное обеспечение в области анализа БАС находится на ранней стадии развития. Только в последние несколько лет появились первые инструменты для высокопроизводительной обработки таких данных (Mohimani et al., Nature Chemical Biology 2017; Gurevich et al., Nature Microbiology 2018; Mohimani et al., Nature Chemical). Однако качество выдаваемых данными программами результатов (соответствий БАС--масс-спектр) далеко от оптимальных значений как по чувствительности, так и по специфичности и требует улучшения, чтобы сделать возможным применение подобных вычислительных методов в широком спектре реальных биомедицинских исследований.

Предлагаемые методы и подходы:
Основная идея предлагаемого проекта заключается в интеграции ведущих на данных момент подходов высокопроизводительной идентификации БАС с автоматической предобработкой масс-спектров хорошо апробированными методами вычислительной протеомики (с возможной их адаптацией под специфику данных БАС). В результате предобработки на вход идентифицирующих программ будут поступать гораздо менее зашумленные данные, что позволит значительно улучшить качество итоговых результатов с точки зрения чувствительности и специфичности.
Весь проект условно разделен на три этапа.
1. Подготовительный этап (выполняется заявителем до отъезда в Германию)
- изучение наиболее популярных протеомных инструментов для предобработки данных масс-спектрометрии и проверка их применимость к целевым наборам данных (тандемные масс-спектры БАС высокого разрешения). Возможный набор инструментов: OpenMS (Sturm et al, ​BMC Bioinformatics​ 2008; Röst et al, ​Nature Methods​ 2016), MZmine (Katajamaa et al, Bioinformatics 2006; Pluskal et al, BMC Bioinformatics 2010)
- cоздание тестовых наборов данных и инфраструктуру для сравнения различных алгоритмов предобработки масс-спектров. Возможные наборы данных: отобранные вручную спектральные библиотеки, такие как библиотека GNPS (https://gnps.ucsd.edu/ProteoSAFe/libraries.jsp), MassBank (https://github.com/MassBank/MassBank-data); наборы первичных спектральных данных БАС, тщательно проанализированные в прошлых публикациях, например, MSV000079450, MSV000078604, MSV000078839 (доступны с платформы GNPS), описанные в Gurevich et al., Nature Microbiology 2018
2. Основной этап (непосредственная стажировка, тесное взаимодействие заявителя и группы профессора Кольбахера)
- сравнение существующих методов предобработки масс-спектрометрических данных (с использованием созданной на первом этапе инфраструктуры) и выбор наиболее подходящего метода (или набора методов)
- анализ сильных и слабых сторон инструментов предобработки и усовершенствование наиболее проблемных мест с использованием методов, применяемых и разрабатываемых в лаборатории профессора Кольбахера (прежде всего OpenMS)
- интеграция процедуры предобработки и подходов идентификации БАС (начиная с Dereplicator (Mohimani et al., 2017) и далее VarQuest (Gurevich et al., 2018) другие инструменты). Интеграция может быть сделана с использованием KNIME (https://www.knime.com/) или ​nf-core (https://nf-co.re/).
- оценка эффективности созданного вычислительного конвейера путем сравнения количества идентифицированных БАС при
фиксированном уровне ложноположительных идентификаций в различных режимах (например, пептидные БАС, варианты известных БАС, непептидные БАС) и с использованием различных наборов данных (разные инструменты сбора данных, разные организмы и т.д.); настройка параметров конвейера для достижения наилучшего результата в большинстве случаев. Возможные тесты включают вышеупомянутые тестовые наборы данных и крупномасштабный сравнительный анализ на десятках миллионов масс-спектров БАС, доступных с платформы GNPS.
3. Заключительный этап (выполняется после возвращения в Россию и подразумевает удаленное взаимодействие с немецкой группой)
- программный выпуск разработанного конвейера в открытый доступ. Возможные варианты конечного ПО: инструмент командной строки, веб-интерфейс на платформе GNPS, приложение KNIME, конвейер nf-core
- написание и отправка на рецензию в международный специализированный журнал статьи, описывающей созданный конвейер и его применение к реальным наборам данных БАС

Имеющийся научный задел:
Автор заявки в составе лаборатории "Центр алгоритмической биотехнологии" с 2015 года руководит направлением разработки программ для высокопроизводительной идентификации БАС по масс-спектрометрическим данным. Принимал непосредственное участие в разработке первого высокопроизводительного метода для идентификации пептидных БАС по масс-спектрам -- Dereplicator (Mohimani et al., 2017) и его последующих адаптаций для поиска новых вариантов известных соединений -- VarQuest (Gurevich et al., 2018) и для работы с непептидными БАС -- Dereplicator+ (Mohimani et al., 2018). Участвовал в ряде международных проектов по идентификации и анализу БАС (Garg et al., 2016; Edlund et al., 2017). Высокий уровень автора заявки как ученого-биоинформатика и разработчика ПО подтверждается участием в создании и развитии крайне востребованных научных программных продуктов, таких как SPAdes (Bankevich et al., 2012; более 3700 ссылок в Scopus) и QUAST (Gurevich et al., 2013; более 800 ссылок в Scopus), а также наличием профильных наград (Web of Science Awards 2017: Highly Cited Researcher Russia, Награда СПбГУ 2018 года за вклад в науку молодых ученых).

Обоснование выбора принимающей организации:
Профессор Оливер Кольбахер (Oliver Kohlbacher) является всемирно известным специалистом в области вычислительной масс-спектрометрии и автором более 200 научных публикаций на эту тему. Он один из инициаторов проекта OpenMS (Sturm et al, ​BMC Bioinformatics​ 2008; Röst et al, ​Nature Methods​ 2016). Его лаборатория в Тюбингенском университете продолжает разработку и улучшение инфраструктуры OpenMS и активно использует ее в различных исследовательских проектах. Таким образом, профессор Кольбахер и сотрудники его лаборатории смогут предоставить необходимое содействие при реализации предложенного проекта, а именно: доступ и консультации по исходному коду OpenMS, экспертная помощь в подборе оптимальных алгоритмов обработки данных масс-спектрометрии, содействие в модификации базовых алгоритмов под специфику данных БАС, помощь в интеграции Dereplicator и других инструментов в вычислительные конвейеры на базе KNIME и ​nf-core, содействие в интерпретации биологической значимости результатов работы созданного конвейера на больших объемах реальных данных БАС (десятки миллионов спектров).

Ожидаемые результаты:
1. Создан вычислительный конвейер для высокопроизводительной идентификации БАС по масс-спектрометрическим данным на базе интеграции программ СПбГУ (Dereplicator, VarQuest и др.) с платформой OpenMS. Качество выходных результатов конвейера (чувствительность и специфичность выдаваемых пар БАС--масс-спектр) значительно выше, чем у исходных версий программ и их конкурентов.
2. Реализованная программа применена для анализа десятков миллионов масс-спектров БАС из открытых источников (например, с платформы GNPS), проведен анализ полученных идентификаций.
3. Статья о разработанном программном продукте и его применении опубликована в международном рецензируемом журнале (импакт-фактор не менее 2.0).

Key findings for the project

Стажировка в группе профессора Кольбахера привела как к получению новых знаний в области вычислительной масс-спектрометрии, так и к материальным результатам, которые будут полезны всему сообществу исследователей биологически активных соединений природного происхождения (БАС) в будущем.
Группа Кольбахера включает в себя примерно 10 аспирантов и постдоков работающих в области вычислительной масс-спектрометрии. Таким образом, тесное сотрудничество и совместная работа с ними в течении трех месяцев позволила быстро передать знания и опыт в этой активно развивающейся области. Данное обстоятельство было чрезвычайно важно для заявителя, так как соответствующую экспертизу очень сложно получить в Санкт-Петербурге и России в целом из-за отсутствия групп мирового уровня, работающих в этой области на данный момент. Кроме того, во время пребывания было установлено много новых научных контактов, которые принесут новое плодотворное научное сотрудничество группе заявителя (лаборатория “Центр алгоритмической биотехнологии”, ЦАБ) в Санкт-Петербургском государственном университете. Полученные знания также планируется использовать при подготовке новых курсов в рамках магистерской программы «Биоинформатика» (Биологический факультет СПбГУ).

Итоговые материальные результаты проекта включают три прототипа программного обеспечения, которые уже продемонстрировали многообещающие результаты на тестовых наборах данных. Эти программные продукты включают в себя:
* адаптер OpenMS для инструментов идентификации БАС, разработанные в лаборатории «ЦАБ» в 2016– 2018 годах (Dereplicator, VarQuest и т. д.) для более легкой интеграции и более широкого использования данных программ исследовательским сообществом;
* вычислительные конвейер, объединяющий современные методы предварительной обработки данных масс-спектрометрии (обнаружение компонент, деконволюция заряда и т.д. - с помощью набора инструментов библиотеки OpenMS, разрабатываемой в лаборатории Кольбахера) и уникальные инструменты ЦАБ для идентификации БАС (Dereplicator, VarQuest и т. д.);
* новый универсальный метод вычисления частоты ложноположительных идентификаций (False Discovery Rate) при поиске БАС по данным масс-спектрометрии с использованием баз данных о химической структуре природных соединений.

По результатам стажировки в 2020 году вышла статья "Feature-based molecular networking in the GNPS analysis environment" в журнале Nature Methods (IF 30.822). Статья является результатом большой международной коллаборации с участием как проф. Кольбахера и членов его группы, так и участника стажировки Гуревича А.А.
AcronymD. Mendeleev 2019
StatusNot started