Основной целью проекта «Российские геномы» является создание научной компьютерной базы данных, содержащей деперсонализированную информацию о полногеномных последовательностях россиян, чьи предки являются коренными жителями данного региона в нескольких поколениях.
Первый международный проект по исследованию геномов людей под названием «1000 геномов», стартовал десять лет назад. В ходе этого проекта были исследованы геномы представителей 26 популяций людей из разных континентов - Европы, Азии, Южной и Северной Америки. Россия в этом проекте не была представлена. После его окончания стартовали национальные проекты во многих странах мира. У нас запущен свой национальный проект по исследованию геномов различных этносов и региональных групп, проживающих в России, включая большие и малые народности. Созданная база данных станет основой для разработки принципов медицины будущего.
Анализ генетической информации - это результат плотного сотрудничества и совместной работы ученых из разных областей науки: врачей, генетиков, биологов, математиков и программистов. Результатом такого исследования является обобщенная информация об отличии генома людей конкретной региональной или этнической группы. Эта информация поможет выявлениюновых генетических вариантов, которые являются специфическими для определённых российских этнических и региональных групп; изучению генетических вариантов, влияющих на частоту известных болезней среди российского населения, а также интерпретации закономерностей вариабильности геномов человека для расшифровки исторических путей миграции и оседлости человека на территории Евразии.
В проекте «Российские геномы» исследуются образцы ДНК, собранные от семейных триад (мать, отец и их биологический совершеннолетний ребенок), с целью выявления закономерностей передачи признаков от родителей своим детям, характерная для данной местности и получения карты основных гаплотипов (совокупность генов на хромосоме, наследуемых вместе) российского населения, необходимой для идентификации маркеров генов, связанных с наиболее часто встречающимися болезнями среди разных групп россиян.
Сегодня, по сути, закладывается база данных, которая позволит работать ученым следующей волны. В расшифровке геномов заинтересованы врачи, генетики, фармакологи, историки, этнографы, антропологи, а также и все жители в целом, потому что результаты исследований помогут ответить на многие важные вопросы: каковы были пути миграции и расселения людей, к каким заболеваниям восприимчивы те или иные этносы и группы, какие лекарственные препараты наиболее эффективны для каждого из них.
С июня 2019 года в связи со сменой руководства лаборатории проводилась ревизия существующих, планирующихся проектов и методов их реализации. По результатам внутреннего аудита и консультаций с руководством СПбГУ было принято решение о реорганизации лаборатории и, как следствие, выработана общая концепция развития Центра и проекта “Российские Геномы” (РГ) на ближайшие три года. Новая концепция предполагает смещение фокуса с геномики редких видов животных и постепенную трансформацию лаборатории в центр передовых технологий и исследований в области трансляционной, компьютерной и системной биологии. Неотъемлемой частью предложенной стратегии является диверсификация направлений исследований, проводимых в Центре, адаптация и оптимизация имеющихся вычислительных ресурсов, имеющие конечной целью повышение конкурентоспособности лаборатории.
Данный отчет имеет следующую структуру: сначала будут представлены результаты достигнутые в ходе реализации проекта “Российские Геномы”, затем ‒ менее масштабные инициативы по направлениям биомедицина, геномика редких животных и культурных растений, и, наконец, приложение, отражающее количественные показатели.
I. Проект “Российские Геномы”
В марте 2019 года была опубликована пилотная статья (Zhernakova et al, 2019) (5) содержащая анализ генетических вариантов 60 доноров проекта, представленных семейными триадами из северо‒западных областей России и Якутии. Необходимо заметить, что эта статья описывает генетическое разнообразие менее 20% от общего числа отсеквенированных на данный момент образцов. Отзывы рецензентов статьи и отклики на презентации результатов исследования на международных конференциях, переосмысленные новым руководством лаборатории, повлекли за собой реорганизацию вычислительной инфраструктуры Центра, а также инструментов анализа данных с целью а) оптимизации имеющихся вычислительных ресурсов и б) приведения их в соответствие с общепризнанными международным практиками анализа геномных данных.
Инфраструктура. В результате перестройки вычислительных ресурсов были созданы два серверных кластера (24 ядра и 378 Гб памяти, 228 ядер и 4.25 Тб памяти). На обоих серверах установлено идентичное программное обеспечение, обеспечивающее надежную работу систем конвейерной обработки данных; больший сервер включает закрытый контур для защиты данных проекта РГ. В 2019 году суммарное дисковое пространство для хранения данных будет доведено до 600Тб. Таким образом, мы получили удобную для администрирования и использования, хорошо структурированную, расширяемую, ёмкую вычислительную инфраструктуру.
Базы данных и РИД. В 2019 году было получено свидетельство о регистрации РИД на базу даных частот аллелей популяции России (GRAF; свидетельство 2019620519 от 01.04.2019). В целях оптимизации информационных ресурсов проекта было принято решение переработать схемы существующих баз данных и объединить систему учета образцов и базу данных частот аллелей. На основе новой концептуальной схемы начата разработка (прототипирование) нового информационно‒аналитического портала проекта. Запуск бета версии портала планируется в 2020 г.
Пополнение коллекции ДНК доноров проекта. В 2019 году было продолжено пополнение коллекции ДНК доноров проекта. Проведено две экспедиции в Карелию и Тульскую область. Всего собрано: 147 образцов крови (90 образцов из Олонецкого р-на Карелии, 57 образцов из Белёвского р-на Тульской области). Выделено 215 образцов ДНК: 71 образец из Верхотурского р-на Свердловской обл. (экспедиция конца 2018 г.), 87 образцов из Олонецкого р-на Карелии и 57 образцов из Белёвского р-на Тульской области. Информация о них внесена в обновленную базу данных. Проведен контроль качества 512 образцов собранных в 2018‒2019 годах. Из них контроль качества ДНК прошел 381 образец. В рамках коллаборации по проекту из ИОГен РАН были получены ~50 образцов ДНК этнических чукчей и ительменов, которые на данных момент обрабатываются.
Таким образом, на конец 2019 года :
* Коллекция пригодных для секвенирования образцов ДНК проекта РГ составляет 1344 штук, что соответствует 35 этносам Росиии.
* Из них, отсеквенировано 334 донора проекта (в том числе ‒170 этнических русских из европейской части страны)
* Проводится подготовительная работа для секвенирования следующей партии в 144 образца.
Популяционно‒генетические исследования. В 2019 году на данных проекта РГ проводились исследования по анализу а) популяционного разнообразия наследования по отцовской и материнской линиям, позволяющие, помимо всего прочего, определить историю миграций, и б) по разработке стандартных технологических регламентов (SOP) для методов восстановления недостающих данных генотипирования (импутирование).
В контексте первого исследования было проанализировано 243 образца из 14 различных этнических групп. Проведен анализ распределения митохондриальных гаплогрупп и построена карта их распределения на территории России. Статистически показано, что вариация паттернов наследования митохондриальных гаплогрупп лучше объясняется географическими характеристиками популяции, нежели принадлежностью к какой‒либо языковой группе. Перефразируя вышесказанное, предпочтения женской половины населения при выборе партнера объясняются скорее географическими, чем языковыми факторами. Анализ наследования по отцовской линии (Y‒хромосома) в 8 популяциях выявил характерные для каждой популяции гаплогруппы. Так, в отличие от других исследованных этносов, у якутов отмечено отсутсвие разнообразия гаплогрупп, что может свидетельствовать о генетической гомогенности мужского населения Якутии.
Методологические исследования. Импутирование – современный метод восполнения неизвестных генетических маркеров с использованием известных генетических маркеров, полученных в результате секвенирования, и фазированной референсной панели. Импутирование открывает широкие возможности для а) восполнения данных, полученных с использованием ДНК-микрочипов, до полногеномных с определенным процентом ошибки, и б) объединения генетических данных, полученных с использованием различных ДНК-микрочипов. Известно, что качество импутирования зависит от размера и разнообразия референсной панели, а также ее ориентированности на импутируемый образец. Данные проекта “Российские Геномы” исключительно подходят для обогащения референсной панели, ориентированной на Российские популяции, ввиду наличия трио, что позволяет точнее фазировать имеющиеся данные и формировать гаплотипы.
В рамках данного проекта разработан специальный дизайн эксперимента и проведен всесторонний эмпирический анализ ошибки импутирования. Также, с использованием данных проектов РГ и 1000 Genomes сформированы референсные панели, на основе которых будет проводиться импутирование ранее опубликованных генетических данных о росийских популяциях, полученные при помощи технологии ДНК‒микрочипов, имеющиеся в открытом доступе. Данные генотипирования были загружены из открытых источников и стандартизованы для проведения импутирования. Полученные таким образом данные позволят увеличить анализируемый объем генетических вариантов для последующего популяционного анализа.
Исходя из а) преобладания среди отсеквенированных образцов этнических русских, и б) того факта, что русские являются преобладающей этнической группой в России (~80% населения), представляется целесообразным в 2020 году сконцентрировать усилия на анализе ландшафта генетического разнообразия русской популяции и окаймляющих ее этнических групп.
Суммируя все вышесказанное, в рамках реализации проекта “Российские Геномы” были достигнуты следующие результаты:
* Построена вычислительная инфраструктура для обработки больших объемов омиксных данных в соответствии с общепризнанными международным практиками.
* Создана объединенная база данных генетических вариантов и учета образцов проекта “Российские Геномы”
* Начата разработка (прототипирование) информационно‒аналитического портала проекта.
* Осуществлены две экспедиции по сбору образцов.
* Пополнена коллекция ДНК доноров проекта.
* Проведен популяционный анализ наследования по отцовской и материнской линиям.
* Подготовлены данные и стандартные технологические регламенты для импутирования генетических вариантов в ранее опубликованных популяционно‒генетических проектах.
Представленные результаты закладывают основу для всестороннего популяционно‒генетического анализа этнических русских и соседствующих их этносов в 2020 году.
II. Биомедицинские проекты
1. Геномика и генетика психических заболеваний. Согласно критерию Years Lived with Disability (YLDs), психические заболевания наносят наиболее тяжёлый урон здоровью населения в сравнении с любой иной категорией заболеваний. Психические заболевания в целом, и шизофрения в частности, трудно поддаются лечению, либо не поддаются вообще. Согласно оценкам экономика Российской Федерации несёт существенные экономические потери (до 0.5% от ВВП в 2012 г.) от данной мало трудоспособной группы населения и затрат на зачастую пожизненную, не всегда эффективную и сопряжённую с многочисленными побочными эффектами терапию. Генетическая архитектура, а значит и молекулярные механизмы, шизофрении до сих пор полностью не изучены.
Целью проекта (выполняемого в сотрудничестве с Р.Р. Гайнетдиновым и А.Ю. Левченко, СПбГУ) является изучение генетической архитектуры шизофрении, а также всех психических отклонений и заболеваний, с ней связанных клинически или молекулярно. Понимание молекулярных механизмов лежащих в основе этиологии шизофрении, позволит разработать как методы профилактики, так и более эффективные и безопасные методы лечения.
Проект развивается в сотрудничестве с лабораторией молекулярной генетики и биохимии НИИ психического здоровья Томского национального исследовательского медицинского центра РАН (проф. С.А. Ивановa), «Центр Биобанк» Научного Парка СПбГУ и ФГБУ “Федеральный научно-клинический центр физико-химической медицины” Федерального медико-биологического агентства.
Результаты. Коллективом изучается когорта, состоящая из 505 пациентов с диагнозом параноидная шизофрения и 503 здоровых лиц, созданная коллегами в НИИ психического здоровья Томского национального исследовательского медицинского центра РАН. Было проведено полногеномное генотипирование (640 000 SNPs) с использованием биочипа Infinium Global Screening Array-24 и сканера биочипов iScan от Illumina.
Завершился всесторонний анализ результатов генотипирования при помощи биостатистических методов полногеномного поиска ассоциаций (GWAS), в том числе, поиск ассоциаций с отдельными субфенотипами и ответом на терапию (фармакогеномика). Были получены статистически достоверные результаты. В данный момент проводится функциональная аннотация идентифицированных генетических вариантов и ассоциированных с ними генных сетей при помощи инструментов вычислительной биологии и биостатистики.
Планы на будущее. Данные проекта по шизофрении были переданы Консорциуму по психиатрической геномике (Psychiatric Genomic Consortium https://www.med.unc.edu/pgc/), который организует совместный анализ сотен тысяч пациентов с психическими заболеваниями со всего мира. Объединение данных позволило нам получить доступ к когорте из 70 000 пациентов со всего мира, страдающих от шизофрении, биполярного синдрома и других психических расстройств. Таким образом, у нас появляется уникальная возможность применить современные методы машинного обучения и биостатистики (Levchenko et al.; статья находится на рецензии в журнале Psychiatry Research) ко всему объему данных, собранных PGC.Анализ когорты пациентов с шизофренией позволил нам усовершенствовать методики обработки и интерпретации данных полногеномного поиска ассоциаций, которые в 2020 году будут применены для анализа когорты из 224 пациентов с алкогольной зависимостью (сотрудничество с Национального научного центра наркологии, ФГБУ «Национальный медицинский исследовательский центр психиатрии и наркологии имени В.П.Сербского» и Национального медицинского исследовательского центра психиатрии и неврологии им. В.М. Бехтерева). Также, сотрудничество с PCG открывает возможность для более широкого применения информационной платформы GWATCH (см. раздел IV)
2. Выявление генетических вариантов ассоциированных с ВИЧ‒1 на примере популяции Ботсваны
В этом году были проанализированы однонуклеотидные замены в данных генотипирования с применением ДНК-микрочипов (Illumina® Infinium® HumanOmni2.5M BeadChip) и полногеномного секвенирования (Illumina®) нескольких ВИЧ когорт Ботсваны на предмет ассоциации с эффективностью заражения ВИЧ-1 и темпами прогрессии ВИЧ-инфекции. Полученные данные были использованы для полногеномного поиска генетических ассоциаций (GWAS) выполненного с помощью PLINK, с использованием четырех генетических моделей (allelic, dominant, recessive и co-dominant). Наши результаты подтверждают наличие генетических ассоциаций, обнаруженных в предыдущих исследованиях, для таких регионов как: NCOR2, TRIM5, CXCL12 и некоторых генов HLA. Помимо этих нами были обнаружены новые генетические ассоциации. Для многих генов (L3MBTL3, NEO1, CD79B, AP3B1, PTPRA), участвующих в биохимических процессах связанных с ВИЧ-инфекцией, нами было обнаружено наличие новых статистически достоверных ассоциаций в генетическими вариантами. Наиболее многообещающий регион, преодолевший порог значимости, был обнаружен в гене AP3B1 (rs572880838, P = 7,62E-09) в полногеномном наборе данных. Статья описывающая результаты исследования будет подана в печать в 2020 году.
3. Исследование развития устойчивости туберкулеза к противомикробным препаратам
Cовместный с П.Я. Яблонским (кафедра госпитальной хирургии СПбГУ) проект направлен на разработку комплексной модели молекулярных механизмов, ответственных за устойчивость туберкулеза к противомикробным лекарственным средствам. Изониазид является основным препаратом, используемым для лечения туберкулеза. Библиотека устойчивых к изониазиду клинических штаммов (более 100 различных штаммов) будет использоваться в качестве экспериментальной основы для построения теоретических и вычислительных моделей молекулярных процессов, ведущих к лекарственной устойчивости мутировавших бактерий. Эта модель будет использоваться для создания эффективных методов лечения, направленных на борьбу с механизмами, ответственными за возникновение резистентности бактерий.
С 2019 года проект частично финансируется из средств программы Horizon 2020 (H2020-MSCA-RISE-2018; RFMEFI61019X0020). В перспективе планируется:
* Полногеномное секвенирование не менее 50 клинических штаммов Mycobacterium tuberculosis с фенотипической характеристикой лекарственной чувствительности к противотуберкулёзным препаратам.
* Создание базы данных генотипов и фенотипов, включая анамнестические, клинические, рентгенологические и лабораторные данные туберкулезного поражения органов дыхания на базе существующего ресурса.
* Создание алгоритма для поиска новых геномных маркеров, ассоциированных с лекарственной устойчивостью Mycobacterium tuberculosis.
Результаты. Создана база данных геномных вариаций микобактерий туберкулеза» (GMTV). Подготовлен пакет документов, который был подан для государственной регистрации базы данных. Был проанализирован набор данных PRJNA352769, состоящий из 145 образцов. По итогам анализа было выбрано 10 образов для повторного секвенирования и валидации профиля резистентности. Получено внебюджетное финансирование для дальнейшего развития проекта.
4. Исследование механизмов аномальной пролиферации в опухолевых клетках
Целью другого недавно опубликованного исследования (Roworth et al., 2019) (1), выполненного в сотрудничестве с группой профессора N. La Thangue, Oxford University являлось детальное изучение того, как молекулярные механизмы и регуляторные пути, контролирующие пролиферацию в нормальных клетках, претерпевают патологические изменения при онкологических трансформациях. Нами было показано, что селективное метилирование аргинина в транскрипционном регуляторе E2F1, меняет его регуляторную функцию в отношении некоторой группы белков и, таким образом, усиливает контроль над ними, добавляя к классическим механизмам транскрипционной регуляции альтернативный сплайсинг.
III. Геномика растений
1. Сравнительный геномный анализ представителей рода Boechera
В 2019 году была выполнена работа в рамках гранта РФФИ 16‒54‒21014 по высококачественной сборке генома B.divaricarpa. Проведен анализ открытых данных секвенирования других представителей рода Boechera в целью создания аннотированной сборки генов и поиском паралогов генов, ассоциированных с апомиксисом. Опубликовано три статьи (3,4,7) Подана заявка на совместный грант РФФИ-ТУБИТАК «Филогенетический и функциональный анализ генов, регулирующих апомиксис у представителей рода Boechera».
2. Полногеномный поиск ассоциаций и изучение механизмов устойчивости льна к фузариозному увяданию.
В рамках проекта РНФ 19-1600030 проведено выделение ДНК штаммов паразитического гриба рода fusarium oxysporum f. sp. lini. По результатам секвенирования двумя разными технологиями (PacBio и Illumina) была впервые создана референсная сборка генома штамма F391. Кроме этого, по технологии Illumina были отсеквенировано 4 других штамма и проведена черновая сборка их геномов. На основании этих геномов в следующем году планируется поиск генетических вариантов, ассоциированных с вирулентностью вида.
3. Разработка селекционных маркёров сои
В 2019 году проводился заключительный этап работы по разработке прототипа инновационной программы селекции и использования генетического разнообразия сортов коллекции Всероссийского института генетических ресурсов им. Н.И.Вавилова для селекционного улучшения сои в целях обеспечения продовольственной безопасности России (ФЦП соглашение 14.575.21.0136). Разработанные в ходе выполнения данного проекта стандартные технологические регламенты для получения селекционно‒значимых маркеров сои будут использованы в дальнейшем как прототип для создания универсальной аналитической среды для определения селективных маркеров.
Результаты. Первая статья по проекту принята в журнал “Биофизика” и будет опубликована в январе 2020г. Также, получeны 2 свидетельства РИД: (RU 2019620259 от 13.02.2019 и РИД: RU 2019620260 от 13.02.2019 ), “База данных маркеров, локусов и новых аллелей селекционного улучшения сои.” и ”База данных однонуклеотидных полиморфизмов, инсерций/делеций, вариантов копийности сортов сои, фенотипов и агроклиматических характеристик сортов с учетом района изучения.”, соответственно.
IV. Геномика редких видов животных.
В этом году сотрудники, вовлеченные в работу консорциумов GIGA и G10K, участвовали в секвенировании, сборке и аннотации геномов следующих редких видов животных: белоносого коати (9), белой акулы (10), морской и бразильской выдры (12), африканской дикой собаки (13), черной антилопы (14), пумы (20), мускусного быка(23) и, наконец, амазонского попугая (8).
Результаты. Разработан и опубликован программный продукт для анализа гомологичных синтенных блоков в геномах родственных видах с использованием технологий геномных графов (26). Oпубликована книга: Graphodatsky A, Perelman P, O’Brien SJ. 2019. “An Atlas of Mammalian Chromosomes”, Second Edition. John Wiley & Sons New York, NY. В рамках исследования отдельных видов животных были получены следующие основные результаты: * Прослежена адаптация к водной среде обитания, а также снижение разнообразия как морских выдр (Enhydra lutris), так и гигантской выдры (Pteronura brasiliensis) (12).
* Применение методов сравнительной геномики позволило выявить новые факты об удивительной истории адаптации африканской дикой собаки (Lycaon pictus) к суровым условиям окружающей среды (13).
* Новые факты о влиянии эволюции на то, как синтенные блоки и области хромосомных перестроек, воздействуют на генную регуляцию у жвачных животных (11).
* Собранный заново геном черной антилопы (Hippotragus niger) позволяет применять новые методики мониторинга разнообразия популяций ex-situ и in-situ (14).
* Анализ последовательности геномов трех близкородственных попугаев амазонки Карибского бассейна позволил детально изучить историю вида и его сохранение (8).
* Опубликованная нами последовательность генома белой акулы помогла описать механизмы адаптации пластиножаберных, связанные с заживлением ран и поддержанием стабильности генома (15).
* Филогенетическое исследование на материале генома белоносого коати (Nasua Narica) зафиксировало меридиональный паттерн колонизации носухами Северной Америки [9].
* Сравнительная цитогеномика шерсти мускусного быка позволила проиллюстрировать эволюцию хромосом некоторых видов крупного рогатого скота (19).
* Анализ геномной последовательности одного из подвидов пумы в Северной и Южной Америке позволяет по новому оценить геномные последствия инбридинга (20).
В 2020 году в лаборатории планируется начать исследование российской популяции полярного медведя.
V. Статистические методы в биологии
1. Разработка информационной платформы GWATCH
Ранее сотрудниками Центра геномной биоинформатики им. Ф. Г. Добржанского была разработана информационная платформа GWATCH (Genome-Wide Association Tracks Chromosome Highway), предназначеная для трехмерной визуализации и интерпретации результатов полногеномного анализа ассоциаций. Основное преимущество – возможность совместной визуализации результатов нескольких множественных тестов с одними и теми же маркерами.
Результаты В этом году была разработана принципиально новая архитектура программы GWATCH, позволяющая интерактивно проводить анализ данных генетических исследований, визуализировать и интерпретировать результаты. Также создана пилотная версия программы, допускающая: а) загрузку исходных данных с категориальным фенотипом, б) вычисление множества категориальных тестов, в) загрузку, наряду с исходными данными предоставленных пользователем, результатов статистических тестов полученных на этих данных, а также г) построение таблиц наиболее значимых ассоциаций, их визуализацию и мета-анализ.
В плане расширения возможностей интерпретации результатов множества статистических тестов реализован новый интерфейс запуска вычислений р-значений процесса скользящего среднего на базе логарифмов p-значений статистических тестов, использующихся для поиска регионов генома, наиболее значимо ассоциированных с изучаемым признаком.
В 2020 году планируется широкомасштабное тестирование платформы GWATCH на данных консорциума PGC и тестирование применимости реализованных подходов для проведения анализа полногеномных ассоциаций культурных растений.