Создание лаборатории геномной биоинформатики СПбГУ: Проект "Российские геномы": 2018 г. этап 3

O Braien, Stefan Dzheims (PI)
Briukhin, Vladimir (CoI)
Davydenko, Aleksandr (CoI)
Malov, Sergei (CoI)
Черкасов, Николай Андреевич (CoI)
Колчанова, София Михайловна (CoI)
Kliver, Sergei (CoI)
Tamazian, Gaik (CoI)
Zhernakova, Daria (CoI)
Novozhilov, Aleksei (CoI)
Krasheninnikova, Kseniia (CoI)
Evsiukov, Igor (CoI)
Shevchenko, Andrei (CoI)
Роткевич, Михаил Сергеевич (CoI)
Logachev, Anton (CoI)
Dobrynin, Pavel (CoI)
Cherniaeva, Ekaterina (CoI)
Simonov, Sergei (CoI)
Komissarov, Aleksei (CoI)
Gorbunova, Anna (CoI)
Svitin, Anton (CoI)
Zhuk, Anna (CoI)
Turenko, Anastasiia (CoI)
Дмитриевский, Иван Петрович (CoI)
Тушнова, Юлия Валерьевна (CoI)
Антонова, Лада Михайловна (CoI)
Antonik, Alexey (CoI)
Babich, Mikhail (CoI)
Shimansky, Valentin (CoI)

Description

Основной целью проекта «Российские геномы» является создание научной компьютерной базы данных, содержащей деперсонализированную информацию о полногеномных последовательностях россиян, чьи предки являются коренными жителями данного региона в нескольких поколениях.

Первый международный проект по исследованию геномов людей под названием «1000 геномов», стартовал десять лет назад. В ходе этого проекта были исследованы геномы представителей 26 популяций людей из разных континентов - Европы, Азии, Южной и Северной Америки. Россия в этом проекте не была представлена. После его окончания стартовали национальные проекты во многих странах мира. У нас запущен свой национальный проект по исследованию геномов различных этносов и региональных групп, проживающих в России, включая большие и малые народности. Созданная база данных станет основой для разработки принципов медицины будущего.

Анализ генетической информации - это результат плотного сотрудничества и совместной работы ученых из разных областей науки: врачей, генетиков, биологов, математиков и программистов. Результатом такого исследования является обобщенная информация об отличии генома людей конкретной региональной или этнической группы. Эта информация поможет выявлениюновых генетических вариантов, которые являются специфическими для определённых российских этнических и региональных групп; изучению генетических вариантов, влияющих на частоту известных болезней среди российского населения, а также интерпретации закономерностей вариабильности геномов человека для расшифровки исторических путей миграции и оседлости человека на территории Евразии.

В проекте «Российские геномы» исследуются образцы ДНК, собранные от семейных триад (мать, отец и их биологический совершеннолетний ребенок), с целью выявления закономерностей передачи признаков от родителей своим детям, характерная для данной местности и получения карты основных гаплотипов (совокупность генов на хромосоме, наследуемых вместе) российского населения, необходимой для идентификации маркеров генов, связанных с наиболее часто встречающимися болезнями среди разных групп россиян.

Сегодня, по сути, закладывается база данных, которая позволит работать ученым следующей волны. В расшифровке геномов заинтересованы врачи, генетики, фармакологи, историки, этнографы, антропологи, а также и все жители в целом, потому что результаты исследований помогут ответить на многие важные вопросы: каковы были пути миграции и расселения людей, к каким заболеваниям восприимчивы те или иные этносы и группы, какие лекарственные препараты наиболее эффективны для каждого из них.

Layman's description

Гены являются основной «инструкцией» для функционирования клеток, из которых состоит организм человека. Гены входят в состав геномной ДНК. Более 99% последовательностей ДНК у всех людей идентично. Однако не существует двух людей, имеющих полностью одинаковую последовательность ДНК, за исключением однояйцевых близнецов. Индивидуальные отличия последовательностей ДНК называются генетическими вариациями. Они объясняют некоторые физические различия между людьми и частично объясняют почему у одних людей возникают такие болезни, как рак, диабет, астма, депрессия, в то время как у других этих болезней не бывает. Несмотря на то, что на возникновение упомянутых выше заболеваний могут оказывать влияние такие факторы, как диета, физические упражнения, курение и загрязнение окружающей среды, что затрудняет точное выяснение, какие именно гены влияют на болезни, тем не менее, генетические последовательности все же определяют решающую роль.

Целями проекта «Российские геномы» является создание открытой компьютерной базы данных, содержащей анонимную информацию о полногеномных последовательностях россиян, чьи предки являются коренными жителями данного региона в нескольких поколениях, а также описание вариаций в геноме у этих групп, определение особенностей, влияющих на распространение заболеваний и создание информационной базы медицински-значимых геномных вариантов, характерных для населения России, что станет основой для разработки принципов медицины будущего.

Полученные в ходе проекта данные будут использоваться для многих целей, однако четырьмя основными целями являются:
1. Обнаружение новых генетических вариантов, которые являются специфическими для определённых российских этнических и региональных групп;
2. Изучение генетических вариантов, влияющих на частоту известных болезней среди российского населения;
3. Получение карты основных гаплотипов (совокупность генов на хромосоме, наследуемых вместе) российского населения, необходимой для идентификации маркеров генов, связанных с наиболее часто встречающимися болезнями среди разных групп россиян;
4. Интерпретация закономерностей вариабильности геномов человека для расшифровки исторических путей миграции и оседлости человека на современной территории России и Евразии.

Key findings for the stage (in detail)

Несмотря на высокую численность и большое этническое разнообразие населения России, пока не создана централизованная база данных функциональных геномных вариантов и вариантов, специфичных для каждой этнической группы. Такая база данных необходима для внедрения персонализированной прецизионной медицины в России, что уже успешно осуществлено в ряде Европейских и Азиатских стран, а также в Америке, путем создания аналогичных геномных баз данных. Персонализированная медицина предполагает индивидуальный подход для лечения и профилактики каждой из популяций. Также геномная база данных позволяет более детально изучить пути миграции, оседлости и смешения российских народов и выявить их генетическое родство с другими популяциями мира. В рамках проекта «Российские геномы» в 2018 году эта проблема решалась путём полногеномного секвенирования геномов представителей различных этнических и территориальных групп, проживающих в Российской Федерации. В начале года проводились исследования по контролю качества данных секвенирования ДНК для сравнительного тестового секвенирования в нескольких независимых друг от друга центрах(bake-off). Был подготовлен детальный суммарный отчет по качеству секвенирования по всем запускам и опубликована статья в журнале PLoS One.
В 2018 году проект "Российские геномы" преследовал следующие цели: 1) создание базы данных геномов здоровых людей, принадлежащим к различным этническим и региональным группам России; 2) создание базы данных геномных вариантов, ассоциированных с развитием заболеваний, для разных этнических и региональных групп России; 3) исследование структуры популяций и истории миграций и смешения народов.
В течение 2018 года сотрудниками лаборатории "Центр геномной биоинформатики им. Ф.Г. Добржанского" проводился анализ генетических вариантов (однонуклеотидных замен, вставок/делеций, сегментных дупликаций и др.), выровненных геномов 264 здоровых людей, в том числе 60 вновь отсеквенированных геномов, представленных семейными триадами из Псковской области, Новгородской области и Якутии. В исследуемых образцах были обнаружены генетические варианты, как известные, так и ранее не наблюдавшиеся, имеющие фенотипические и функциональные последствия. Например, был вявлен 31 вариант, сцепленный с заболеваниями, согласно анализу базы данных HGMD (disease-causing mutations); 758 однонуклеотидных замен, приводящих к синтезу нефункционального белка (loss-of-function SNPs); более 20 однонуклеотидных замен, имеющих различную частоту аллелей в разных популяциях (связанных с заболеваниями, с антропометрическими данными, с восприимчивостью к лекарствам и т.д.). Частота аллелей многих из этих вариантов значительно отличается от частоты других популяций Евразии. Филогенетический анализ позволил выделить кластеры и генетические сигналы этнических и территориальных групп, соответствующие географии и истории происхождения этих групп. Также были обнаружены барьеры, через которые перенос генов был ограничен, которые соответствовали географическим и климатическим преградам (в том числе Уральские горы и Верхоянский хребет). Были построены карты гаплотипов представителей новгородской, псковской и якутской популяций.
Во второй половине года был создан удобный браузер геномной базы данных здоровых людей из разных популяций, приспособленный для работы неспециалистами в области программирования и биоинформатики. Упомянутая база данных содержит информацию о количестве обнаруженных аллелей, частоте встречаемости аллели в популяции, количестве повторов этой аллели и количестве гомозигот данной аллели. Эту базу данных смогут использовать медицинские генетики, чтобы проверять частоты встречаемости потенциально опасных геномных мутаций (вариантов) у здоровых людей и сравнивать с частотой встречаемости этого варианта в геномах соответствующей территориальной и этнической принадлежности, а также генетики, фармакологи и специалисты из других областей науки. Пока база данных содержит пилотную информацию по геномам 334 человек из 12 территориальных групп, на нее оформляется патент.
В настоящее время ведется исследование популяционной генетики жителей России, в разработке находится определение древних путей миграции по территории России, поиск генов, возникших в результате естественного отбора, предсказание происхождения людей конкретных регионов.
В 2018 году было проведено 6 экспедиций, собрано (совместно с партнерами по проекту из других организаций) 428 образцов крови, передано в биобанк на хранение 1284 образца, выделена ДНК из 360 образцов, проведен контроль качества ДНК 360 образцов ДНК. За год было просеквенировано 154 новых генома, всего на конец года имеется 334 отсеквенированных генома, принадлежащие к 12 этническим и региональным популяциям России. Новые геномы прогенотипированы и добавлены в общий пакет данных. Производилась дальнейшая разработка и поддержание системы учёта и регистрации образцов, а именно осуществлялась оптимизация программно-аппаратной части системы, пользовательского интерфейса к программно-аппаратной части сервиса на основе тестирования системы, внесение данных о состоянии образцов.
Для 334 отсеквенированных геномов проведен контроль качества сырых ридов после секвенирования новым пайплайном и выравнивание ридов на референсный эталонный геном. Осуществлено генотипирование 221 выровненного генома и начат биоинформатический анализ.
Проводился поиск геномных вариантов, значимых для медицины и сцепленных с болезнями, приводящих к потере функции белка, а также изучение популяционных данных частот аллелей геномных вариантов для 251 генома.
Осуществлялось изучение происхождения популяций «Российских Геномов» относительно геномов древних образцов на основе получения сведений о родстве современных популяций с древними культурами для 251 генома (данные получены и дорабатываются до публикабельного вида).
Выполнено построение геномных карт гаплотипов для 140 геномов из разных популяций этнических русских и сравнение их между собой с целью оценки возможности построения общей карты гаплотипов для всех этнических русских.
Проведен анализ валидации геномных вариантов, связанных с заболеваниями, методом Сэнгера для 154 геномов. В течение 2018 года проводилась идентификация гаплогрупп и анализ митохондриальной ДНК и Y-хромосом в отсеквенированных геномах. Сделан анализ и получены данные для 322 геномов по митохондриальной ДНК и 240 геномам по У-хромосоме.
В 2018 г была поставлена масштабная задача создания на базе GWATCH программного обеспечения, позволяющего пользователю самостоятельно проводить статистическую обработку данных медико-генетических исследований с возможностью загрузки сырых данных (генотипов и фенотипов) или предобработанных результатов статистических тестов и дальнейшую интерпретацию результатов. По сути речь идет о статистическом пакете, позволяющем эффективно вычислять множественные статистические тесты, интегрированном с браузером и интерактивной системой визуализации и интерпретации результатов статистического анализа. В 2018 году выполнены следующие работы: 1) Разработана новая концепция программного обеспечения, позволяющего пользователю анализировать результаты медико-генетических исследований статистическими методами и интерпретировать результаты анализа. 2) Внедрена система модульных тестов и возможность их прогона в автоматическом режиме. 3) Разработана концепция конструирования тестов, создан новый интерфейс взаимодействия с пользователем по динамическому созданию и конфигурированию тестов (дизайн, разработка, тестирование). 4) Для визуализации результатов разработана новая концепция trax report (дизайн, разработка, тестирование, внедрение) и новый Manhatten plots report. 5) имплементирована поддержка работы с файлами формата plink. 6) Реализован процесс загрузки и обработки пользовательских файлов с заранее посчитанными значениями тестов (только plink-формат для GLM тестов). 7) Реализован процесс загрузки, обработки и расчетов данных из "сырых" данных пользователя (только plink-формат). 8) Добавлены скрипты автоматического создания БД, задокументирована структура основных таблиц БД. 9) Реализован модуль эффективного вычисления множественных статистических тестов Хи-квадрат. 10) Реализованы расчеты по алгоритмам adjusted p-values. 11) Переработана схема подсчета поляризации на базе неравновесия по сцеплению. Теперь подсчет производится в реальном времени по запросу пользователя. 12) GWATCH перенесен на фрэймворк Symphony. 13) Протестирована и внедрена система автоматической сборки и верификации проекта. (Continiuos Integration). Теперь сборка может производиться на сервере без участия пользователя и необходимости установки среды разработки на локальном компьютере. Это также уменьшает порог вхождения. Было внедрено 2 системы под различные целевые ОС: отдельно под unix, отдельно под windows. 14) Произведены прочие технологические улучшения в силу устаревания фпюреймворков разработки, обнаружения уязвимостей, перехода на новые версии системных и проектных компонент. 15) Создана первичная документация и вики проекта.
Проводился популяционный анализ отсеквенированных геномов в рамках проекта РГ, а также опубликованных ранее геномов, полученных с территории России для 240 геномов. Осуществлено создание и отладка инструментов стандартизации данных. Адаптация инструментов предсказания частот, отсутствующих аллелей в чиповых данных с использованием полногеномных данных находятся в процессе разработки. Построены графики главных компонент, Admixture для образцов Российских Геномов и опубликованных ранее образцов.
Осуществлено создание объекта интеллектуальной собственности - базы данных медицински значимых геномных вариантов в российских популяциях, а также интерфейса к ней. Была подана заявка на регистрацию базы данных частот аллелей популяций России.
Регистрационный номер заявки 2018621867.
В течение года осуществлялась реализация прикладных медицинских исследований на основе проекта, а именно, анализ 250 геномов по базе данных известных медицински значимых вариантов HGMD. Полученные результаты находятся в процессе дальнейшей разработки с целью публикации в рецензируемом научного издании.
Также были получены результаты по выявлению геномных вариантов, сцепленных с ВИЧ в популяции Ботсваны. Статья по этим результатам находится в процессе подготовки.
В течение года осуществлялось определение этнических и региональных групп для дальнейшего сбора образцов и были выбраны для экспедиций Чукотский автономный округ, Республика Карелия, Тульская, Тверская и Архангельская области.

Academic ownership of participants (text description)

1. Антоник Алексей Вадимович - Разработка и реализация высокопроизводительных алгоритмов вычисления статистических тестов; Да

2. Антонова Лада Михайловна - Ведение документации по проекту, организация мероприятий; Да

3. Бабич Михаил Диомидович - Биоинформатический анализ значимых геномных вариантов; Да

4. Брюхин Владимир Борисович - Общее администрирование проекта, организация экспедиций, подготовка статей, организация мероприятий, взаимодействие с партнерами по проекту, периодическое замещение рукодителя проекта; Да

5. Горбунова Анна Валерьяновна - Анализ медицински значимых геномных вариантов; Да

6. Дмитриевский Иван Петрович - Определение происхождения и анализ популяционной структуры российских популяций; Да

7. Добрынин Павел Владимирович - Изучение научно-технической информации, отечественного и зарубежного опыта по тематике проекта; Аннотация генетических вариантов в человеческом геноме; Да

8. Евсюков Игорь Валерьевич - Внесение анкетной информации в базу данных проекта; Осуществление контроля качества образцов ДНК; Трекинг образцов ДНК и их подготовка для передачи на секвенирование и STR-типирование; Анализ результатов валидации ОНП методом секвенирования по Сэнгеру; Расчет неравновесного сцепления ОНП и построение геномной карты гаплотипов для популяций этнических русских; Да

9. Жернакова Дарья Вячеславовна - Изучение различий в частотах аллелей найденных геномных вариантов в разных популяциях; Исследование популяционной структуры популяций РГ относительно современных и древних популяций Евразии; Да

10. Жук Анна Сергеевна - Поиск и анализ генетических вариантов, связанных с болезнями и фенотипами, частоты которых отличаются в российских популяциях, валидация полиморфизмов по методу Сэнгера; Да

11. Кливер Сергей Федорович - Оптимизация пайплайна контроля качества и методов фильтрации сырых данных секвенирования (ридов); Визуализация результатов анализа карт гаплотипов; Да

12. Колчанова София Михайловна - Анализ результатов валидации ОНП методом секвенирования по Сэнгеру; Да

13. Комиссаров Алексей Сергеевич - Организация сбора и изучения научно-технической информации по теме проекта, проведение анализа и теоретического обобщения научных данных, результатов экспериментов и наблюдений; Разработка подхода к поиску геномных вариантов, основанного на сборке генома de novo; Оценка возможности разработки подхода к поиску крупных структурных геномных вариантов, основанного на сборке генома с использованием эталонного генома; Поиск и анализ генетической вариабельности, основанной на перемещениях мобильных элементов; Разработка программного обеспечения для автоматизации всех этапов биоинформатического анализа данных; Да

14. Копфли Клаус-Питер - Биоинформатический анализ; Помощь в подготовке публикаций; Да

15. Крашенинникова Ксения Владимировна - Аннотация числа копий геномных участков, не входящих в повторы; Разработка подходов к систематизации полученных данных, поиска вариативных участков (copy number variation), а также поиска интересных случаев CNV, ассоциированных с фенотипами на основе баз геномных вариантов; Да

16. Логачев Антон Алексеевич - Контроль качества образцов крови и выделение ДНК из образцов крови; Поиск полиморфизма однонуклеотидных замен в У-хромосомах, определение соответствующих У-хромосомных гаплогрупп, анализ географического распределения гаплогрупп; Да

7. Малов Сергей Васильевич - Популяционный анализ, разработка и применение новых методов изучения потоков генов и генетических барьеров; Статистический анализ, реализация статистических инструментов сравнения и проверки значимости различий частот аллелей в популяциях; Да

18. Роткевич Михаил Сергеевич - Разработка и поддержка баз данных и их интерфейсов, контроль качества сырых данных; Да

19. Свитин Антон Валерьевич - Отработка методов полногеномного поиска ассоциаций (на примере данных когорт по заболеваниями из других популяций), тестирование и развитие ПО для анализа и обработки данных по ассоциациям; Да

20. Сидоров Святослав Игоревич - Поиск и анализ длинных инсерций и делеций в данных высокопроизводительного секвенирования; Да

21. Симонов Сергей Александрович - Организация и проведение экспедиций по сбору образцов; Поддержание и развитие вэб-сайтов; Да

22. Тамазян Гайк Симакович - Анализ наборов данных для вычислительной обработки результатов секвенирования; Анализ и применение программного обеспечения для вычислительной обработки результатов секвенирования; Нет

23. Туренко Анастасия Сергеевна - Поиск LoF вариантов и InDel в образцах; Молекулярное типирование HLA регионов; Да

24. Тушнова Юлия Валерьевна - Ведение документации по проекту, организация мероприятий; Да

25. Черкасов Николай Андреевич - Администрирование и развитие IT инфраструктуры проекта, администрирование данных; Да

26. Черняева Екатерина Николаевна - Участие в процессе валидации обнаруженных мутаций; Да

27. Шевченко Андрей Константинович - Валидация ОНП с помощью ПЦР и подтвержддающго секвенирования по Сенгеру; Полногеномный поиск ассоциаций в данных ВИЧ-когорт популяции Ботсваны, тестирование и развитие GWATCH; Да

28. Шиманский Валентин Сергеевич - Анализ и автоматизированная обработка данных полногеномного секвенирования; Обработка информации из биоинформатических баз данных; Да

29. Новожилов Алексей Геннадьевич - Выбор регионов для сбора данных, этнографическая консультация, помощь в подготовке экспедиций; Да

30. Давыденко Александр Александрович - Разработка и тестирование ПО для анализа данных по генетическим ассоциациям; Да

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

Разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

Разрешается

Short title	GZ-2018
Acronym	Lab_2016 - 3
Status	Finished
Effective start/end date	1/01/18 → 31/12/18

ID: 35121513