Description

Проект “Genome 10K” (G10K) был учрежден в 2009 году доктором О’Брайеном, ныне занимающим пост директора Центра геномной биоинформатики им. Ф. Г. Добржанского, и консорциумом геномных исследователей для содействия секвенированию и анализу полных геномов десяти тысяч видов позвоночных животных. Чуть позже Хосе Лопесом, учеником доктора О’Брайена, был учрежден проект “GIGA” являющийся переносом идей G10K с геномов позвоночных на геномы беспозвоночных. Конечная цель обоих проектов представляется нам достаточно амбициозной и ставшей значительно более определенной за последние несколько лет с приходом методов секвенирования последнего поколения. Консорциум проекта, представляющий исследователей из мирового геномного сообщества, движется вперед к общей цели двух проектов – предоставлению новому поколению достоверных данных по геномам многих видам позвоночных и беспозвоночных животных.
В Центре геномной биоинформатики наш научный коллектив является активным участником G10K и GIGA, принимая участие в разработке стандартов для обоих проектов.
Последние достижения в области технологий секвенирования (включая длинные риды, полученные с помощью мономолекулярного секвенирования в реальном времени [SMRT], компартментализацию отдельных молекул с последующим баркодингом [Dovetail и 10X Genomics], картирование регионов взаимодействия хроматина [Hi-C] и оптическое картирование [Bionano Genomics]) позволяет получать с нуля сборки геномов животных с длинными непрерывными участками. В отличие от уже имеющихся геномных сборок, эти сборки будут фазированы на гапломы и будут содержать скаффолды, сравнимые по длине с плечами хромосомами, а также малое количество пропусков (преимущественно в гетерохроматиновых районах богатых сателлитной ДНК). Подобные геномные сборки позволят полностью перенести геномную аннотацию с единственного собранного диплоидного генома на пару собранных гаплоидных геномов, что приведет к значительному увеличению точности и охвата аннотированных геномных элементов.
Целью нашего проекта является сборка и аннотация геномов животных и использованием самых современных методов как секвенирования, так и аннотации. Для достижения поставленной цели, мы собираемся заняться задачами сборки и аннотации геномов, которые ранее считались неразрешимыми или недопустимо трудоемкими. За пределами млекопитающих, сборка генома остается сложной и во многих аспектах не решенной задачей. Особые затруднения вызывает сборка геномов морских беспозвоночных животных: так, ряд наших геномных проектов, таких как геном медузы Aurelia aurita, остаются незаконченными из-за невозможности собрать геном, который не собрать ни по коротким ридам от Illumina, ни по ним же в комбинации с данными PacBio. В силу, указанных затруднений одной из задач проекта будет являться проверка того, насколько новые методы секвенирования решают проблемы сборки и аннотации таких геномов.
В случае успешного даже частичного фазирования на гапломы мы ожидаем, что полученные данные позволят значительно улучшить сборку интронов и экзонов на уровне генов, а также уточнить аннотацию и относительное расположение мультикопийных генов, которые недопредставлены в текущих геномных сборках. Кроме того, мы сможем улучшить сборку и локализацию сложных геномных регионов, таких как кластеры генов или иные функциональные элементы генома, наряду с длинными геномными повторами наподобие эндогенных ретровирусов. Прочие биологические аспекты будут также оценены с позиции улучшения качества аннотации по отношению к сборкам, основанных только на коротких ридах; подобные аспекты включают оценку точности эффективных размеров популяций, полученных с помощью PSMC анализа, и анализ корректности аннотации геномных регионов с низкой или высокой степенью вариабельности с использованием гаплоидных сборок хромосом.
Полученные геномные сборки позволят нам обратиться к более фундаментальным биологическим вопросам. Одной из открытых проблем геномной аннотации является анализ многокопийных генов, поскольку проведенные до нас исследования опирались на мозаичные последовательности генов, полученных из двух или более гаплоидных вариантов, что препятствовало точной аннотации мультикопийных генов из-за их схлопывания. Используемые нами подходы будут основываться на данных, полученных по высококачественным фазированным геномам, что даст нам возможность детальной аннотации и анализа семейств мультикопийных генов (таких как главный комплекс гистосовместимости), которые определяют устойчивость к заболеваниям.

В настоящий момент нашей группой начата работа над следующими видами животных: черноногий хорёк (Mustela nigripes) в сотрудничестве с Klaus-Peter Koepfli (The Smithsonian Institution, USA), крылатка (Lion fish, Pterois sp.) в сотрудничестве с Klaus-Peter Koepfli (The Smithsonian Institution, USA), стерлядь (Acipenser ruthenus) в сотрудничестве с А. Макунином (НГУ, Россия), виды мшанки (Bryozoa) в сотрудничестве с Joe Lopez (Nova Southeastern University, USA), медуза Aurelia aurita, данные получены нашей исследовательской группой, большая белая акула (Carcharodon carcharias) в сотрудничестве с Michael J. Stanhope (Cornell, USA), три вида ящериц Darevskia sp. в сотрудничестве с А. Рысковым (Институт гена, Россия), пуэрториканский амазон (Amazona vittata) в сотрудничестве с Taras Oleksyk (UPRM, USA), черная антилопа (Hippotragus niger) в сотрудничестве с Klaus-Peter Koepfli (The Smithsonian Institution, USA), двустворчатый моллюск (Ruditapes philippinarum) данные получены нашей исследовательской группой, байкальская нерпа (Pusa sibirica) данные получены нашей исследовательской группой, щелезуб (Solenodon paradoxus) в сотрудничестве с Taras Oleksyk (UPRM, USA).
Для каждого из перечисленных видов задачами проекта будут:
1) Сборка генома.
2) Аннотация генома.
3) Выравнивание генома для проведения сравнительного анализа с геномами других видов.
4) Анализ аннотированных элементов генома.
5) Биологическая интерпретация полученных результатов в сотрудничестве с другими группами ученых.

Кроме собственно сборки и аннотации животных задачей нашей научной группы является разработка более удобных и точных программных продуктов обработки исходных данных секвенирования и аннотации генов. А также работа над пайплайном (pipeline) для облегчения рутинных задач сборки и аннотации генмово животных. Нашей группой уже выпущены программы для фильтрации ридов (Cookiecutter) и референсной сборки генома из фрагментов (Chromosomer).








Short title__
AcronymRFBR_KONFI_2017 - 1
StatusFinished
Effective start/end date24/11/1724/11/18

ID: 69922686