Транскриптомика является неотъемлемой частью огромного количества медицинских и биологических исследований. Так как большое количество заболеваний у человека связаны с нарушением уровня экспрессии различных генов, а также экспрессией нетипичных изоформ, определение последовательности и квантификация молекул РНК нашли повседневное применение в клинической биоинформатике.
Однако, классические методы секвенирования нового поколения в большинстве случаев не дают возможность получить информацию о координации альтернативных экзонов при сплайсинге. Известно, что более 90% человеческих генов проходят процедуру альтернативного сплайсинга, а в 60% белок-кодирующих генов есть пары альтернативных экзонов, разделенные обязательным экзоном. Определение точной структуры альтернативных изоформ подобных генов, как правило, невозможно. Методы квантификации РНК в большинстве случаев также позволяют оценить уровень экспрессии только на уровне гена, но не его отдельных изоформ. Таким образом, с использованием только классических технологий секвенирования провести полноценный анализ и определить функцию экспрессируемого гена не всегда представляется возможным. Так, например, известно, что ген-супрессор опухолей p53 имеет несколько изоформ, две из которых имеют противоположные внутриклеточные функции (Aoubala et al., 2011).
Разработанный в 2018 году новый протокол секвенирования spISO-seq (Tilgner et al., 2018) позволяет получать баркодированные данные транскриптомного секвенирования. Протокол spISO-seq устроен таким образом, что каждая молекула РНК помечается короткой уникальной последовательностью (баркодом), и в процессе секвенирования эта информация сохраняется. То есть, для каждого отдельного прочтения известно с какой молекулы РНК он был считан. Корректное использование такого рода информации может заметно повысить качество транскриптомной сборки. Несмотря на то, что описанный выше протокол секвенирования имеет большой потенциал для решения задачи восстановления последовательностей и квантификации альтернативных изоформ, на сегодняшний день не существует вычислительных методов, которые были бы способны полноценно использовать отличительные свойства этого протокола для корректной обработки полученных данных.
В совокупности с протоколом секвенирования spISO-seq предложенные в данном проекте методы должны значительно повысить точность определения последовательностей и квантификации изоформ (оценки приведены в разделе 4.2.1), что позволит применить их в фундаментально новых исследованиях в области клинической биоинформатики и молекулярной биологии. В качестве примера можно привести задачу определения структуры редких нетипичных изоформ, оценку уровня их экспрессии в различных условиях и выявление ассоциированных с ними заболеваний.