В работе предлагается алгоритм разметки кодирующих и некодирующих участков молекулы ДНК, основанный на методе нахождения оптимального набора признаков. Работа алгоритма рассматривается на примере молекулы ДНК раковой опухоли человека BRCA2-206. Отдельно рассмотрена проблема определения принадлежности участка молекулы ДНК к интронам или экзонам. Для ее решения предложен метод, основанный на TF-IDF разметке в сочетании с байесовским классификатором, принимаюших на вход набор оптимальных признаков. Исследовано поведение работы метода внутри оптимального множества параметров определения множества значимых признаков. С использованием этого метода разработан алгоритм, использующий информацию об экстремумах функции вероятности принадлежности цепочки нуклеотидов к интронам или экзонам для разметки молекулы ДНК.
Язык оригиналарусский
Страницы (с-по)178-182
Журнал ПРОЦЕССЫ УПРАВЛЕНИЯ И УСТОЙЧИВОСТЬ
Том6
Номер выпуска1
СостояниеОпубликовано - 2019
Опубликовано для внешнего пользованияДа

    Области исследований

  • bioinformatics, genetics, machine learning, molecular biology, биоинформатика, генетика, машинное обучение, молекулярная биология

ID: 78392898