Standard

Разработка моделей для оценки полигенн ых рисков на основе данных секвенирования генома с низким покрытием. / Апалько, Светлана Вячеславовна; Ностаева, Арина Вячеславовна; Шиманский, Валентин Сергеевич; Полковникова, Ирина Андреевна; Сушенцева, Наталья Николаевна; Анисенкова, Анна Юрьевна; Мосенко, Сергей Викторович; Щербак, Сергей Григорьевич.

Молекулярная диагностика: Сборник трудов. АО «САЙЕНС МЕДИА ПРОДЖЕКТС», 2023. стр. 300-301.

Результаты исследований: Публикации в книгах, отчётах, сборниках, трудах конференцийтезисы в сборнике материалов конференциинаучная

Harvard

Апалько, СВ, Ностаева, АВ, Шиманский, ВС, Полковникова, ИА, Сушенцева, НН, Анисенкова, АЮ, Мосенко, СВ & Щербак, СГ 2023, Разработка моделей для оценки полигенн ых рисков на основе данных секвенирования генома с низким покрытием. в Молекулярная диагностика: Сборник трудов. АО «САЙЕНС МЕДИА ПРОДЖЕКТС», стр. 300-301, Молекулярная диагностика - 2023, Москва, Российская Федерация, 14/11/23.

APA

Vancouver

Апалько СВ, Ностаева АВ, Шиманский ВС, Полковникова ИА, Сушенцева НН, Анисенкова АЮ и пр. Разработка моделей для оценки полигенн ых рисков на основе данных секвенирования генома с низким покрытием. в Молекулярная диагностика: Сборник трудов. АО «САЙЕНС МЕДИА ПРОДЖЕКТС». 2023. стр. 300-301

Author

BibTeX

@inbook{6db672d9ef6d48e1a0bab49340dbc1c2,
title = "Разработка моделей для оценки полигенн ых рисков на основе данных секвенирования генома с низким покрытием",
abstract = "Введение. Течение COVID-19 у пациентов варьируется от бессимптомного до тяжелого и крайне тяжелого, что может быть обусловлено генетической изменчивостью. Поскольку ранее опубликованные исследования показали, что восприимчивость и тяжесть COVID-19 имеют полигенную основу, можно предположить, что оценка полигенного риска (ОПР) может облегчить выявление людей с высоким риском тяжелого течения заболевания. За счет стратификации риска можно скорректировать план лечения пациентов на ранней стадии заболевания, не дожидаясь явных признаков ухудшения состояния.Цель и задачи. Используя клинические данные пациентов, а также результаты полногеномного исследования ассоциаций (ПГИА) из консорциума COVID-19 host genetics initiative, ставилась задача построения полигенной модели с последующим анализом ее применимости для пациентов из российской популяции. Основной целью данной задачи являлась оценка производительности предсказательной модели, включающей в себя предиктор ОПР.Материалы и методы. В рамках исследования COVID-19 был проведен сбор биоматериала (кровь) и клинических данных пациентов с COVID-19, госпитализированных в инфекционное отделение Санкт-Петербургского государственного бюджетного учреждения здравоохранения «Городская больница №40 Курортного района».Всего было собрано 5,398 образцов биоматериала, из них было секвенировано 1,348 образцов, разделенных на 50 групп. Секвенирование с низким покрытием было проведено на приборе MGISEQ-2000 (BGI, Китай) с использованием реагентов MGIEasy FS DNA Library Prep Set (MGI) на ячейке DNBSEQ-G400 High-throughput Sequencing Set (PE150, 540 Гб) (MGI). Для прочтений, полученных в результате секвенирования, были проведены: анализ качества (FastQC), выравнивание (BWA), дедупликация (samtools) и коллинг вариантов (bcftools). Далее, для обеспечения высокой точности обнаружения вариантов при низком покрытии последовательностей был использован алгоритм импутации GLIMPSE. В качестве референсной выборки была использована панель 1000 Genomes. Для построения моделей ОПР были использованы данные 658 образцов. Разделение по тяжести течения было проведено по следующим критериям: в группу случаев вошли образцы от 204 пациентов (129 мужчин и 75 женщин, 63±14 лет) с поражением легких более 50% (КТ-3 и КТ-4), в контрольную группу — образцы от 454 пациентов (237 мужчин и 217 женщин, 57±15 лет). Для построения моделей полигенных рисков использовался байесовский подход SBayesR, реализованный в программном обеспечении GCTB, и данные консорциума COVID-19 Host Genetics Initiative.Основные результаты. В результате секвенирования глубина покрытия прочтениями составила от 1 до 5, среднее значение — 3. В результате использования метода SBayesR была построена модель полигенных рисков на основе суммарных статистик из консорциума COVID-19 Host Genetics Initiative, предоставляющий в свободном доступе результаты метаанализа ПГИА, в котором были сведены вместе результаты 60 отдельных исследований из 25 стран. Данная модель представляет собой набор переоцененных эффектов однонуклеотидных полиморфизмов (ОНП), позволяющих рассчитать ОПР для предрасположенности к тяжелому течению COVID-19. Число ОНП, вошедших в модель, составляло 1,092,235. Из представленных в модели ОНП в среднем 95% присутствовали в полученных данных. Для каждого из 658 образцов было посчитано значение ОПР как сумма генотипов, представленных в модели, взвешенная на размеры переоцененных эффектов ОНП. Таким образом, для групп случаев и контролей были получены векторы значений ОПР, которые использовались для дальнейшего сравнения распределения ОПР между этими группами и построения моделей логистической регрессии. Сравнение средних значений ОПР для групп случаев и контролей, выполненное с помощью t-критерия Стьюдента для двух независимых выборок, показало значимые различия. Для групп, разделенных по тяжести течения, значение p-value было равно 1.7e-06. Используя описанный выше сценарий разбиения образцов на группы случаев и контролей, далее были получены модели логистической регрессии с разным набором предикторов: 1) только ОПР; 2) только пол и возраст; 3) пол, возраст и ОПР.Также, мы разделили исследуемую выборку по полу и оценили качество предсказания логистических моделей отдельно для мужчин и женщин. Результаты показали, что в группе мужчин параметр ОПР предсказывает тяжелое течение заболевания с более высоким качеством, чем в группе женщин (AUC=0.66 [95% ДИ: 0.60-0.72] и AUC=0.56 [95% ДИ: 0.48-0.64], соответственно). При этом модель предсказания только по возрасту имеет примерно одинаковое качество для мужчин и женщин (AUC=0.63 [95% ДИ: 0.57-0.69] и AUC=0.62 [95% ДИ: 0.55-0.70], соответственно).Далее, было подсчитано отношение шансов (ОШ) на смертельный исход между группой с самыми высокими значениями ОПР (10%) и всеми остальными. Результаты показали, что ОШ = 2.05 с p-value = 0.026. Таким образом, в группе с самыми высокими значениями ОПР вероятность смертельного исхода при тяжелом течение заболевания значительно выше. Далее, анализ выживаемости, выполненный с помощью метода Каплана–Мейера, показал, что средний риск тяжелого течения, который достигается в возрасте 60 лет, в группе с самыми высокими ОПР (10%) достигается уже в 45 лет.Выводы. Результаты показывают, что средние значения распределения ОПР в группах случаев и контролей в задаче исследования предрасположенности к тяжелому течению COVID-19 значимо отличаются. Из этого можно сделать вывод, что ОПР позволяется стратифицировать людей в соответствие с генетической предрасположенностью к тяжелому течению COVID-19. В дальнейшем предполагается увеличение размера исследуемой выборки, что позволит улучшить мощность анализа. В целом расчет ОПР и последующее их сравнение продемонстрировали возможность использования моделей полигенных рисков, построенных на основе суммарных статистик (результаты ПГИА) из открытых данных с получением значимых результатов.Исследование выполнено в рамках проекта Санкт-Петербургского государственного университета ID 94029859.",
author = "Апалько, {Светлана Вячеславовна} and Ностаева, {Арина Вячеславовна} and Шиманский, {Валентин Сергеевич} and Полковникова, {Ирина Андреевна} and Сушенцева, {Наталья Николаевна} and Анисенкова, {Анна Юрьевна} and Мосенко, {Сергей Викторович} and Щербак, {Сергей Григорьевич}",
year = "2023",
month = nov,
language = "русский",
pages = "300--301",
booktitle = "Молекулярная диагностика",
publisher = "АО «САЙЕНС МЕДИА ПРОДЖЕКТС»",
address = "Российская Федерация",
note = "Молекулярная диагностика - 2023 : Современные достижения и перспективы, MDx-2023 ; Conference date: 14-11-2023 Through 17-11-2023",
url = "https://mdxconf.ru/mdx2023/ru/",

}

RIS

TY - CHAP

T1 - Разработка моделей для оценки полигенн ых рисков на основе данных секвенирования генома с низким покрытием

AU - Апалько, Светлана Вячеславовна

AU - Ностаева, Арина Вячеславовна

AU - Шиманский, Валентин Сергеевич

AU - Полковникова, Ирина Андреевна

AU - Сушенцева, Наталья Николаевна

AU - Анисенкова, Анна Юрьевна

AU - Мосенко, Сергей Викторович

AU - Щербак, Сергей Григорьевич

PY - 2023/11

Y1 - 2023/11

N2 - Введение. Течение COVID-19 у пациентов варьируется от бессимптомного до тяжелого и крайне тяжелого, что может быть обусловлено генетической изменчивостью. Поскольку ранее опубликованные исследования показали, что восприимчивость и тяжесть COVID-19 имеют полигенную основу, можно предположить, что оценка полигенного риска (ОПР) может облегчить выявление людей с высоким риском тяжелого течения заболевания. За счет стратификации риска можно скорректировать план лечения пациентов на ранней стадии заболевания, не дожидаясь явных признаков ухудшения состояния.Цель и задачи. Используя клинические данные пациентов, а также результаты полногеномного исследования ассоциаций (ПГИА) из консорциума COVID-19 host genetics initiative, ставилась задача построения полигенной модели с последующим анализом ее применимости для пациентов из российской популяции. Основной целью данной задачи являлась оценка производительности предсказательной модели, включающей в себя предиктор ОПР.Материалы и методы. В рамках исследования COVID-19 был проведен сбор биоматериала (кровь) и клинических данных пациентов с COVID-19, госпитализированных в инфекционное отделение Санкт-Петербургского государственного бюджетного учреждения здравоохранения «Городская больница №40 Курортного района».Всего было собрано 5,398 образцов биоматериала, из них было секвенировано 1,348 образцов, разделенных на 50 групп. Секвенирование с низким покрытием было проведено на приборе MGISEQ-2000 (BGI, Китай) с использованием реагентов MGIEasy FS DNA Library Prep Set (MGI) на ячейке DNBSEQ-G400 High-throughput Sequencing Set (PE150, 540 Гб) (MGI). Для прочтений, полученных в результате секвенирования, были проведены: анализ качества (FastQC), выравнивание (BWA), дедупликация (samtools) и коллинг вариантов (bcftools). Далее, для обеспечения высокой точности обнаружения вариантов при низком покрытии последовательностей был использован алгоритм импутации GLIMPSE. В качестве референсной выборки была использована панель 1000 Genomes. Для построения моделей ОПР были использованы данные 658 образцов. Разделение по тяжести течения было проведено по следующим критериям: в группу случаев вошли образцы от 204 пациентов (129 мужчин и 75 женщин, 63±14 лет) с поражением легких более 50% (КТ-3 и КТ-4), в контрольную группу — образцы от 454 пациентов (237 мужчин и 217 женщин, 57±15 лет). Для построения моделей полигенных рисков использовался байесовский подход SBayesR, реализованный в программном обеспечении GCTB, и данные консорциума COVID-19 Host Genetics Initiative.Основные результаты. В результате секвенирования глубина покрытия прочтениями составила от 1 до 5, среднее значение — 3. В результате использования метода SBayesR была построена модель полигенных рисков на основе суммарных статистик из консорциума COVID-19 Host Genetics Initiative, предоставляющий в свободном доступе результаты метаанализа ПГИА, в котором были сведены вместе результаты 60 отдельных исследований из 25 стран. Данная модель представляет собой набор переоцененных эффектов однонуклеотидных полиморфизмов (ОНП), позволяющих рассчитать ОПР для предрасположенности к тяжелому течению COVID-19. Число ОНП, вошедших в модель, составляло 1,092,235. Из представленных в модели ОНП в среднем 95% присутствовали в полученных данных. Для каждого из 658 образцов было посчитано значение ОПР как сумма генотипов, представленных в модели, взвешенная на размеры переоцененных эффектов ОНП. Таким образом, для групп случаев и контролей были получены векторы значений ОПР, которые использовались для дальнейшего сравнения распределения ОПР между этими группами и построения моделей логистической регрессии. Сравнение средних значений ОПР для групп случаев и контролей, выполненное с помощью t-критерия Стьюдента для двух независимых выборок, показало значимые различия. Для групп, разделенных по тяжести течения, значение p-value было равно 1.7e-06. Используя описанный выше сценарий разбиения образцов на группы случаев и контролей, далее были получены модели логистической регрессии с разным набором предикторов: 1) только ОПР; 2) только пол и возраст; 3) пол, возраст и ОПР.Также, мы разделили исследуемую выборку по полу и оценили качество предсказания логистических моделей отдельно для мужчин и женщин. Результаты показали, что в группе мужчин параметр ОПР предсказывает тяжелое течение заболевания с более высоким качеством, чем в группе женщин (AUC=0.66 [95% ДИ: 0.60-0.72] и AUC=0.56 [95% ДИ: 0.48-0.64], соответственно). При этом модель предсказания только по возрасту имеет примерно одинаковое качество для мужчин и женщин (AUC=0.63 [95% ДИ: 0.57-0.69] и AUC=0.62 [95% ДИ: 0.55-0.70], соответственно).Далее, было подсчитано отношение шансов (ОШ) на смертельный исход между группой с самыми высокими значениями ОПР (10%) и всеми остальными. Результаты показали, что ОШ = 2.05 с p-value = 0.026. Таким образом, в группе с самыми высокими значениями ОПР вероятность смертельного исхода при тяжелом течение заболевания значительно выше. Далее, анализ выживаемости, выполненный с помощью метода Каплана–Мейера, показал, что средний риск тяжелого течения, который достигается в возрасте 60 лет, в группе с самыми высокими ОПР (10%) достигается уже в 45 лет.Выводы. Результаты показывают, что средние значения распределения ОПР в группах случаев и контролей в задаче исследования предрасположенности к тяжелому течению COVID-19 значимо отличаются. Из этого можно сделать вывод, что ОПР позволяется стратифицировать людей в соответствие с генетической предрасположенностью к тяжелому течению COVID-19. В дальнейшем предполагается увеличение размера исследуемой выборки, что позволит улучшить мощность анализа. В целом расчет ОПР и последующее их сравнение продемонстрировали возможность использования моделей полигенных рисков, построенных на основе суммарных статистик (результаты ПГИА) из открытых данных с получением значимых результатов.Исследование выполнено в рамках проекта Санкт-Петербургского государственного университета ID 94029859.

AB - Введение. Течение COVID-19 у пациентов варьируется от бессимптомного до тяжелого и крайне тяжелого, что может быть обусловлено генетической изменчивостью. Поскольку ранее опубликованные исследования показали, что восприимчивость и тяжесть COVID-19 имеют полигенную основу, можно предположить, что оценка полигенного риска (ОПР) может облегчить выявление людей с высоким риском тяжелого течения заболевания. За счет стратификации риска можно скорректировать план лечения пациентов на ранней стадии заболевания, не дожидаясь явных признаков ухудшения состояния.Цель и задачи. Используя клинические данные пациентов, а также результаты полногеномного исследования ассоциаций (ПГИА) из консорциума COVID-19 host genetics initiative, ставилась задача построения полигенной модели с последующим анализом ее применимости для пациентов из российской популяции. Основной целью данной задачи являлась оценка производительности предсказательной модели, включающей в себя предиктор ОПР.Материалы и методы. В рамках исследования COVID-19 был проведен сбор биоматериала (кровь) и клинических данных пациентов с COVID-19, госпитализированных в инфекционное отделение Санкт-Петербургского государственного бюджетного учреждения здравоохранения «Городская больница №40 Курортного района».Всего было собрано 5,398 образцов биоматериала, из них было секвенировано 1,348 образцов, разделенных на 50 групп. Секвенирование с низким покрытием было проведено на приборе MGISEQ-2000 (BGI, Китай) с использованием реагентов MGIEasy FS DNA Library Prep Set (MGI) на ячейке DNBSEQ-G400 High-throughput Sequencing Set (PE150, 540 Гб) (MGI). Для прочтений, полученных в результате секвенирования, были проведены: анализ качества (FastQC), выравнивание (BWA), дедупликация (samtools) и коллинг вариантов (bcftools). Далее, для обеспечения высокой точности обнаружения вариантов при низком покрытии последовательностей был использован алгоритм импутации GLIMPSE. В качестве референсной выборки была использована панель 1000 Genomes. Для построения моделей ОПР были использованы данные 658 образцов. Разделение по тяжести течения было проведено по следующим критериям: в группу случаев вошли образцы от 204 пациентов (129 мужчин и 75 женщин, 63±14 лет) с поражением легких более 50% (КТ-3 и КТ-4), в контрольную группу — образцы от 454 пациентов (237 мужчин и 217 женщин, 57±15 лет). Для построения моделей полигенных рисков использовался байесовский подход SBayesR, реализованный в программном обеспечении GCTB, и данные консорциума COVID-19 Host Genetics Initiative.Основные результаты. В результате секвенирования глубина покрытия прочтениями составила от 1 до 5, среднее значение — 3. В результате использования метода SBayesR была построена модель полигенных рисков на основе суммарных статистик из консорциума COVID-19 Host Genetics Initiative, предоставляющий в свободном доступе результаты метаанализа ПГИА, в котором были сведены вместе результаты 60 отдельных исследований из 25 стран. Данная модель представляет собой набор переоцененных эффектов однонуклеотидных полиморфизмов (ОНП), позволяющих рассчитать ОПР для предрасположенности к тяжелому течению COVID-19. Число ОНП, вошедших в модель, составляло 1,092,235. Из представленных в модели ОНП в среднем 95% присутствовали в полученных данных. Для каждого из 658 образцов было посчитано значение ОПР как сумма генотипов, представленных в модели, взвешенная на размеры переоцененных эффектов ОНП. Таким образом, для групп случаев и контролей были получены векторы значений ОПР, которые использовались для дальнейшего сравнения распределения ОПР между этими группами и построения моделей логистической регрессии. Сравнение средних значений ОПР для групп случаев и контролей, выполненное с помощью t-критерия Стьюдента для двух независимых выборок, показало значимые различия. Для групп, разделенных по тяжести течения, значение p-value было равно 1.7e-06. Используя описанный выше сценарий разбиения образцов на группы случаев и контролей, далее были получены модели логистической регрессии с разным набором предикторов: 1) только ОПР; 2) только пол и возраст; 3) пол, возраст и ОПР.Также, мы разделили исследуемую выборку по полу и оценили качество предсказания логистических моделей отдельно для мужчин и женщин. Результаты показали, что в группе мужчин параметр ОПР предсказывает тяжелое течение заболевания с более высоким качеством, чем в группе женщин (AUC=0.66 [95% ДИ: 0.60-0.72] и AUC=0.56 [95% ДИ: 0.48-0.64], соответственно). При этом модель предсказания только по возрасту имеет примерно одинаковое качество для мужчин и женщин (AUC=0.63 [95% ДИ: 0.57-0.69] и AUC=0.62 [95% ДИ: 0.55-0.70], соответственно).Далее, было подсчитано отношение шансов (ОШ) на смертельный исход между группой с самыми высокими значениями ОПР (10%) и всеми остальными. Результаты показали, что ОШ = 2.05 с p-value = 0.026. Таким образом, в группе с самыми высокими значениями ОПР вероятность смертельного исхода при тяжелом течение заболевания значительно выше. Далее, анализ выживаемости, выполненный с помощью метода Каплана–Мейера, показал, что средний риск тяжелого течения, который достигается в возрасте 60 лет, в группе с самыми высокими ОПР (10%) достигается уже в 45 лет.Выводы. Результаты показывают, что средние значения распределения ОПР в группах случаев и контролей в задаче исследования предрасположенности к тяжелому течению COVID-19 значимо отличаются. Из этого можно сделать вывод, что ОПР позволяется стратифицировать людей в соответствие с генетической предрасположенностью к тяжелому течению COVID-19. В дальнейшем предполагается увеличение размера исследуемой выборки, что позволит улучшить мощность анализа. В целом расчет ОПР и последующее их сравнение продемонстрировали возможность использования моделей полигенных рисков, построенных на основе суммарных статистик (результаты ПГИА) из открытых данных с получением значимых результатов.Исследование выполнено в рамках проекта Санкт-Петербургского государственного университета ID 94029859.

M3 - тезисы в сборнике материалов конференции

SP - 300

EP - 301

BT - Молекулярная диагностика

PB - АО «САЙЕНС МЕДИА ПРОДЖЕКТС»

T2 - Молекулярная диагностика - 2023

Y2 - 14 November 2023 through 17 November 2023

ER -

ID: 114440645