Эпидемиология и Инфекционные болезни. Актуальные вопросы №1 / 2024

Сравнение методов машинного обучения для прогнозирования риска развития рака шейки матки на основе генетической предрасположенности

18 марта 2024

Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия

Этиологический агент рака шейки матки (РШМ) – вирус папилломы человека (ВПЧ). При этом не у всех ВПЧ-инфицированных женщин развивается РШМ, что позволяет предполагать генетическую предрасположенность.
Цель исследования. Сравнение и выбор наиболее оптимального метода машинного обучения для прогнозирования развития РШМ у ВПЧ-инфицированных женщин с использованием данных о генетической предрасположенности.
Материалы и методы. Исследовали пробы ДНК 127 женщин с РШМ и 120 женщин без интраэпителиальных поражений. Для анализа взяты однонуклеотидные полиморфизмы: rs55986091 (HLA-DQB1), rs2516448 (MICA) и rs9271898 (HLA-DQA1). Для прогнозирования РШМ использовали методы: логистическая регрессия, случайные леса, Gradient Boosting Machine (GBM), XGBoost и нейронная сеть.
Результаты. Предикторы, ассоциированные с риском развития РШМ, – это наличие 16, 18 или 45 типа ВПЧ и 3 полиморфных варианта: rs55986091, rs2516448 или rs9271898. При сравнении методов машинного обучения более точные результаты прогнозирования показаны для нейронной сети и XGBoost.
Заключение. Генетическая предрасположенность и модели расчета, основанные на машинном обучении, могут быть использованы для расчета индивидуального риска РШМ, определения групп риска и коррекции периода между скринингом.

Рак шейки матки (РШМ) является четвертым по частоте встречаемости и смертности видом рака в мире среди женщин: в 2020 г. зарегистрировано 604 000 новых случаев и более 340 000 смертельных исходов от этой нозологии, что составляет 7,7% всех смертей, связанных с опухолями [1]. Число случаев РШМ в России за 10 лет (2009–2019 гг.) увеличилось на 22% (с 14 000 до 17 000), что демонстрирует социальную значимость данного заболевания. На группу женщин социально активного и репродуктивного возраста 30–44 лет приходится 32,4% случаев РШМ [2].

Согласно статистике по оказанию онкологической помощи населению России, общепринятые механизмы профилактики предраковых заболеваний шейки матки работают недостаточно эффективно: нет всеобщей вакцинации, женщины не информированы о необходимости и возможности цитологического исследования, часто отсутствуют информированность населения и мотивация к регулярному обследованию. В связи с этим смертность от РШМ практически не снижается [2].

Доказанным этиологическим агентом РШМ является вирус папилломы человека (ВПЧ). Показано, что связь с ВПЧ и РШМ выше, чем связь между курением и раком легкого [3]. При этом у ВПЧ-инфицированных женщин частота РШМ составляет всего 0,015%, что позволяет предполагать наличие генетической предрасположенности [4]. К факторам генетической предрасположенности относятся различные вариации в последовательности ДНК: одиночные нуклеотидные замены, делеции, инсерции и структурные вариации. При этом подавляющее большинство изменений вносят однонуклеотидные полиморфизмы (ОНП) – нуклеотидные замены, встречающиеся чаще чем у 1% лиц в популяции [5].

Определение ОНП, ассоциированных с заболеваниями, позволяет охарактеризовать возможную наследственную предрасположенность к развитию патологических состояний в досимптоматический период для своевременного назначения диагностических или профилактических мероприятий [5].

Учитывая длительный бессимптомный период, половой путь передачи и поражение женщин репродуктивного возраста, прогнозирование развития РШМ является важной клинической задачей, особенно актуальной для женщин из групп риска, к которым, в том числе, относятся ВИЧ-инфицированные [6].

В данный момент в России существует проблема малого охвата профилактическим скринингом РШМ, так как существующий «оппортунистический скрининг» достигает не более 30%. Выявление групп риска скринингом является актуальной задачей для современного общества в эпидемиологическом контроле за РШМ [7]. Определение аллелей ОНП, ассоциированных с РШМ, и математические расчеты генетически обусловленных рисков смогут помочь в решении задачи оптимизации риск-ориентированного подхода в эпидемиологическом надзоре за РШМ с целью корректировки и своевременного назначения диагностических и профилактических мероприятий.

Традиционные методы прогнозирования риска развития заболеваний и патологических процессов – это регрессионный анализ, анализ временных рядов, деревья решений и экспоненциальное сглаживание [8]. При этом если зависимая переменная имеет 2 класса: «да» (наличие признака) или «нет» (отсутствие признака), совокупность методов сужается до регрессионного анализа, а именно бинарной-логистической регрессии, и дерева решений. Однако эти методы имеют несколько недостатков, например, регрессионный анализ имеет проблемы мультиколлинеарности, сложности выбора предикторов и ошибки в интерпретации коэффициента ответа [9]. Наиболее подходящее решение проблемы – использование машинного обучения и тестирование множества различных моделей с выбором оптимальной, то есть с наименьшим количеством ошибочных предсказаний. Для регрессионного анализа – это лассо-регрессия или гребневая регрессия, для метода дерева решений – случайные леса, Gradient Boosting Machine (GBM) и XGBoost [10], а также получившие популярность в эпидемиологических исследованиях нейронные сети [11].

Следует признать, что на сегодняшний момент недостаточно данных для выбора оптимального метода прогнозирования в эпидемиологических исследованиях с анализом генетических рисков, которые не обладают 100% пенетрантностью.

Таким образом, цель исследования – сравнение и выбор наиболее оптимального метода машинного обучения для прогнозирования развития РШМ у ВПЧ-инфицированных женщин с ...

Винокуров М.А., Миронов К.О., Домонова Э.А., Романюк Т.Н., Попова А.А., Акимкин В.Г.
Статья платная, чтобы прочесть ее полностью, вам необходимо произвести покупку
Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.