Эпидемиология и Инфекционные болезни. Актуальные вопросы №1 / 2024
Сравнение методов машинного обучения для прогнозирования риска развития рака шейки матки на основе генетической предрасположенности
Центральный НИИ эпидемиологии Роспотребнадзора, Москва, Россия
Этиологический агент рака шейки матки (РШМ) – вирус папилломы человека (ВПЧ). При этом не у всех ВПЧ-инфицированных женщин развивается РШМ, что позволяет предполагать генетическую предрасположенность.
Цель исследования. Сравнение и выбор наиболее оптимального метода машинного обучения для прогнозирования развития РШМ у ВПЧ-инфицированных женщин с использованием данных о генетической предрасположенности.
Материалы и методы. Исследовали пробы ДНК 127 женщин с РШМ и 120 женщин без интраэпителиальных поражений. Для анализа взяты однонуклеотидные полиморфизмы: rs55986091 (HLA-DQB1), rs2516448 (MICA) и rs9271898 (HLA-DQA1). Для прогнозирования РШМ использовали методы: логистическая регрессия, случайные леса, Gradient Boosting Machine (GBM), XGBoost и нейронная сеть.
Результаты. Предикторы, ассоциированные с риском развития РШМ, – это наличие 16, 18 или 45 типа ВПЧ и 3 полиморфных варианта: rs55986091, rs2516448 или rs9271898. При сравнении методов машинного обучения более точные результаты прогнозирования показаны для нейронной сети и XGBoost.
Заключение. Генетическая предрасположенность и модели расчета, основанные на машинном обучении, могут быть использованы для расчета индивидуального риска РШМ, определения групп риска и коррекции периода между скринингом.
Рак шейки матки (РШМ) является четвертым по частоте встречаемости и смертности видом рака в мире среди женщин: в 2020 г. зарегистрировано 604 000 новых случаев и более 340 000 смертельных исходов от этой нозологии, что составляет 7,7% всех смертей, связанных с опухолями [1]. Число случаев РШМ в России за 10 лет (2009–2019 гг.) увеличилось на 22% (с 14 000 до 17 000), что демонстрирует социальную значимость данного заболевания. На группу женщин социально активного и репродуктивного возраста 30–44 лет приходится 32,4% случаев РШМ [2].
Согласно статистике по оказанию онкологической помощи населению России, общепринятые механизмы профилактики предраковых заболеваний шейки матки работают недостаточно эффективно: нет всеобщей вакцинации, женщины не информированы о необходимости и возможности цитологического исследования, часто отсутствуют информированность населения и мотивация к регулярному обследованию. В связи с этим смертность от РШМ практически не снижается [2].
Доказанным этиологическим агентом РШМ является вирус папилломы человека (ВПЧ). Показано, что связь с ВПЧ и РШМ выше, чем связь между курением и раком легкого [3]. При этом у ВПЧ-инфицированных женщин частота РШМ составляет всего 0,015%, что позволяет предполагать наличие генетической предрасположенности [4]. К факторам генетической предрасположенности относятся различные вариации в последовательности ДНК: одиночные нуклеотидные замены, делеции, инсерции и структурные вариации. При этом подавляющее большинство изменений вносят однонуклеотидные полиморфизмы (ОНП) – нуклеотидные замены, встречающиеся чаще чем у 1% лиц в популяции [5].
Определение ОНП, ассоциированных с заболеваниями, позволяет охарактеризовать возможную наследственную предрасположенность к развитию патологических состояний в досимптоматический период для своевременного назначения диагностических или профилактических мероприятий [5].
Учитывая длительный бессимптомный период, половой путь передачи и поражение женщин репродуктивного возраста, прогнозирование развития РШМ является важной клинической задачей, особенно актуальной для женщин из групп риска, к которым, в том числе, относятся ВИЧ-инфицированные [6].
В данный момент в России существует проблема малого охвата профилактическим скринингом РШМ, так как существующий «оппортунистический скрининг» достигает не более 30%. Выявление групп риска скринингом является актуальной задачей для современного общества в эпидемиологическом контроле за РШМ [7]. Определение аллелей ОНП, ассоциированных с РШМ, и математические расчеты генетически обусловленных рисков смогут помочь в решении задачи оптимизации риск-ориентированного подхода в эпидемиологическом надзоре за РШМ с целью корректировки и своевременного назначения диагностических и профилактических мероприятий.
Традиционные методы прогнозирования риска развития заболеваний и патологических процессов – это регрессионный анализ, анализ временных рядов, деревья решений и экспоненциальное сглаживание [8]. При этом если зависимая переменная имеет 2 класса: «да» (наличие признака) или «нет» (отсутствие признака), совокупность методов сужается до регрессионного анализа, а именно бинарной-логистической регрессии, и дерева решений. Однако эти методы имеют несколько недостатков, например, регрессионный анализ имеет проблемы мультиколлинеарности, сложности выбора предикторов и ошибки в интерпретации коэффициента ответа [9]. Наиболее подходящее решение проблемы – использование машинного обучения и тестирование множества различных моделей с выбором оптимальной, то есть с наименьшим количеством ошибочных предсказаний. Для регрессионного анализа – это лассо-регрессия или гребневая регрессия, для метода дерева решений – случайные леса, Gradient Boosting Machine (GBM) и XGBoost [10], а также получившие популярность в эпидемиологических исследованиях нейронные сети [11].
Следует признать, что на сегодняшний момент недостаточно данных для выбора оптимального метода прогнозирования в эпидемиологических исследованиях с анализом генетических рисков, которые не обладают 100% пенетрантностью.
Таким образом, цель исследования – сравнение и выбор наиболее оптимального метода машинного обучения для прогнозирования развития РШМ у ВПЧ-инфицированных женщин с ...