Акушерство и Гинекология №10 / 2023
Разработка и валидация моделей прогнозирования общего риска преэклампсии и риска ранней преэклампсии с использованием алгоритмов машинного обучения в первом триместре беременности
1) ООО «К-Скай», Петрозаводск, Россия;
2) ФГБУН «Кировский научно-исследовательский институт гематологии и переливания крови Федерального медико-биологического агентства», Киров, Россия;
3) ФГБОУ ВО «Петрозаводский государственный университет», Петрозаводск, Россия;
4) ФГБУ «Центральный научно-исследовательский институт организации и информатизации здравоохранения» Минздрава России, Москва, Россия;
5) ГБУЗ города Москвы «Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы», Москва, Россия
Актуальность: Преэклампсия (ПЭ) представляет собой грозное, трудно прогнозируемое осложнение беременности, характеризующееся полиорганной дисфункцией. Заболевание встречается с частотой 2–8% среди всех беременностей и является одной из ведущих причин перинатальной и материнской смертности, в особенности при раннем дебюте. Цель: Разработка моделей прогнозирования общего риска ПЭ и риска ранней ПЭ с использованием технологий машинного обучения (МО) на основе данных реальной клинической практики в I триместре беременности. Материалы и методы: По сведениям из электронных медицинских карт, полученных через платформу Webiomed, были проанализированы 21 092 записи, соответствующие 12 434 уникальным беременностям 12 283 женщин в возрасте от 11 до 60 лет на сроке до 16 недель включительно. В качестве потенциальных факторов прогноза ПЭ отобраны анамнестические, конституциональные, клинические, инструментальные и лабораторные данные, широко используемые в рутинной врачебной практике, всего – 53 переменные. Для создания моделей применялись логистическая регрессия (LR), методы градиентного бустинга (LightGBM, XGBoost, CatBoost) и методы, основанные на деревьях решений (RandomForest и ExtraTrees). Результаты: Наилучшие результаты при решении задачи прогнозирования ПЭ показала модель ExtraTrees – площадь под кривой (AUC) 0,858 (95% ДИ 0,827–0,890). Точность модели составила 0,634 (95% ДИ 0,616–0,652), чувствительность – 0,897 (95% ДИ 0,837–0,953), специфичность – 0,624 (95% ДИ 0,605–0,643). В числе моделей оценки риска ранней ПЭ наилучшие результаты продемонстрировал алгоритм RandomForest. По результатам его валидации AUC составила 0,848 (95% ДИ 0,785–0,904), точность – 0,813 (95% ДИ 0,798–0,828), чувствительность – 0,733 (95% ДИ 0,565–0,885), специфичность – 0,814 (95% ДИ 0,799–0,828). Заключение: Метрики полученных итоговых моделей соответствовали опубликованным ранее аналогам. Результаты внешней валидации показали относительную устойчивость моделей к новым данным, что в совокупности с показателями качества предполагает возможность их использования в реальной клинической практике. Это наш первый опыт прогнозирования сложного по механизму развития осложнения беременности на основе данных реальной клинической практики. Качество прогностической модели напрямую зависит от используемых данных и статистических алгоритмов, которые нам предстоит улучшить в будущих исследованиях.
Вклад авторов: Андрейченко А.Е. – руководство исследованием, редактирование текста статьи; Лучинин А.С. – составление текста статьи; Ившин А.А. – концепция исследования, экспертный анализ результатов, редактирование текста статьи; Ермак А.Д. – моделирование и анализ данных; Новицкий Р.Э., Гусев А.В. – концепция исследования.
Конфликт интересов: Авторы заявляют об отсутствии конфликта интересов.
Финансирование: Исследование выполнено с использованием Уникальной научной установки (УНУ) «Многокомпонентный программно-аппаратный комплекс для автоматизированного сбора, хранения, разметки научно-исследовательских и клинических биомедицинских данных, их унификации и анализа на базе ЦОД с использованием технологий искусственного интеллекта» (рег. номер: 2075518).
Благодарности: Авторы выражают свою признательность Д.В. Гаврилову за ценные консультации при сборе данных и валидации результатов работы моделей, а также В.О. Баркиной и В.Ю. Борисову за помощь в обработке данных и построении моделей.
Обмен исследовательскими данными: Данные, подтверждающие выводы этого исследования, доступны по запросу у автора, ответственного за переписку, после одобрения ведущим исследователем.
Для цитирования: Андрейченко А.Е., Лучинин А.С., Ившин А.А., Ермак А.Д., Новицкий Р.Э., Гусев А.В. Разработка и валидация моделей прогнозирования общего риска преэклампсии и риска ранней преэклампсии с использованием алгоритмов машинного обучения в первом триместре беременности. Акушерство и гинекология. 2023; 10: 94-107 https://dx.doi.org/10.18565/aig.2023.101
Преэклампсия (ПЭ) представляет собой грозное, трудно прогнозируемое осложнение беременности, характеризующееся полиорганной дисфункцией. Заболевание встречается с частотой 2–8% среди всех беременностей и является одной из ведущих причин материнской и младенческой смертности [1]. В настоящее время этиология и патогенез ПЭ до конца не изучены, поэтому терапия носит симптоматический характер. У разных пациенток ПЭ протекает неодинаково, поскольку в патологический процесс вовлекаются различные системы органов; при этом клиническая картина полиорганной дисфункции широко варьирует [2]. Эта особенность затрудняет своевременную диагностику, прогноз наступления и прогрессирования ПЭ. В этой связи создание и внедрение в практическое здравоохранение многофакторной модели прогнозирования ПЭ является актуальной задачей, позволяющей улучшить исходы беременности [3]. В недавнем опубликованном систематическом обзоре 68 прогностических моделей ПЭ показано, что наиболее часто используемыми предикторами являлись заболевания беременной в анамнезе, индекс массы тела (ИМТ), артериальное давление (АД), состояние кровотока в маточных артериях и возраст матери. В то же время, специфические биомаркеры и предикторы, полученные по результатам ультразвуковой диагностики, значительно не улучшали дискриминативные свойства моделей. Значение показателя площади под ROC-кривой (AUC) для исследованных моделей варьировало в широком диапазоне от 0,61 до 0,996. Только в 4% и 6% всех работ имелась информация о внутренней и внешней валидации, соответственно [4].
Построение многопараметрических прогностических моделей, несмотря на существующие трудности, может способствовать эффективному прогнозированию ПЭ и, как следствие, своевременному принятию клинических решений в виде результативной профилактики. В настоящее время в научной литературе опубликованы результаты исследований, связанных с разработкой прогностических моделей ПЭ. Так, Thangaratinam S. et al. построили две прогностические модели (PREP-L и PREP-S), используя регрессионный анализ Кокса и логистический регрессионный анализ, включив в них параметры, связанные с эффектом от терапии высокого АД и спазмолитиков. Из-за сложности и неудобства использования модели не нашли применения в клинической практике [5]. Одним из вариантов упрощения, удобства и интуитивности понимания прогностических моделей является их графическая визуализация в виде номограммы, которые часто используют в онкологии [6]. Применение такого подхода в сочетании с алгоритмом LR легло в основу другой модели прогноза ПЭ с хорошей дискриминативностью. По результатам внутренней валидации значение AUC составило 0,957 (0,935–0,979), при этом средняя абсолютная ошибка по данным калибровочной кривой была равна 1,4% [7].
Поскольку заболеваемость ПЭ во всем мире не снижается, качество и эффективность создаваемых моделей прогнозирования варьируется в широких пределах, а возможность их практического применения до настоящего времени отсутствует – вопрос исследований в данной области представляется актуальным.
Цель исследования: разработка и валидация моделей прогнозирования общего риска ПЭ и риска ранней ПЭ с использованием алгоритмов машинного обучения (МО) в I триместре беременности на данных реальной клинической практики.
Материалы и методы
Источник данных. Проведено ретроспективное исследование базы данных платформы прогнозной аналитики Webiomed, содержащей неперсонифицированные формализованные данные электронных медицинских карт (ЭМК) 11,6 млн пациентов, проходивших обследование и лечение в медицинских организациях различных регионов Российской Федерации. Для сбора данных компанией-разработчиком платформы Webiomed были подписаны соглашения с соответствующими операторами персональных медицинских данных на их обезличивание на стороне оператора и передачу результатов в платформу Webiomed, в том числе для научно-исследовательских целей. Поскольку анализировались обезличенные медицинские данные, информированное добровольное согласие пациентов не требовалось. Медицинские данные и машиночитаемые значения признаков собирались из ЭМК с помощью различных технологий извлечения информации из неструктурированных либо слабо структурированных текстовых данных, в том числе NLP (natural language processing). На момент исследования платформа Webiomed поддерживала автоматическое извлечение более 2900 логических, категориальных и количественных признаков.
Участники. На основе имеющейся базы данных был сформирован набор данных, включающий 21 092 записи, соответствующие 12 434 уникальным беременностям 12 283 женщин, которым была оказана медицинская помощь в период с 21.12.2004 г. по 28.11.2022 г. Под записью понимается случай получения медицинской помощи, зафиксированный в ЭМК пациентки с установленным на момент обращения сроком беременности вместе с уточненными на дату этого случая значениями клинических параметров пациентки. Были использованы следующие критерии включения случая в набор данных: 1) установленны...