Акушерство и Гинекология №10 / 2023

Разработка и валидация моделей прогнозирования общего риска преэклампсии и риска ранней преэклампсии с использованием алгоритмов машинного обучения в первом триместре беременности

31 октября 2023

1) ООО «К-Скай», Петрозаводск, Россия;
2) ФГБУН «Кировский научно-исследовательский институт гематологии и переливания крови Федерального медико-биологического агентства», Киров, Россия;
3) ФГБОУ ВО «Петрозаводский государственный университет», Петрозаводск, Россия;
4) ФГБУ «Центральный научно-исследовательский институт организации и информатизации здравоохранения» Минздрава России, Москва, Россия;
5) ГБУЗ города Москвы «Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы», Москва, Россия

Актуальность: Преэклампсия (ПЭ) представляет собой грозное, трудно прогнозируемое осложнение беременности, характеризующееся полиорганной дисфункцией. Заболевание встречается с частотой 2–8% среди всех беременностей и является одной из ведущих причин перинатальной и материнской смертности, в особенности при раннем дебюте. Цель: Разработка моделей прогнозирования общего риска ПЭ и риска ранней ПЭ с использованием технологий машинного обучения (МО) на основе данных реальной клинической практики в I триместре беременности. Материалы и методы: По сведениям из электронных медицинских карт, полученных через платформу Webiomed, были проанализированы 21 092 записи, соответствующие 12 434 уникальным беременностям 12 283 женщин в возрасте от 11 до 60 лет на сроке до 16 недель включительно. В качестве потенциальных факторов прогноза ПЭ отобраны анамнестические, конституциональные, клинические, инструментальные и лабораторные данные, широко используемые в рутинной врачебной практике, всего – 53 переменные. Для создания моделей применялись логистическая регрессия (LR), методы градиентного бустинга (LightGBM, XGBoost, CatBoost) и методы, основанные на деревьях решений (RandomForest и ExtraTrees). Результаты: Наилучшие результаты при решении задачи прогнозирования ПЭ показала модель ExtraTrees – площадь под кривой (AUC) 0,858 (95% ДИ 0,827–0,890). Точность модели составила 0,634 (95% ДИ 0,616–0,652), чувствительность – 0,897 (95% ДИ 0,837–0,953), специфичность – 0,624 (95% ДИ 0,605–0,643). В числе моделей оценки риска ранней ПЭ наилучшие результаты продемонстрировал алгоритм RandomForest. По результатам его валидации AUC составила 0,848 (95% ДИ 0,785–0,904), точность – 0,813 (95% ДИ 0,798–0,828), чувствительность – 0,733 (95% ДИ 0,565–0,885), специфичность – 0,814 (95% ДИ 0,799–0,828). Заключение: Метрики полученных итоговых моделей соответствовали опубликованным ранее аналогам. Результаты внешней валидации показали относительную устойчивость моделей к новым данным, что в совокупности с показателями качества предполагает возможность их использования в реальной клинической практике. Это наш первый опыт прогнозирования сложного по механизму развития осложнения беременности на основе данных реальной клинической практики. Качество прогностической модели напрямую зависит от используемых данных и статистических алгоритмов, которые нам предстоит улучшить в будущих исследованиях.

Вклад авторов: Андрейченко А.Е. – руководство исследованием, редактирование текста статьи; Лучинин А.С. – составление текста статьи; Ившин А.А. – концепция исследования, экспертный анализ результатов, редактирование текста статьи; Ермак А.Д. – моделирование и анализ данных; Новицкий Р.Э., Гусев А.В. – концепция исследования.

Конфликт интересов: Авторы заявляют об отсутствии конфликта интересов.

Финансирование: Исследование выполнено с использованием Уникальной научной установки (УНУ) «Многокомпонентный программно-аппаратный комплекс для автоматизированного сбора, хранения, разметки научно-исследовательских и клинических биомедицинских данных, их унификации и анализа на базе ЦОД с использованием технологий искусственного интеллекта» (рег. номер: 2075518).

Благодарности: Авторы выражают свою признательность Д.В. Гаврилову за ценные консультации при сборе данных и валидации результатов работы моделей, а также В.О. Баркиной и В.Ю. Борисову за помощь в обработке данных и построении моделей.

Обмен исследовательскими данными: Данные, подтверждающие выводы этого исследования, доступны по запросу у автора, ответственного за переписку, после одобрения ведущим исследователем.

Для цитирования: Андрейченко А.Е., Лучинин А.С., Ившин А.А., Ермак А.Д., Новицкий Р.Э., Гусев А.В. Разработка и валидация моделей прогнозирования общего риска преэклампсии и риска ранней преэклампсии с использованием алгоритмов машинного обучения в первом триместре беременности. Акушерство и гинекология. 2023; 10: 94-107 https://dx.doi.org/10.18565/aig.2023.101

Преэклампсия (ПЭ) представляет собой грозное, трудно прогнозируемое осложнение беременности, характеризующееся полиорганной дисфункцией. Заболевание встречается с частотой 2–8% среди всех беременностей и является одной из ведущих причин материнской и младенческой смертности [1]. В настоящее время этиология и патогенез ПЭ до конца не изучены, поэтому терапия носит симптоматический характер. У разных пациенток ПЭ протекает неодинаково, поскольку в патологический процесс вовлекаются различные системы органов; при этом клиническая картина полиорганной дисфункции широко варьирует [2]. Эта особенность затрудняет своевременную диагностику, прогноз наступления и прогрессирования ПЭ. В этой связи создание и внедрение в практическое здравоохранение многофакторной модели прогнозирования ПЭ является актуальной задачей, позволяющей улучшить исходы беременности [3]. В недавнем опубликованном систематическом обзоре 68 прогностических моделей ПЭ показано, что наиболее часто используемыми предикторами являлись заболевания беременной в анамнезе, индекс массы тела (ИМТ), артериальное давление (АД), состояние кровотока в маточных артериях и возраст матери. В то же время, специфические биомаркеры и предикторы, полученные по результатам ультразвуковой диагностики, значительно не улучшали дискриминативные свойства моделей. Значение показателя площади под ROC-кривой (AUC) для исследованных моделей варьировало в широком диапазоне от 0,61 до 0,996. Только в 4% и 6% всех работ имелась информация о внутренней и внешней валидации, соответственно [4].

Построение многопараметрических прогностических моделей, несмотря на существующие трудности, может способствовать эффективному прогнозированию ПЭ и, как следствие, своевременному принятию клинических решений в виде результативной профилактики. В настоящее время в научной литературе опубликованы результаты исследований, связанных с разработкой прогностических моделей ПЭ. Так, Thangaratinam S. et al. построили две прогностические модели (PREP-L и PREP-S), используя регрессионный анализ Кокса и логистический регрессионный анализ, включив в них параметры, связанные с эффектом от терапии высокого АД и спазмолитиков. Из-за сложности и неудобства использования модели не нашли применения в клинической практике [5]. Одним из вариантов упрощения, удобства и интуитивности понимания прогностических моделей является их графическая визуализация в виде номограммы, которые часто используют в онкологии [6]. Применение такого подхода в сочетании с алгоритмом LR легло в основу другой модели прогноза ПЭ с хорошей дискриминативностью. По результатам внутренней валидации значение AUC составило 0,957 (0,935–0,979), при этом средняя абсолютная ошибка по данным калибровочной кривой была равна 1,4% [7].

Поскольку заболеваемость ПЭ во всем мире не снижается, качество и эффективность создаваемых моделей прогнозирования варьируется в широких пределах, а возможность их практического применения до настоящего времени отсутствует – вопрос исследований в данной области представляется актуальным.

Цель исследования: разработка и валидация моделей прогнозирования общего риска ПЭ и риска ранней ПЭ с использованием алгоритмов машинного обучения (МО) в I триместре беременности на данных реальной клинической практики.

Материалы и методы

Источник данных. Проведено ретроспективное исследование базы данных платформы прогнозной аналитики Webiomed, содержащей неперсонифицированные формализованные данные электронных медицинских карт (ЭМК) 11,6 млн пациентов, проходивших обследование и лечение в медицинских организациях различных регионов Российской Федерации. Для сбора данных компанией-разработчиком платформы Webiomed были подписаны соглашения с соответствующими операторами персональных медицинских данных на их обезличивание на стороне оператора и передачу результатов в платформу Webiomed, в том числе для научно-исследовательских целей. Поскольку анализировались обезличенные медицинские данные, информированное добровольное согласие пациентов не требовалось. Медицинские данные и машиночитаемые значения признаков собирались из ЭМК с помощью различных технологий извлечения информации из неструктурированных либо слабо структурированных текстовых данных, в том числе NLP (natural language processing). На момент исследования платформа Webiomed поддерживала автоматическое извлечение более 2900 логических, категориальных и количественных признаков.

Участники. На основе имеющейся базы данных был сформирован набор данных, включающий 21 092 записи, соответствующие 12 434 уникальным беременностям 12 283 женщин, которым была оказана медицинская помощь в период с 21.12.2004 г. по 28.11.2022 г. Под записью понимается случай получения медицинской помощи, зафиксированный в ЭМК пациентки с установленным на момент обращения сроком беременности вместе с уточненными на дату этого случая значениями клинических параметров пациентки. Были использованы следующие критерии включения случая в набор данных: 1) установленны...

Андрейченко А.Е., Лучинин А.С., Ившин А.А., Ермак А.Д., Новицкий Р.Э., Гусев А.В.
Статья платная, чтобы прочесть ее полностью, вам необходимо произвести покупку
Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.