Акушерство и Гинекология №12 / 2025
Разработка и валидация системы прогнозирования преждевременных родов на основе технологий искусственного интеллекта и клинических данных
1) ФГБОУ ВО «Петрозаводский государственный университет», Петрозаводск, Россия;
2) ГБУЗ РК «Республиканский перинатальный центр имени Гуткина К.А.», Петрозаводск, Россия
Актуальность: Преждевременные роды (ПР) – ведущая причина неонатальной смертности и инвалидности, приводящая к серьезным социально-экономическим последствиям. Сохраняющая на протяжении десятилетий высокая частота ПР требует поиска более эффективных инструментов прогнозирования данного состояния.
Цель: Разработка и валидация системы прогнозирования ПР на основе искусственного интеллекта (ИИ) и данных, полученных из электронных медицинских карт (ЭМК).
Материалы и методы: Использованы 10 000 обезличенных записей ЭМК беременных и 54 клинические переменные. Система включала NLP-модель (на основе RuBERT) для извлечения признаков ПР из русскоязычных медицинских записей и предиктивную модель на основе машинного обучения (МО) для оценки риска ПР.
Результаты: Лучшие результаты в оценке риска ПР продемонстрировал алгоритм CatBoost Classifier: accuracy (доля правильных ответов) 0,81 (95% ДИ 0,799–0,821); чувствительность (recall) 0,87 (95% ДИ 0,857–0,883); точность (precision) 0,76 (95% ДИ 0,748–0,772); F-мера 0,81 (95% ДИ 0,805–0,815); AUC-ROC 0,82 (95% ДИ 0,809–0,831).
Заключение: Разработанная система прогнозирования ПР показала сопоставимые с зарубежными аналогами метрики и устойчивость при валидации, что подтверждает перспективность ее внедрения в реальную акушерскую практику.
Вклад авторов: Болдина Ю.С. – руководство исследованием, концепция исследования, составление и редактирование текста статьи; Ившин А.А. – концепция исследования, экспертный анализ результатов, редакция текста статьи; Светова К.С. – анализ данных и моделирование.
Конфликт интересов: Авторы заявляют об отсутствии конфликта интересов.
Финансирование: Исследование выполнено за счет гранта Российского научного фонда № 24-25-00429,
https://rscf.ru/project/24-25-00429/
Обмен исследовательскими данными: Данные, подтверждающие выводы этого исследования, доступны по запросу у автора, ответственного за переписку, после одобрения ведущим исследователем.
Для цитирования: Болдина Ю.С., Ившин А.А., Светова К.С. Разработка и
валидация системы прогнозирования преждевременных родов на основе
технологий искусственного интеллекта и клинических данных.
Акушерство и гинекология. 2025; 12: 74-87
https://dx.doi.org/10.18565/aig.2025.213
Последние десятилетия ознаменовались существенными прорывами в области акушерства и неонатологии, однако преждевременные роды (ПР) по-прежнему остаются глобальной нерешенной проблемой. В мире частота ПР колеблется от 5 до 18%, в России достигает 4–6%, а в специализированных перинатальных центрах этот показатель превышает 9% [1]. При этом ПР остаются ведущей причиной неонатальной смертности и второй по значимости – смерти детей до 5 лет [2]. Последствия ПР катастрофичны: от высокой летальности (98%), детского церебрального паралича и ретинопатии на ранних сроках (22–28 недель) до хронических заболеваний на поздних (34–37 недель) [3, 4]. ПР оказывают колоссальный демографический и социально-экономический ущерб, обусловленный затратами на интенсивную терапию и реабилитацию.
До 70% ПР развиваются спонтанно; пусковые триггеры во многих случаях остаются неясными, несмотря на изученные предикторы, включая инфекционный фактор [5], истмико-цервикальную недостаточность и социально-демографические детерминанты [6–8]. Кроме того, определена роль маркеров развития преждевременного разрыва плодных оболочек и ПР, например, плацентарного α-1-микроглобулина (ПАМГ-1) [9, 10].
Все мероприятия при угрожающих ПР направлены на кратковременную отсрочку родов, но не гарантируют длительного пролонгирования беременности [11]. Эффективность профилактики ПР остается дискуссионной [12], в то же время ряд исследований подчеркивают целесообразность применения микронизированного прогестерона [13], акушерского разгружающего пессария и серкляжа [1, 14] у пациенток из группы риска по досрочным родам.
Мультифакторная природа ПР [5] диктует необходимость внедрения инновационных технологий для комплексного анализа данных и индивидуальной оценки риска, таких как машинное обучение (МО).
MО имеет несколько важных достоинств, в том числе возможность анализа больших объемов медицинских данных, выявления сложных взаимосвязей между предикторами и интеграции разнородных параметров – от данных анамнеза до лабораторных тестов и графической медицинской информации.
В последние годы алгоритмы МО показали высокую эффективность в прогнозировании таких акушерских осложнений, как задержка роста плода [15], послеродовое кровотечение [16], преэклампсия [17]. Отдельного внимания требуют отечественные разработки в сфере акушерства и гинекологии с применением MО-технологий. В исследовании Андрейченко А.Е. и соавт. (2023) разработаны и валидированы модели прогнозирования преэклампсии и ее ранних форм на основе данных, полученных в первом триместре беременности [18].
Демонстрируют потенциал результаты зарубежных исследований по разработке мультипараметрических моделей для оценки риска ПР на основе алгоритмов MО. Например, в недавнем исследовании Chen Y. et al. (2024) алгоритм XGBoost показал высокую точность прогнозирования спонтанных ПР (AUC 0.89; 95% ДИ 0.88–0.90), выявив 10 ключевых предикторов ПР, включая биохимические маркеры [19]. Zhang Y. et al. (2023) подтвердили перспективность использования алгоритма AdaBoost (точность 95.4%, AUC 0.93), выявив в качестве основных факторов риска ПР многоплодие, преждевременный разрыв плодных оболочек, предлежание плаценты и дородовое кровотечение [20]. Random Forest в исследовании Sun Q. et al. (2022), показал AUC 0.885 (95% ДИ: 0.873–0.897), используя для прогнозирования ПР клинико-биохимические параметры и данные 9550 беременных [21].
Крайне вариабельное качество существующих прогностических моделей и ограниченность внедрения их в клиническую практику подчеркивают необходимость дальнейших поисков надежных практико-ориентированных инструментов прогнозирования ПР.
Цель исследования: разработка и валидация системы прогнозирования ПР с использованием алгоритмов MО на обезличенных клинических данных беременных, полученных из записей электронных медицинских карт (ЭМК).
Материалы и методы
Источник данных. Проведен ретроспективный анализ 10000 неструктурированных медицинских записей ЭМК, полученных при диспансерном наблюдении во время беременности. Данные предварительно были обезличены оператором в соответствии с законодательными и этическими требованиями, что исключало необходимость получения добровольного информированного согласия у пациентов. Обработка неструктурированных данных ЭМК с целью экстракции клинически значимых параметров ПР проводилась с использованием NLP-модели (natural language processing), разработанной для данного исследования. Детали процесса разработки NLP-модели представлены в соответствующем разделе.
Участники. Исходный набор данных состоял из 90 046 деперсонифицированных медицинских записей в формате JSON, собранных в период с марта 2011 г. по июль 2020 г. Для исследования отбирались записи с клиническими данными, полученными при диспансерном наблюдении по поводу текущей беременности. Единицей анализа служила медицинская запись, отражающая документированный случай оказания медицинской помощи беременной пациентке с указанием срока гестации и актуальных клинико-л...











