Акушерство и Гинекология №2 / 2024

Сравнение прогностических моделей, построенных с помощью разных методов машинного обучения, на примере прогнозирования результатов лечения бесплодия методом вспомогательных репродуктивных технологий

29 февраля 2024

ФГБУ «Национальный медицинский исследовательский центр акушерства, гинекологии и перинатологии имени академика В.И. Кулакова» Минздрава России, Москва, Россия

В репродуктивной медицине развитие машинного обучения (МО) привело к созданию большого количества вспомогательных программных продуктов. Прогнозирование результативности программы вспомогательных репродуктивных технологий (ВРТ) при помощи МО может быть осуществлено с использованием различных алгоритмов в зависимости от типа данных и поставленной задачи.
Цель: Сравнение прогностической способности логистической регрессии, алгоритма решающего дерева и Random Forest в отношении вероятности наступления беременности на основании клинико-анам­нестических и эмбриологических данных пациентов в программе ВРТ.
Материалы и методы: В ретроспективное исследование были включены 854 супружеские пары. В исследовании были проанализированы клинико-лабораторные данные и параметры стимулированного цикла в зависимости от результативности программы ВРТ при помощи трех алгоритмов МО: логистической регрессии, решающего дерева и Random Forest.
Результаты: Наиболее точным алгоритмом прогнозирования частоты наступления беременности в программе ВРТ стала модель на основе Random Forest, которая определила значимость следующих  предикторов: остановка эмбрионов в развитии, триггер финального созревания ооцитов, количество эмбрионов отличного и среднего качества, продолжительность стимуляции, фактор бесплодия, индекс массы тела, уровни ФСГ и АМГ;  а также подтвердила значимость предикторов, которые были определены на предыдущих этапах работы, при помощи алгоритма решающего дерева: наличие/отсутствие беременностей в анамнезе, параметры стимулированного цикла (число ооцитов MII), показатели спермограммы в день пункции, количество эмбрионов отличного и хорошего качества, а также качество эмбриона согласно морфологическим критериям оценки.
Заключение: Для улучшения прогнозирования эффективности программы ВРТ требуются более качественные математические модели с интегральным подходом к решению задачи с использованием большой выборки пациентов с различными входными данными, представленными в сбалансированном объеме, а также дополнительные маркеры, определяющие эффективность программы ВРТ, позволяющие улучшить точность программного продукта.  

Вклад авторов: Драпкина Ю.С., Макарова Н.П., Калинина Е.А. – концепция и дизайн исследования; Драпкина Ю.С. – сбор и обработка материала; Амелин В.В., Васильев Р.А. – статистическая обработка данных; Драпкина Ю.С., Амелин В.В., Васильев Р.А. – написание текста статьи; Калинина Е.А., Макарова Н.П. – редактирование.
Конфликт интересов: Авторы заявляют об отсутствии возможных конфликтов интересов.
Финансирование: Работа проведена без привлечения дополнительного финансирования со стороны третьих лиц.
Одобрение Этического комитета: Исследование было одобрено локальным Этическим комитетом ФГБУ «НМИЦ АГП им. академика В.И. Кулакова» Минздрава России.
Согласие пациентов на публикацию: Пациенты подписали информированное согласие на публикацию своих данных.
Обмен исследовательскими данными: Данные, подтверждающие выводы этого исследования, доступны по запросу у автора, ответственного за переписку, после одобрения ведущим исследователем.
Для цитирования: Драпкина Ю.С., Макарова Н.П., Васильев Р.А., Амелин В.В., Калинина Е.А. Сравнение прогностических моделей, построенных с помощью разных методов машинного обучения, на примере прогнозирования результатов лечения бесплодия методом вспомогательных репродуктивных технологий.
Акушерство и гинекология. 2024; 2: 97-105
https://dx.doi.org/10.18565/aig.2023.263

Развитие системы здравоохранения в России зависит от использования современных технологий. Все большее внимание уделяется применению различных математических алгоритмов для повышения качества медицинской помощи [1, 2]. Одним из направлений применения искусственного интеллекта (ИИ) является машинное обучение (МО). Основная задача МО заключается в создании алгоритмов, которые могут принимать входные данные и использовать их для прогнозирования выходной информации по мере появления новых данных. Стоит отметить, что МО представляет собой не только статистические методы, и в основе МО лежит построение алгоритмов, основанных на обучении, без явной формы решения [3].

МО широко применяется в различных сферах медицины, в том числе внедряется и в области вспомогательных репродуктивных технологий (ВРТ). В репродуктивной медицине развитие МО привело к созданию большого количества вспомогательных программных продуктов [4]. В настоящий момент внимание ученых привлекает разработка программ для прогнозирования эффективности ВРТ, а также выбора и оптимизации метода лечения [5].

Стоит отметить, что ошибочное и неточное прогнозирование исхода программы ВРТ не позволяет своевременно ориентировать супружескую пару на использование того или иного метода лечения и корректировать ожидания пациентов в отношении частоты наступления беременности, а также препятствует целесообразному клинико-экономическому распределению средств Фонда обязательного медицинского страхования (ОМС) [6]. В связи с этим при разработке программного продукта задача прогнозирования эффективности программы ВРТ становится наиболее приоритетной.

Прогнозирование результативности программы ВРТ при помощи МО может быть осуществлено с использованием различных алгоритмов в зависимости от типа данных и поставленной задачи. Среди основных методов МО, используемых в репродуктивной медицине, выделяют логистическую регрессию, алгоритм решающего дерева, метод случайного леса (Random Forest) [7].

Логистическая регрессия

Логистическая регрессия решает задачу классификации, показывая вероятность того, что данное исходное значение принадлежит к определенному классу. Если точки исходных данных удовлетворяют этому требованию, то их можно назвать линейно разделяемыми [8] (рис. 1).

100-1.jpg (47 KB)

При этом, чем дальше находится точка от разделяющей поверхности, тем выше шансы, что она принадлежит к данному классу.

Алгоритм решающего дерева

Алгоритм решающего дерева разделяет набор данных на меньшие подмножества в зависимости от их характеристик. Суть метода заключается в том, что дерево решений многократно разделяет данные, пока не останется только один класс. При построении дерева решений используется критерий Джини (Gini impurity) [9].

При выборе разделения узла по определенному признаку, критерий Джини отражает, насколько это разделение снижает неопределенность в данных [10].

Алгоритм случайного леса (Random Forest)

Стоит отметить, что одно решающее дерево имеет тенденцию к переобучению под конкретную обучающую выборку, поэтому на практике следует использовать композицию решающих деревьев (Random Forest). В основе алгоритма Random Forest лежит использование нескольких решающих деревьев. Они показывают логику, благодаря которой исследователь принимает решения. Оптимизация решающих деревьев под конкретную задачу сводится к перебору признаков и порогов разбиения, чтобы найти лучшее разбиение. Дерево сильно меняется при изменении выборки, поэтому для построения разнообразных деревьев из выборки длиной M выбираются под­множества такой же длины M с возвращением, и на этих подмножествах строятся деревья. Такой подход называется bootstrap. В задаче регрессии результаты, полученные «множеством» деревьев, усредняются, в задаче классификации – принимается решение голосованием по большинству. Также при построении дерева можно перебирать не все признаки, а выбирать из некоторого случайного подмножества q. Деревья можно строить параллельно, так как построения не зависят друг от друга [11].

В настоящий момент опубликовано большое количество работ, посвященных разработке предиктивной модели исхода программы ВРТ на основе МО; однако исследования, посвященные сравнению разных алгоритмов МО и изучению работы каждой модели в зависимости от полученных результатов, представлены в современной литературе в ограниченном объеме в связи с техническими ограничениями, такими как трудности в определении причинно-следственных связей между данными, полученными в ходе МО, необходимости использования большого массива данных, построении модели с использованием различных алгоритмов и т.д.

Целью данной работы явилось сравнение прогностической способности логистической регрессии, алгоритма решающего дерева и Random Forest в отношении частоты наступления беременности на основании клинико-анамнестических и эмбриологических данных когорты пациентов при лечении бесплодия методами ВРТ.

Материалы и методы

Совместно со специалистами в области МО и ИИ на первом э...

Драпкина Ю.С., Макарова Н.П., Васильев Р.А., Амелин В.В., Калинина Е.А.
Статья платная, чтобы прочесть ее полностью, вам необходимо произвести покупку
Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.