Акушерство и Гинекология №3 / 2024

Изучение аналитической обработки клинико-анамнестических и эмбриологических данных пациентов в программе вспомогательных репродуктивных технологий различными методами машинного обучения

30 марта 2024

ФГБУ «Национальный медицинский исследовательский центр акушерства, гинекологии и перинатологии имени академика В.И. Кулакова» Министерства здравоохранения Российской Федерации, Москва, Россия

Анализ данных при помощи машинного обучения (МО) позволяет более точно и таргетно определить наиболее значимые корригируемые и некорригируемые предикторы наступления беременности в программах вспомогательных репродуктивных технологий (ВРТ) у пациенток разных возрастных групп. Прогнозирование результативности программы ВРТ при помощи МО может быть осуществлено с использованием различных алгоритмов в зависимости от типа данных и поставленной задачи.
Цель: Изучение аналитической обработки клинико-анамнестических и эмбриологических данных пациентов в программе ВРТ различными методами МО; определение точности прогнозирования результата ВРТ с использованием различных алгоритмов и выбор модели МО, имеющей максимальную практическую ценность в отношении наступления беременности.
Материалы и методы: В ретроспективное исследование были включены 854 супружеские пары. В исследовании были проанализированы данные клинико-лабораторных обследований и параметры стимулированного цикла в зависимости от эффективности программы ВРТ при помощи алгоритма градиентного бустинга над решающими деревьями (CatBoost).
Результаты: Среди факторов, оказывающих максимальное влияние на эффективность ВРТ, следует выделить наличие/отсутствие беременности в анамнезе, концентрацию сперматозоидов в эякуляте, а также количество эмбрионов, остановившихся в развитии. Создан программный продукт на основе алгоритма градиентного бустинга, прогнозирующий индивидуальную эффективность программы ВРТ. 
Заключение: Для улучшения прогнозирования эффективности программы ВРТ требуются более качественные математические модели с интегральным подходом к решению задачи, а также дополнительные маркеры, позволяющие улучшить точность программного продукта. Построение модели, включающей не только данные анамнеза супружеской пары, но и молекулярные маркеры, с использованием методов МО позволит не только определить наиболее точно максимально перспективные группы пациентов для проведения программы экстракорпорального оплодотворения, но и повысить эффективность программ ВРТ за счет селекции максимально качественного эмбриона для переноса. 

Вклад авторов: Драпкина Ю.С., Макарова Н.П., Франкевич В.Е., Калинина Е.А. – концепция и дизайн исследования; Драпкина Ю.С., Амелин В.В., Васильев Р.А. – сбор и обработка материала; Амелин В.В., Васильев Р.А. – статистическая обработка данных; Драпкина Ю.С., Амелин В.В., Васильев Р.А. – написание текста статьи; Калинина Е.А., Франкевич В.Е., Макарова Н.П. – редактирование.
Конфликт интересов: Авторы заявляют об отсутствии конфликта интересов.
Финансирование: Работа проведена без привлечения дополнительного финансирования со стороны третьих лиц.
Одобрение Этического комитета: Исследование было одобрено локальным Этическим комитетом ФГБУ «НМИЦ АГП им. академика В.И. Кулакова» Минздрава России.
Согласие пациентов на публикацию: Пациенты подписали информированное согласие на публикацию своих данных.
Обмен исследовательскими данными: Данные, подтверждающие выводы этого исследования, доступны по запросу у автора, ответственного за переписку, после одобрения ведущим исследователем.
Для цитирования: Драпкина Ю.С., Макарова Н.П., Васильев Р.А., Амелин В.В., Франкевич В.Е., Калинина Е.А. Изучение аналитической обработки клинико-анамнестических и эмбриологических данных пациентов в программе вспомогательных репродуктивных технологий различными методами машинного обучения.
Акушерство и гинекология. 2024; 3: 96-107
https://dx.doi.org/10.18565/aig.2023.281

В настоящий момент развитие и внедрение технологий на основе искусственного интеллекта (ИИ) является одним из приоритетных трендов современного здравоохранения. Одним из направлений применения ИИ является машинное обучение (МО) [1]. Программы, разработанные при помощи МО, позволяют значительно усовершенствовать систему диагностики, разработку новых лекарственных средств, а также повысить качество оказания медицинской помощи при одновременном снижении расходов. Основная задача МО заключается в создании программных продуктов, способных анализировать интеллектуальные задачи, для которых не существует алгоритмов решения, гарантированно приводящих к правильному результату [2]. Процессы, участвующие в МО, похожи на процессы интеллектуального анализа данных и прогнозного моделирования, необходимые для анализа шаблонов и соответствующей корректировки действий программы.

МО широко применяется в различных сферах медицины, в том числе и в области вспомогательных репродуктивных технологий (ВРТ) [3]. В репродуктивной медицине одна из наиболее важных задач МО заключается в том, чтобы по большому набору частных случаев наблюдения реконструировать зависимость между определенными характеристиками. Например, в зависимости от клинико-анамнестических данных супружеской пары определять частоту наступления беременности в программе ВРТ или в зависимости от качества сперматозоидов прогнозировать частоту бластуляции. Программы на основе МО лежат в основе экспертных систем, суть которых заключается в создании программы, имитирующей работу квалифицированного эксперта при принятии решения. В настоящий момент в области репродуктивной медицины большое внимание уделяется созданию экспертных систем для прогнозирования лечения бесплодия, выбора стратегии и тактики терапии, требующих учета совокупности имеющейся информации о супружеской паре, без чего медицинские решения носят приблизительный и «неточный» характер [4].

Стоит отметить, что ошибочное и неточное прогнозирование исхода программы ВРТ не позволяет своевременно ориентировать супружескую пару на использование того или иного метода лечения и корректировать ожидания пациентов в отношении частоты наступления беременности, а также препятствует целесообразному клинико-экономическому распределению средств Фонда обязательного медицинского страхования [5]. В связи с этим при разработке программного продукта задача прогнозирования эффективности программы ВРТ становится наиболее приоритетной.

Прогнозирование результативности программы ВРТ при помощи МО может быть осуществлено с использованием различных алгоритмов в зависимости от типа данных и поставленной задачи. Среди основных методов МО, используемых в репродуктивной медицине, выделяют логистическую регрессию, алгоритм решающего дерева, метод случайного леса (Random Forest) и градиентный бустинг над решающими деревьями (XGBoost, CatBoost) [6]. Логистическая регрессия решает задачу классификации, показывая вероятность того, что данное исходное значение принадлежит к определенному классу. Алгоритм решающего дерева использует иерархическую структуру в виде древовидной модели для принятия решений. Дерево строится путем разбиения данных на подмножества на основе значений признаков с целью классификации, пока не останется только один класс [7]. Стоит отметить, что одно решающее дерево имеет тенденцию к переобучению под конкретную обучающую выборку, поэтому на практике следует использовать композицию решающих деревьев (Random Forest). В основе алгоритма Random Forest лежит использование нескольких решающих деревьев. Оптимизация решающих деревьев под конкретную задачу сводится к перебору признаков и порогов разбиения, чтобы найти лучшее разбиение [8].

Несмотря на то что Random Forest широко используется для построения моделей и может строиться параллельно, на больших данных и при высоком количестве признаков строить глубокие деревья не очень эффективно, так как процесс обучения получается более трудоемким и длительным. Увеличить скорость построения деревьев возможно, ограничив глубину, но в таком случае снижается точность модели. Кроме того, для решения сложных задач может потребоваться большее количество деревьев. Если отказаться от позиции, где каждое дерево строится независимо от всех остальных, и попытаться учитывать «опыт» результатов, полученных при построении прошлых деревьев, то можно более эффективно объединять деревья в композицию, в чем заключается суть метода градиентного бустинга. Градиентный бустинг позволяет строить каждое следующее дерево таким образом, чтобы оно минимизировало ошибку всех предыдущих деревьев. Данный принцип называется «композиция по индукции». Выходным данным отдельных деревьев присваивается вес. Затем неправильным классификациям из первого дерева решений присваивается больший вес, после чего данные передаются в следующее дерево. После многочисленных циклов бустинг объединяет слабые классификаторы в один мощный алгоритм прогнозирования [9].

Градиентный бустинг можно применять не только для реша...

Драпкина Ю.С., Макарова Н.П., Васильев Р.А., Амелин В.В., Франкевич В.Е., Калинина Е.А.
Статья платная, чтобы прочесть ее полностью, вам необходимо произвести покупку
Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.