Можно ли доверять ответам ИИ про менопаузу и заместительную гормональную терапию?
Сегодня все больше женщин задают вопросы о менопаузе и заместительной гормональной терапии не только врачу, но и чат-ботам: ChatGPT, Gemini и другим ИИ-сервисам. Они отвечают быстро, уверенно и «по-человечески». Но насколько эти ответы точны?
Исследование, представленное на ежегодной конференции The Menopause Society в 2025 году, показало заметные пробелы в том, как ИИ справляется с вопросами о менопаузе и гормональной терапии. Важно понимать: уверенный тон таких ответов может создавать иллюзию компетентности, которая в медицине оборачивается риском для здоровья, если за красивой формулировкой стоит неточная информация.
Группа врачей под руководством Джаны Карам (клиника Майо, США) решила посмотреть, как популярные ИИ-сервисы справляются с вопросами о менопаузе и гормональной терапии.
Они сделали следующее:
Для ответов, ориентированных на пациенток, дополнительно оценивали, насколько текст понятен для чтения.
Даже у наиболее успешной модели результаты оказались умеренными.
Для вопросов в «пациентской» формулировке:
При этом:
Для более сложных «врачебных» вопросов точность была еще ниже:
В случае OpenEvidence это выглядит особенно показательно:
примерно 40% ответов признаны правильными, около 53% — неверными, и лишь небольшая доля оказалась частично корректной. То есть каждый второй ответ был откровенно неправильным, а между правильными и неверными оставалось очень мало «пограничных» вариантов.
Важно понимать: это не единичные «оговорки», а довольно высокий процент частично неточных или совсем неправильных ответов.
Исследователи также посмотрели, насколько легко читать ответы разных систем.
В результате в этом исследовании не нашлось модели, которая была бы одновременно и максимально точной, и максимально удобной для чтения.
Особенно важная деталь: сервис с лучшей читаемостью (Gemini) выдал наименее точную медицинскую информацию, тогда как более точная модель (ChatGPT 3.5) писала текстом средней сложности, а наиболее сложные для восприятия ответы принадлежали ChatGPT 4.0.
Таким образом, понятный и гладкий текст сам по себе не гарантирует правильность медицинской информации. Более того, самый «гладкий» и уверенный ответ легко создает ощущение, что все сказано верно, хотя риск ошибки в нем может быть выше.
Для читателя принципиально важно понимать: даже самые продвинутые модели ИИ не являются «виртуальным врачом» и не думают, как человек.
У этих систем есть несколько ключевых ограничений:
Несмотря на выявленные проблемы с точностью, говорить «искусственный интеллект нужно срочно отключить» было бы неправильно. В ряде ситуаций ИИ действительно может помочь — если понимать его ограничения.
Реалистичные и безопасные сценарии использования:
Во всех этих случаях ИИ — это помощник по информации, а не тот, кто «назначает лечение».
При вопросах о менопаузе и ЗГТ есть ситуации, где опора только на ИИ прямо опасна:
Если резюмировать выводы исследования и практический опыт врачей, получается своего рода чек-лист.
Допустимо:
Обязательно:
Нельзя / крайне нежелательно:
У этого исследования есть ограничения:
Модели ИИ быстро обновляются, и если повторить такой эксперимент через несколько лет, результаты могут быть другими. Но фундаментальный вывод, скорее всего, останется:
Исследование, представленное на ежегодной конференции The Menopause Society в 2025 году, показало заметные пробелы в том, как ИИ справляется с вопросами о менопаузе и гормональной терапии. Важно понимать: уверенный тон таких ответов может создавать иллюзию компетентности, которая в медицине оборачивается риском для здоровья, если за красивой формулировкой стоит неточная информация.
Что именно проверяли исследователи
Группа врачей под руководством Джаны Карам (клиника Майо, США) решила посмотреть, как популярные ИИ-сервисы справляются с вопросами о менопаузе и гормональной терапии.
Они сделали следующее:
- составили 35 вопросов:
- 20 — в формулировках, типичных для пациенток;
- 15 — в более профессиональной формулировке, как их задают врачи;
- задали эти вопросы четырем платформам:
- бесплатной версии ChatGPT 3.5,
- платной ChatGPT 4.0,
- Gemini от Google,
- системе OpenEvidence (ее тестировали только на врачебных вопросах);
- привлекли четырех независимых экспертов, которые:
- не знали, какой сервис дал какой ответ;
- сравнивали ответы с современными клиническими рекомендациями по менопаузе и ЗГТ;
- оценивали каждый ответ по шкале:
- 2 балла — полностью корректный;
- 1 балл — частично корректный, но с пропущенными важными деталями;
- 0 баллов — неправильный.
Насколько часто ИИ отвечает правильно
Даже у наиболее успешной модели результаты оказались умеренными.
Для вопросов в «пациентской» формулировке:
- ChatGPT 3.5 — около 55% ответов признаны полностью корректными;
- ChatGPT 4.0 — примерно 40% корректных ответов;
- Gemini — около 30% правильных ответов, то есть меньше трети.
- заметная часть ответов была неполной (важные детали отсутствуют) или просто неверной;
- доля неполных ответов в зависимости от модели и типа вопросов менялась от примерно 7% до 40%.
- Gemini правильно ответил только примерно на 20% клинических вопросов;
- ChatGPT 3.5 — около 33%;
- ChatGPT 4.0 и OpenEvidence — примерно 40% корректных ответов.
примерно 40% ответов признаны правильными, около 53% — неверными, и лишь небольшая доля оказалась частично корректной. То есть каждый второй ответ был откровенно неправильным, а между правильными и неверными оставалось очень мало «пограничных» вариантов.
Важно понимать: это не единичные «оговорки», а довольно высокий процент частично неточных или совсем неправильных ответов.
Парадокс: чем понятнее, тем не обязательно точнее
Исследователи также посмотрели, насколько легко читать ответы разных систем.
- По объему текста ответы трех основных моделей были сопоставимы.
- По понятности (шкала Флеша: чем выше балл, тем легче читать):
- Gemini показал лучший результат по читаемости — его ответы были проще для восприятия;
- ChatGPT 4.0, наоборот, давал самые сложные для чтения ответы;
- ChatGPT 3.5, который показал наибольшую точность для пациентских вопросов, оказался примерно в середине по читаемости — не самым простым и не самым трудным для восприятия.
Особенно важная деталь: сервис с лучшей читаемостью (Gemini) выдал наименее точную медицинскую информацию, тогда как более точная модель (ChatGPT 3.5) писала текстом средней сложности, а наиболее сложные для восприятия ответы принадлежали ChatGPT 4.0.
Таким образом, понятный и гладкий текст сам по себе не гарантирует правильность медицинской информации. Более того, самый «гладкий» и уверенный ответ легко создает ощущение, что все сказано верно, хотя риск ошибки в нем может быть выше.
Почему ИИ может ошибаться в медицине
Для читателя принципиально важно понимать: даже самые продвинутые модели ИИ не являются «виртуальным врачом» и не думают, как человек.
У этих систем есть несколько ключевых ограничений:
- Они не «понимают» медицину, а прогнозируют текст.
Модель статистически подбирает «вероятные» слова, а не проверяет каждый факт по рекомендациям или статьям. - Они опираются на ограниченную и неоднородную базу данных.
Внутри могут быть устаревшие сведения, противоречивые источники и материалы разного качества; далеко не всегда это последние клинические рекомендации. - Они не знают конкретного пациента.
Возраст, время от начала менопаузы, сердечно-сосудистый риск, онкологический анамнез, сопутствующие заболевания — все это критично для решения по ЗГТ, но ИИ не видит полной картины, даже если вы что-то кратко описали. - Возможны «галлюцинации».
Модель может «уверенно» написать то, чего нет в реальных исследованиях: придумать препарат, исказить результаты работы, неверно пересказать рекомендации. Внешне такие ответы нередко выглядят очень убедительно.
Сами эксперты, комментируя исследование, подчеркивают: ИИ уже широко используют и врачи, но с обязательной проверкой по первичным источникам — клиническим рекомендациям и публикациям в базах данных вроде PubMed.
Чем ИИ все-таки может быть полезен женщинам в менопаузе
Несмотря на выявленные проблемы с точностью, говорить «искусственный интеллект нужно срочно отключить» было бы неправильно. В ряде ситуаций ИИ действительно может помочь — если понимать его ограничения.
Реалистичные и безопасные сценарии использования:
- Подготовка к приему врача.
Помогает сформулировать список вопросов: о симптомах, о вариантах терапии, о рисках и пользе ЗГТ. - Объяснение общих принципов.
Например, в чем разница между системной и локальной (вагинальной) терапией, что такое приливы, почему важно учитывать сердечно-сосудистый риск. - Перевод «с врачебного» на более понятный язык.
Если вы получили выписку или рекомендации с множеством терминов, ИИ может помочь объяснить слова и концепции более простым языком. - Навигация по официальным источникам.
ИИ можно попросить подсказать, какие профессиональные общества занимаются менопаузой (например, The Menopause Society, ACOG) и как называются их рекомендации, а дальше уже читать первоисточники.
Когда ИИ использовать нельзя (или крайне рискованно)
При вопросах о менопаузе и ЗГТ есть ситуации, где опора только на ИИ прямо опасна:
- Самостоятельное решение, начинать или отменять гормональную терапию.
Здесь слишком много деталей: возраст, время от начала менопаузы, риск тромбозов, онкологический анамнез, сердечно-сосудистые факторы, состояние эндометрия и др. - Выбор дозировки и схемы препаратов.
ИИ не должен быть источником конкретных доз и комбинаций: он не знает ваших анализов и сопутствующих заболеваний. - Игнорирование предостережений врача.
Если ИИ «успокаивает», а врач предупреждает о серьезных рисках, доверять нужно клиническим рекомендациям и врачу, а не чат-боту. - Замена регулярного наблюдения.
Ни одна модель не может оценить вас очно, провести осмотр, интерпретировать маммографию, УЗИ или лабораторные показатели в динамике.
Как безопасно использовать ИИ по вопросам здоровья
Если резюмировать выводы исследования и практический опыт врачей, получается своего рода чек-лист.
Допустимо:
- использовать ИИ, чтобы:
- лучше понять, о чем вы хотите спросить врача;
- получить базовое представление о симптомах и вариантах лечения;
- расшифровать медицинские термины;
- просить ИИ подсказать, как называются авторитетные источники, а затем самостоятельно искать их материалы (The Menopause Society, ACOG, крупные университетские клиники и т.д.).
- перепроверять важную информацию:
- по сайтам профессиональных обществ;
- по материалам крупных клиник и рецензируемым публикациям;
- с вашим лечащим врачом;
- воспринимать ИИ-ответ не как «истину», а как черновик, который требует проверки.
- начинать, отменять или менять схему ЗГТ по совету чат-бота;
- игнорировать противопоказания и предупреждения врача, опираясь на «успокоительный» ответ ИИ;
- воспринимать высокий уровень уверенности в формулировках как гарантию точности.
Важная оговорка: что может измениться в будущем
У этого исследования есть ограничения:
- небольшое количество вопросов (35);
- одна узкая тема — менопауза и гормональная терапия;
- тестировались конкретные версии моделей на определенный момент времени;
- исходы оценивали эксперты, и исследование предполагает, что их собственные ответы были бы сходными, хотя в реальной практике взгляды специалистов могут различаться;
- на момент представления результаты были озвучены на конференции и еще не прошли полноценное независимое рецензирование в формате журнальной статьи — это стандартный путь, но о нем важно помнить.
ИИ может быть полезным инструментом для поиска и понимания информации,
но не заменяет клиническое мышление врача и не освобождает ни пациента, ни доктора от необходимости проверять источники и соблюдать рекомендации. Уверенный тон чат-бота — не доказательство его правоты.



