Можно ли доверять ответам ИИ про менопаузу и заместительную гормональную терапию?

Сегодня все больше женщин задают вопросы о менопаузе и заместительной гормональной терапии не только врачу, но и чат-ботам: ChatGPT, Gemini и другим ИИ-сервисам. Они отвечают быстро, уверенно и «по-человечески». Но насколько эти ответы точны? 
 
Исследование, представленное на ежегодной конференции The Menopause Society в 2025 году, показало заметные пробелы в том, как ИИ справляется с вопросами о менопаузе и гормональной терапии. Важно понимать: уверенный тон таких ответов может создавать иллюзию компетентности, которая в медицине оборачивается риском для здоровья, если за красивой формулировкой стоит неточная информация.


Что именно проверяли исследователи


Группа врачей под руководством Джаны Карам (клиника Майо, США) решила посмотреть, как популярные ИИ-сервисы справляются с вопросами о менопаузе и гормональной терапии.
Они сделали следующее:
 
  • составили 35 вопросов:
    • 20 — в формулировках, типичных для пациенток;
    • 15 — в более профессиональной формулировке, как их задают врачи;
  • задали эти вопросы четырем платформам:
    • бесплатной версии ChatGPT 3.5,
    • платной ChatGPT 4.0,
    • Gemini от Google,
    • системе OpenEvidence (ее тестировали только на врачебных вопросах);
  • привлекли четырех независимых экспертов, которые:
    • не знали, какой сервис дал какой ответ;
    • сравнивали ответы с современными клиническими рекомендациями по менопаузе и ЗГТ;
    • оценивали каждый ответ по шкале:
      • 2 балла — полностью корректный;
      • 1 балл — частично корректный, но с пропущенными важными деталями;
      • 0 баллов — неправильный.

Для ответов, ориентированных на пациенток, дополнительно оценивали, насколько текст понятен для чтения.


Насколько часто ИИ отвечает правильно


Даже у наиболее успешной модели результаты оказались умеренными.
Для вопросов в «пациентской» формулировке:

  • ChatGPT 3.5 — около 55% ответов признаны полностью корректными;
  • ChatGPT 4.0 — примерно 40% корректных ответов;
  • Gemini — около 30% правильных ответов, то есть меньше трети.

При этом:
 
  • заметная часть ответов была неполной (важные детали отсутствуют) или просто неверной;
  • доля неполных ответов в зависимости от модели и типа вопросов менялась от примерно 7% до 40%.

Для более сложных «врачебных» вопросов точность была еще ниже:

  • Gemini правильно ответил только примерно на 20% клинических вопросов;
  • ChatGPT 3.5 — около 33%;
  • ChatGPT 4.0 и OpenEvidence — примерно 40% корректных ответов.

В случае OpenEvidence это выглядит особенно показательно:
примерно 40% ответов признаны правильными, около 53% — неверными, и лишь небольшая доля оказалась частично корректной. То есть каждый второй ответ был откровенно неправильным, а между правильными и неверными оставалось очень мало «пограничных» вариантов.
Важно понимать: это не единичные «оговорки», а довольно высокий процент частично неточных или совсем неправильных ответов.


Парадокс: чем понятнее, тем не обязательно точнее


Исследователи также посмотрели, насколько легко читать ответы разных систем.
 
  • По объему текста ответы трех основных моделей были сопоставимы.
  • По понятности (шкала Флеша: чем выше балл, тем легче читать):
    • Gemini показал лучший результат по читаемости — его ответы были проще для восприятия;
    • ChatGPT 4.0, наоборот, давал самые сложные для чтения ответы;
    • ChatGPT 3.5, который показал наибольшую точность для пациентских вопросов, оказался примерно в середине по читаемости — не самым простым и не самым трудным для восприятия.

В результате в этом исследовании не нашлось модели, которая была бы одновременно и максимально точной, и максимально удобной для чтения.
 
Особенно важная деталь: сервис с лучшей читаемостью (Gemini) выдал наименее точную медицинскую информацию, тогда как более точная модель (ChatGPT 3.5) писала текстом средней сложности, а наиболее сложные для восприятия ответы принадлежали ChatGPT 4.0.
 
Таким образом, понятный и гладкий текст сам по себе не гарантирует правильность медицинской информации. Более того, самый «гладкий» и уверенный ответ легко создает ощущение, что все сказано верно, хотя риск ошибки в нем может быть выше.


Почему ИИ может ошибаться в медицине


Для читателя принципиально важно понимать: даже самые продвинутые модели ИИ не являются «виртуальным врачом» и не думают, как человек.
У этих систем есть несколько ключевых ограничений:

  1. Они не «понимают» медицину, а прогнозируют текст.
    Модель статистически подбирает «вероятные» слова, а не проверяет каждый факт по рекомендациям или статьям.
  2. Они опираются на ограниченную и неоднородную базу данных.
    Внутри могут быть устаревшие сведения, противоречивые источники и материалы разного качества; далеко не всегда это последние клинические рекомендации.
  3. Они не знают конкретного пациента.
    Возраст, время от начала менопаузы, сердечно-сосудистый риск, онкологический анамнез, сопутствующие заболевания — все это критично для решения по ЗГТ, но ИИ не видит полной картины, даже если вы что-то кратко описали.
  4. Возможны «галлюцинации».
    Модель может «уверенно» написать то, чего нет в реальных исследованиях: придумать препарат, исказить результаты работы, неверно пересказать рекомендации. Внешне такие ответы нередко выглядят очень убедительно.

Сами эксперты, комментируя исследование, подчеркивают: ИИ уже широко используют и врачи, но с обязательной проверкой по первичным источникам — клиническим рекомендациям и публикациям в базах данных вроде PubMed.


Чем ИИ все-таки может быть полезен женщинам в менопаузе


Несмотря на выявленные проблемы с точностью, говорить «искусственный интеллект нужно срочно отключить» было бы неправильно. В ряде ситуаций ИИ действительно может помочь — если понимать его ограничения.
Реалистичные и безопасные сценарии использования:

  • Подготовка к приему врача.
    Помогает сформулировать список вопросов: о симптомах, о вариантах терапии, о рисках и пользе ЗГТ.
  • Объяснение общих принципов.
    Например, в чем разница между системной и локальной (вагинальной) терапией, что такое приливы, почему важно учитывать сердечно-сосудистый риск.
  • Перевод «с врачебного» на более понятный язык.
    Если вы получили выписку или рекомендации с множеством терминов, ИИ может помочь объяснить слова и концепции более простым языком.
  • Навигация по официальным источникам.
    ИИ можно попросить подсказать, какие профессиональные общества занимаются менопаузой (например, The Menopause Society, ACOG) и как называются их рекомендации, а дальше уже читать первоисточники.

Во всех этих случаях ИИ — это помощник по информации, а не тот, кто «назначает лечение».


Когда ИИ использовать нельзя (или крайне рискованно)


При вопросах о менопаузе и ЗГТ есть ситуации, где опора только на ИИ прямо опасна:
 
  • Самостоятельное решение, начинать или отменять гормональную терапию.
    Здесь слишком много деталей: возраст, время от начала менопаузы, риск тромбозов, онкологический анамнез, сердечно-сосудистые факторы, состояние эндометрия и др.
  • Выбор дозировки и схемы препаратов.
    ИИ не должен быть источником конкретных доз и комбинаций: он не знает ваших анализов и сопутствующих заболеваний.
  • Игнорирование предостережений врача.
    Если ИИ «успокаивает», а врач предупреждает о серьезных рисках, доверять нужно клиническим рекомендациям и врачу, а не чат-боту.
  • Замена регулярного наблюдения.
    Ни одна модель не может оценить вас очно, провести осмотр, интерпретировать маммографию, УЗИ или лабораторные показатели в динамике.


Как безопасно использовать ИИ по вопросам здоровья


Если резюмировать выводы исследования и практический опыт врачей, получается своего рода чек-лист.
Допустимо:

  • использовать ИИ, чтобы:
    • лучше понять, о чем вы хотите спросить врача;
    • получить базовое представление о симптомах и вариантах лечения;
    • расшифровать медицинские термины;
  • просить ИИ подсказать, как называются авторитетные источники, а затем самостоятельно искать их материалы (The Menopause Society, ACOG, крупные университетские клиники и т.д.).

Обязательно:

  • перепроверять важную информацию:
    • по сайтам профессиональных обществ;
    • по материалам крупных клиник и рецензируемым публикациям;
    • с вашим лечащим врачом;
  • воспринимать ИИ-ответ не как «истину», а как черновик, который требует проверки.

Нельзя / крайне нежелательно:

  • начинать, отменять или менять схему ЗГТ по совету чат-бота;
  • игнорировать противопоказания и предупреждения врача, опираясь на «успокоительный» ответ ИИ;
  • воспринимать высокий уровень уверенности в формулировках как гарантию точности.


Важная оговорка: что может измениться в будущем

 
  • небольшое количество вопросов (35);
  • одна узкая тема — менопауза и гормональная терапия;
  • тестировались конкретные версии моделей на определенный момент времени;
  • исходы оценивали эксперты, и исследование предполагает, что их собственные ответы были бы сходными, хотя в реальной практике взгляды специалистов могут различаться;
  • на момент представления результаты были озвучены на конференции и еще не прошли полноценное независимое рецензирование в формате журнальной статьи — это стандартный путь, но о нем важно помнить.

Модели ИИ быстро обновляются, и если повторить такой эксперимент через несколько лет, результаты могут быть другими. Но фундаментальный вывод, скорее всего, останется:


ИИ может быть полезным инструментом для поиска и понимания информации,
но не заменяет клиническое мышление врача и не освобождает ни пациента, ни доктора от необходимости проверять источники и соблюдать рекомендации. Уверенный тон чат-бота — не доказательство его правоты.
ВЕРНУТЬСЯ К СПИСКУ СТАТЕЙ
ИЗМЕНЕНО: 04.12.2025 ПРОСМОТРЕЛИ: 429
Развернуть блок