- OpenAI и Anthropic активно продвигаются в сфере здравоохранения с помощью ChatGPT Health и «медицинской» версии Claude, но ключевая проблема — галлюцинации и измеримая достоверность — остается неясно решенной.
- Anthropic демонстрирует впечатляющую точность для конкретных кодов (МКБ-10), но не дает достаточно четких цифр для точности клинических рекомендаций; OpenAI также не предоставляет достоверных данных об ошибках в медицинских консультациях.
- История Google Health и скандалы вокруг DeepMind и Project Nightingale являются напоминанием о том, что без прозрачности и доверия риск неудачи – и реального вреда при принятии решений о жизни и смерти – огромен.
OpenAI и Anthropic объявили о больших планах по внедрению в здравоохранение — с потребительским инструментом под названием ChatGPT Health и версией чат-бота Claude, который может помочь врачам поставить диагноз и написать медицинские записи. Примечательно, что в этом шквале объявлений отсутствует Google. Ее чат-бот Gemini является одним из самых популярных и способных, так почему бы не выйти на прибыльный рынок здравоохранения? Возможно, потому, что Google знает по опыту, что такая попытка может иметь неприятные последствия.
Консультации по вопросам здравоохранения — это область, в которой генеративный искусственный интеллект обладает одним из самых интересных возможностей. Но новые компании, занимающиеся искусственным интеллектом – возможно, ослепленные чрезмерной самоуверенностью и шумихой – столкнутся с судьбой, аналогичной судьбе Google, если они не будут более прозрачными в отношении пресловутых галлюцинаций своих технологий.
ChatGPT Health и Claude для врачей: что обещают инструменты
OpenAI постепенно внедряет новую функцию, которая позволяет пользователям задавать вопросы о своем здоровье, с отдельной «памятью» и ссылками на данные из медицинских записей человека или из его приложений, ориентированных на здоровье, если они захотят их подключить. Компания заявляет, что ChatGPT Health более безопасен и «не предназначен для диагностики», но многие люди уже используют его, чтобы определить, что с ними не так.
По данным компании, более 230 миллионов человек каждую неделю обращаются к приложению за советом по вопросам здоровья. Компания также анонсировала ChatGPT for Healthcare, версию бота для врачей, которая проходит испытания в нескольких больницах, включая Бостонскую детскую больницу и Мемориальный онкологический центр Слоана-Кеттеринга.
Антропный, имеющий больший успех, чем ОпенАИ в продажах бизнесу, запустил чат-бот, ориентированный на врачей. Он похож на потребительскую версию Claude, но обучен на базах данных медицинской информации, такой как коды диагнозов и данные поставщиков медицинских услуг (что помогает генерировать разрешительные документы), а также на научных статьях из PubMed, которые помогают врачу поставить потенциальный диагноз.
Компания дала заманчивый намек на то, как это обучение может сделать Клода более точным. Когда в потребительской версии Claude спрашивают коды МКБ-10, которые врачи используют для классификации диагноза или процедуры, ответ правильный в 75 процентах случаев, заявил главный директор по продуктам Anthropic Майк Кригер на презентации в начале этого месяца. Но «докторская» версия Клода, обученная этим кодам, точна на 99,8%.
Роковая дыра: насколько надежны эти модели в диагностике?
Но какова точность постановки диагноза? Именно это число кажется более важным. Когда я спросил Anthropic, компания не смогла дать полного ответа. Она сказала, что ее самая мощная модель рассуждения, Claude Opus 4.5, достигла точности 92,3 процента в MedCalc, который проверяет точность медицинских расчетов, и 61,3 процента в MedAgentBench, который измеряет, может ли ИИ выполнять клинические задачи в смоделированной электронной системе медицинских карт.
Но ни один из них не показывает, насколько надежен ИИ при выработке клинических рекомендаций. Первый относится к тесту на дозировку препарата и лабораторным показателям; и 61,3% — давайте посмотрим правде в глаза — это тревожно низкий показатель.
К чести Anthropic, ее модели более честны — они более склонны признавать неопределенность, а не изобретать ответы — по сравнению с моделями OpenAI или Google, согласно данным, собранным Scale, компанией в области искусственного интеллекта, которую недавно приобрела Meta Platforms Inc.
Anthropic расхваливала эти цифры во время презентации на конференции JPMorgan Chase Healthcare в Сан-Франциско, но такая похвала прозвучит для врачей пустым звуком, если они не смогут оценить, насколько на самом деле точен диагностический инструмент.
Когда я спросил OpenAI о надежности ChatGPT в отношении фактов о здоровье, представительница сказала, что модели стали более надежными и точными в сценариях здоровья по сравнению с предыдущими версиями, но также не предоставила точных цифр, показывающих частоту галлюцинаций при даче медицинских советов.
Компании, занимающиеся искусственным интеллектом, долгое время молчали о том, как часто их чат-боты ошибаются — отчасти потому, что это подчеркивает, насколько сложно решить проблему. Вместо этого они предоставляют контрольные данные, например, насколько хорошо их модели сдают экзамен на получение медицинской лицензии. Но большая прозрачность в отношении надежности будет иметь решающее значение для укрепления доверия как среди медицинских работников, так и среди общественности.
Урок Google: доверие, скандалы и высокая цена ошибки
Alphabet Inc. (Google) усвоила это на собственном горьком опыте. В период с 2008 по 2011 год компания пыталась создать персональную медицинскую карту под брендом «Google Health», которая собирала бы в одном месте медицинские данные человека от разных врачей и больниц.
Попытка провалилась отчасти потому, что Google столкнулся с огромной технической проблемой при объединении данных о здоровье из разрозненных систем. Более серьезная проблема: людям не нравилась идея загружать свои медицинские записи в компанию, которая регулярно перекачивает личную информацию для рекламы.
Недоверие общественности было настолько сильным, что достойная инициатива лаборатории DeepMind Google по оповещению врачей больниц о признаках острой почечной недостаточности была закрыта в 2018 году после того, как выяснилось, что проект получил доступ к более чем миллиону записей пациентов в Великобритании. Год спустя Wall Street Journal раскрыл еще один проект Google, известный как Project Nightingale, по доступу к медицинским записям миллионов пациентов в США.
В обоих случаях это было расценено как скандал, и урок был ясен: люди воспринимали Google как ненадежную компанию. Это делает судьбу ИИ-компании в здравоохранении еще более деликатный вопрос. Проблемы Google возникли из-за общественного мнения, а не из-за ошибок в системах обработки медицинских записей. Цена будет выше, если ChatGPT или Клод допустят ошибку, помогая врачам принимать решения о жизни и смерти.
Возможно, именно наивность или ограниченность мышления побудили Дарио Амодеи, генерального директора Anthropic, поднять этот самый вопрос во время презентации здравоохранения на прошлой неделе, хотя компания не предоставила данных для его решения. По его словам, определение «безопасности» расширялось по мере того, как компания выходила на новые рынки, такие как здравоохранение. «Здравоохранение — это та сфера, где вы не хотите, чтобы модель что-то выдумывала», — добавил он. «Это плохо».
Парми Олсон — обозреватель Bloomberg Opinion, специализирующийся на технологиях, искусственном интеллекте и цифровой культуре. Она бывший репортер Forbes и Wall Street Journal и автор книг о технологических сообществах.
