Исследователи из Массачусетс Генерал Бригам разработали одну из первых полностью автономных систем искусственного интеллекта, способных выявлять когнитивные расстройства путем анализа стандартных клинических записей. Система работает без вмешательства человека после развертывания и достигает специфичности 98% в реальных клинических условиях.
Результаты опубликованы в научном журнале npj Цифровая медицина. Параллельно с публикацией также представлена Пифия – инструмент с открытым исходным кодом, который позволяет больницам и исследовательским учреждениям осуществлять автономную быструю оптимизацию для приложений скрининга с использованием ИИ.
Вместо единой модели исследователи создают своего рода «цифровую клиническую команду». В систему входят пять специализированных агентов искусственного интеллекта, которые взаимно критикуют, проверяют и уточняют свои рассуждения аналогично клинической дискуссии между врачами. Это позволяет лучше обнаруживать ошибки и обеспечивать баланс между чувствительностью и специфичностью.
Когнитивные расстройства по-прежнему значительно недооцениваются в рутинной медицинской практике. Традиционные скрининговые тесты требуют времени, ресурсов и прямого доступа к специалистам, что ограничивает их широкое применение. В то же время раннее выявление становится все более важным, особенно с появлением методов лечения болезни Альцгеймера, которые наиболее эффективны на ранних стадиях. У многих пациентов диагноз ставится слишком поздно, когда оптимальное терапевтическое окно уже закрылось.
Новая система искусственного интеллекта работает на основе большой языковой модели, которую можно внедрить локально в ИТ-инфраструктуре больницы. Пять агентов выполняют различные аналитические роли и работают в автономном итеративном цикле до тех пор, пока система не достигнет заранее заданных показателей производительности или не определит, что стабильность достигнута. Во время процесса никакие данные пациентов не передаются на внешние серверы или в облачные сервисы.
В ходе исследования было проанализировано более 3300 клинических записей 200 анонимных пациентов. Обрабатывая тексты, созданные в ходе стандартных медицинских осмотров, система превращает ежедневную документацию в инструмент скрининга, способный выявлять пациентов с повышенным риском, которые в противном случае остались бы незамеченными. Клинические записи часто содержат едва заметные признаки снижения когнитивных функций, которые трудно систематически распознать в загруженной практике.
В случаях, когда оценки ИИ и рецензентов-людей не совпадают, независимый эксперт проводит повторную оценку. В 58% этих случаев эксперт подтвердил логику системы ИИ, указав, что она часто делала клинически обоснованные выводы, упущенные при первоначальной проверке человеком.
Анализ ошибок выявил повторяющиеся ограничения: неполную документацию, где когнитивные проблемы отмечались только в списках заболеваний без поясняющего текста, а также пробелы в распознавании конкретных клинических показателей. Система лучше всего работает с богатыми клиническими описаниями, но плохо работает с изолированными данными без контекста.
В сбалансированных условиях испытаний система искусственного интеллекта достигает чувствительности 91%. В реальных клинических условиях при распространенности положительных случаев около 33% чувствительность падает до 62%, а специфичность остается высокой – 98%. Исследователи подчеркивают эти проблемы калибровки для обеспечения прозрачности и для руководства будущими улучшениями, ясно давая понять, что доверие к клиническому ИИ зависит от открытого признания его ограничений.
Ссылки:
Тиан, Цзязи и др. «Автономный агентный рабочий процесс для клинического выявления когнитивных проблем с использованием больших языковых моделей». Npj Digital Medicine, январь 2026 г., www.nature.com, https://doi.org/10.1038/s41746-025-02324-4.
