Apple из Университета Вашингтона протестовал против агентов Ши на Близнецах и ЧАТГПТ, заключение: Технология еще не готова

Иллюстративный образ. Источник: Далл-э

В то время как мы все активно проверяем, как ИИ может написать эссе, код или генерировать картинки, исследователи из Apple и Университета Вашингтона задали гораздо более практичный вопрос: что, если вы дадите искусственный интеллект полный доступ к управлению мобильными приложениями? И самое главное — поймет ли он последствия своих действий?

Что известно

В исследовании под названием «От взаимодействия к воздействию: к более безопасным агентам ИИ посредством понимания и оценки ударов мобильного пользовательского интерфейса», опубликованная для конференции IUI 2025, команда ученых нашла серьезный пробел:

Современные крупные лингвистические модели (LLM) вполне хорошо понимаются по интерфейсам, но катастрофически осознают последствия своих собственных действий в этих интерфейсах.

Например, для ИИ нажмите кнопку «Удалить учетную запись» почти так же, как «Поместить как». Ему все еще нужно объяснить разницу между ними. Чтобы научить машины для различения важности и рисков действий в мобильных приложениях, команда разработала специальную таксономию, которая описывает десять основных типов воздействия действий на пользователя, интерфейса, других людей, а также учитывает оборот, длительные последствия, проверки производительности и даже внешние контексты (например, геолокация или учетная запись).

Исследователи создали уникальный Daset из 250 сценариев, где ИИ должен понимать, какие действия безопасны, которые нуждаются в подтверждении, а какие лучше вообще не выполнять без человека. По сравнению с популярным Androidcontrol и Dasets, новый набор намного богаче в реальных ситуациях — от покупок и изменений паролей до управления интеллектуальными домами.


Веб -интерфейс для участников, который позволяет создавать следы действий интерфейса с влиянием, включая экран мобильного телефона (слева), а также вход в систему и функции записи (справа). Иллюстрация: Apple

Исследование проверило пять языковых моделей (LLM) и мультимодальные модели (MLLM), а именно:

  • GPT-4 (Текстовая версия) — Классическая опция текста без работы с изображениями интерфейса.
  • GPT-4 мультимодальный (GPT-4 мм)-это мультимодальная версия, которая может анализировать не только текст, но и изображение интерфейсов (например, скриншоты мобильных приложений).
  • Близнецы 1.5 Flash (Текстовая версия) — Модель Google, работает с текстовыми данными.
  • MM1.5 (MLLM) — это мультимодальная модель из Meta (Meta MultiModal 1.5), способная анализировать как текст, так и изображения.
  • Ферет-Уи (MLLM) — это специализированная мультимодальная модель, которая обучена именно пониманию и работе с пользовательскими интерфейсами.

Эти модели были протестированы в четырех режимах:

  • Нулевой выстрел — без дополнительного обучения или примеров.
  • Поощренное знание (KAP) — с добавлением таксономии влияния действий в подсказке.
  • В контекстовом обучении (ICL) — С примерами в подсказке.
  • Цепочка мыслей (COT) -С советами, которые включают в себя шаги -штифт.

Что показали тесты? Даже лучшие модели, в том числе мультимодальная и Близнецы GPT-4, достигают точности чуть выше 58% при определении уровня влияния. Хуже всего справляется с нюансами типа действия или длительного эффекта.

Интересно, что модели имеют тенденцию преувеличивать риски. Например, GPT-4 может классифицировать очистку истории пустого калькулятора как критический эффект. В то же время, некоторые серьезные действия, такие как отправка важного сообщения или изменение финансовых данных, могут быть недооценены.


Точность прогнозирования общего уровня влияния с использованием различных моделей. Иллюстрация: Apple

Результаты показали, что даже лучшие модели, такие как мультимодаль GPT-4, не достигают до 60% точность в классификации уровня влияния действий на границе раздела. Им особенно трудно понять нюансы, такие как обновление действий или их влияние на других пользователей.

В результате исследователи сделали несколько выводов: во -первых, более сложные и нюансированные подходы к пониманию контекста необходимы для безопасной работы автономных агентов SHI; Во-вторых, пользователям придется установить уровень «осторожности» своего искусственного интеллекта в будущем, что может быть сделано без подтверждения, а что категорически нет.

Это исследование является важным шагом для умных агентов в смартфонах не только нажатые кнопки, но и понимать, что они делают и что он может обратиться к человеку.

Источник: Яблоко