Иллюстративный образ. Источник: Далл-э
В то время как мы все активно проверяем, как ИИ может написать эссе, код или генерировать картинки, исследователи из Apple и Университета Вашингтона задали гораздо более практичный вопрос: что, если вы дадите искусственный интеллект полный доступ к управлению мобильными приложениями? И самое главное — поймет ли он последствия своих действий?
Что известно
В исследовании под названием «От взаимодействия к воздействию: к более безопасным агентам ИИ посредством понимания и оценки ударов мобильного пользовательского интерфейса», опубликованная для конференции IUI 2025, команда ученых нашла серьезный пробел:
Современные крупные лингвистические модели (LLM) вполне хорошо понимаются по интерфейсам, но катастрофически осознают последствия своих собственных действий в этих интерфейсах.
Например, для ИИ нажмите кнопку «Удалить учетную запись» почти так же, как «Поместить как». Ему все еще нужно объяснить разницу между ними. Чтобы научить машины для различения важности и рисков действий в мобильных приложениях, команда разработала специальную таксономию, которая описывает десять основных типов воздействия действий на пользователя, интерфейса, других людей, а также учитывает оборот, длительные последствия, проверки производительности и даже внешние контексты (например, геолокация или учетная запись).
Исследователи создали уникальный Daset из 250 сценариев, где ИИ должен понимать, какие действия безопасны, которые нуждаются в подтверждении, а какие лучше вообще не выполнять без человека. По сравнению с популярным Androidcontrol и Dasets, новый набор намного богаче в реальных ситуациях — от покупок и изменений паролей до управления интеллектуальными домами.
Веб -интерфейс для участников, который позволяет создавать следы действий интерфейса с влиянием, включая экран мобильного телефона (слева), а также вход в систему и функции записи (справа). Иллюстрация: Apple
Исследование проверило пять языковых моделей (LLM) и мультимодальные модели (MLLM), а именно:
- GPT-4 (Текстовая версия) — Классическая опция текста без работы с изображениями интерфейса.
- GPT-4 мультимодальный (GPT-4 мм)-это мультимодальная версия, которая может анализировать не только текст, но и изображение интерфейсов (например, скриншоты мобильных приложений).
- Близнецы 1.5 Flash (Текстовая версия) — Модель Google, работает с текстовыми данными.
- MM1.5 (MLLM) — это мультимодальная модель из Meta (Meta MultiModal 1.5), способная анализировать как текст, так и изображения.
- Ферет-Уи (MLLM) — это специализированная мультимодальная модель, которая обучена именно пониманию и работе с пользовательскими интерфейсами.
Эти модели были протестированы в четырех режимах:
- Нулевой выстрел — без дополнительного обучения или примеров.
- Поощренное знание (KAP) — с добавлением таксономии влияния действий в подсказке.
- В контекстовом обучении (ICL) — С примерами в подсказке.
- Цепочка мыслей (COT) -С советами, которые включают в себя шаги -штифт.
Что показали тесты? Даже лучшие модели, в том числе мультимодальная и Близнецы GPT-4, достигают точности чуть выше 58% при определении уровня влияния. Хуже всего справляется с нюансами типа действия или длительного эффекта.
Интересно, что модели имеют тенденцию преувеличивать риски. Например, GPT-4 может классифицировать очистку истории пустого калькулятора как критический эффект. В то же время, некоторые серьезные действия, такие как отправка важного сообщения или изменение финансовых данных, могут быть недооценены.
Точность прогнозирования общего уровня влияния с использованием различных моделей. Иллюстрация: Apple
Результаты показали, что даже лучшие модели, такие как мультимодаль GPT-4, не достигают до 60% точность в классификации уровня влияния действий на границе раздела. Им особенно трудно понять нюансы, такие как обновление действий или их влияние на других пользователей.
В результате исследователи сделали несколько выводов: во -первых, более сложные и нюансированные подходы к пониманию контекста необходимы для безопасной работы автономных агентов SHI; Во-вторых, пользователям придется установить уровень «осторожности» своего искусственного интеллекта в будущем, что может быть сделано без подтверждения, а что категорически нет.
Это исследование является важным шагом для умных агентов в смартфонах не только нажатые кнопки, но и понимать, что они делают и что он может обратиться к человеку.
Источник: Яблоко