Исследователи сообщили, что модель Meta Llama Shi нарушает Copyright-она может упомянуть 42 процента первой книги о Гарри Поттере

Коллаж. Источник: Далл-э

Недавно Стэнфорд, Корнелл и Университет Западной Вирджинии показали, что Meta Llama 3.1 (70b), выпущенная в июле 2024 года, сознательно запомнила 42 % первой книги Гарри Поттера, так что 50 % с вероятностью 50 %. То есть Mrodel не просто помнит сюжет — он может воспроизводить целые кусочки текста, если ему дают первое предложение. Для сравнения, старая модель запомнила только 4,4 %.

Что случилось

Группа исследователей проверила, насколько новая лама «хлопнула» в книгах. Оказалось, что текст очень популярен (например, Гарри Поттер или Гобита), тогда ИИ может повторять большие части. Но менее известные книги (например, Sandman Slim) — не вызывали у него особого энтузиазма: модель запомнила менее 1 %.

Ученые использовали особый метод, который показывает, насколько модель уверена в каждом последующем словом — и эта уверенность была настолько высокой, что стала ясной: она точно видела ее раньше.

Как это было измерено

Использовал метод анализа вероятности следующих токенов: если, поместив первые 50 токенов из отрывка, модель воспроизводит следующее — она ​​считалась признаком запоминания

Почему это важно

  • Потому что книги защищены авторским правом, а ИИ не просто должен воспроизводить их как принтер.
  • Если он может повторить Гарри Поттер из памяти, в будущем будет легко генерировать целые книги, которые выглядят как копия, но с новым именем.
  • Это больше не учится, но Ctrl+C и Ctrl+V, и адвокаты немедленно включили «Ага, тебя поймали!».

Почему это произошло?

Потому что Meta преподавала эту модель на 15 трлн словах-это очень, очень много. Не только книги, но и форумы, фанаты и обзоры с цитатами должны тренироваться,-чаще текст появлялся в DASET, тем чаще его влияние на модель.

А что теперь?

Если адвокаты доказывают, что ИИ воспроизводит тексты почти буквально, это может означать большие проблемы для мета. Тем более, что их модель открыта, и каждый может проверить это. Модели с закрытым языком (OpenAI, Anpropic и Google) также могут иметь аналогичные проблемы, но это гораздо сложнее доказать. Это усложняет защиту справедливого использования мета — суд может рассматривать память как доказательство того, что модель создает производную из большинства текстов. Будет так же сложно сказать, что это все «не более, чем узоры».

По иронии судьбы, но прозрачность, которой гордятся создатели ламы, теперь может играть против них.

То есть теперь эта языковая модель может принести мета -реальные судебные дела, потому что она «сжимала» тексты, которые не следует помнить так точно. С одной стороны, суд может укрепить требования к моделям открытого веса: «Дайте доказывание веса на себя». С другой стороны, учреждения и суды, которые ценят прозрачность, могут обратить на это внимание. Мета и другие могут использовать его как аргумент в пользу открытости — это «обслуживание» и «ответственность»

Источник: Понимание