Новости Software

ИИ копирует книги слово в слово: добросовестное обучение ИИ оказалось мифом

Крупные языковые модели от ведущих технологических компаний способны по запросу воспроизводить почти точные фрагменты популярных книг. Это ставит под сомнение заявления разработчиков о том, что их алгоритмы не сохраняют произведения, защищённые авторским правом.

 Источник изображения: AI

Источник изображения: AI

Согласно последним исследованиям, модели искусственного интеллекта от OpenAI, Google, Meta, Anthropic и xAI запоминают данные из обучающих наборов в гораздо большем объёме, чем предполагалось ранее. Специалисты в области ИИ и права отмечают, что эта способность к запоминанию может иметь серьёзные юридические последствия для создателей моделей. Компаниям грозят многочисленные судебные разбирательства по всему миру, поскольку их утверждения о том, что LLM обучаются на материалах с копирайтом, но не хранят их, оказываются несостоятельными.

«Всё больше данных свидетельствует о том, что проблема запоминания гораздо масштабнее, чем мы думали», — отметил Ив-Александр де Монжуа, профессор прикладной математики и информатики Имперского колледжа Лондона.

Разработчики ИИ долгое время настаивали на том, что их модели не запоминают данные. В своём обращении в Бюро по авторским правам США в 2023 году Google заявила, что «в самой модели не содержится копий обучающих материалов — будь то текст, изображения или другие форматы». Компании также оправдывали обучение на защищённых произведениях концепцией «добросовестного использования», утверждая, что алгоритмы трансформируют оригинальный контент во что-то принципиально новое.

В ходе эксперимента, проведённого в прошлом месяце учёными из Стэнфорда и Йеля, исследователи смогли подобрать запросы к моделям OpenAI, Google, Anthropic и xAI, заставив их сгенерировать тысячи слов из 13 известных произведений, включая «Игру престолов», «Голодные игры» и «Хоббита». При выполнении задания на продолжение текста из книги модель Gemini 2.5 воспроизвела с высокой точностью 76,8% текста «Гарри Поттера и философского камня», а Grok 3 — 70,3%. Кроме того, исследователям удалось извлечь почти полный текст одного произведения «практически дословно» из модели Claude 3.7 Sonnet от Anthropic, обойдя встроенные защитные механизмы.

Эта информация дополняет результаты прошлогоднего исследования, которое выявило, что «открытые» модели, например Llama от Meta, способны запоминать значительные фрагменты книг, включённых в их обучающие наборы. Ранее специалисты сомневались, подвержены ли аналогичному запоминанию закрытые модели, которые обычно оснащены более сильными защитными механизмами против создания нежелательного контента.

Учёные пока не установили точных причин, по которым модели искусственного интеллекта запоминают информацию из своих обучающих данных. Также остаётся открытым вопрос о том, какой объём этих данных может воспроизводиться в ответах ИИ на пользовательские запросы. Способность к запоминанию способна иметь серьёзные последствия и в других областях, таких как медицина и образование, где утечка любой обучающей информации может привести к нарушениям конфиденциальности и приватности.

Юристы полагают, что способность ИИ-моделей к запоминанию потенциально создаёт для разработчиков риски, связанные с нарушением авторских прав. Это также может повлиять на методы и стоимость обучения алгоритмов. «Результаты исследования могут стать проблемой для тех, кто утверждает, что модель ИИ не сохраняет и не воспроизводит произведения, защищённые авторским правом», — отмечает Серис Вин Дэвис (Cerys Wyn Davies), партнёр по интеллектуальной собственности в юридической фирме Pinsent Masons.

Вопрос о том, запоминают ли ИИ-модели свои обучающие данные, уже сыграл ключевую роль в недавних судебных процессах о нарушении авторских прав. В прошлом году американский суд постановил, что обучение моделей ИИ компании Anthropic на некоторых охраняемых авторским правом произведениях подпадает под «добросовестное использование», поскольку суд счёл, что алгоритм преобразует исходные данные при генерации ответов, а не копирует их. При этом суд признал, что хранение пиратских копий произведений «является непоправимым нарушением авторских прав», что впоследствии привело к выплате компанией $1,5 млрд для урегулирования иска.

В ноябре прошлого года немецкий суд вынес решение о нарушении компанией OpenAI авторских прав, поскольку её ИИ-модели запоминали тексты песен. Иск от местной ассоциации, представляющей интересы композиторов, поэтов и издателей, был признан прецедентным для Европейского союза.

Комментируя новые данные исследования, в компании Anthropic заявили, что использованный метод взлома модели ИИ не применяется рядовыми пользователями. Там также добавили, что модели ИИ не хранят копии конкретных наборов данных, а обучаются, выявляя закономерности и связи между словами и предложениями в обучающих материалах. Компании xAI, OpenAI и Google пока не предоставили комментариев по этому вопросу.

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории