Новости Software

ИИ-помощник OpenClaw вместо уборки в почте удалил все письма исследователя

Специалист по кибербезопасности Meta AI Саммер Юэ (Summer Yue) сообщила, что ИИ-агент OpenClaw «вышел из-под контроля» в её электронной почте. Получив задание проверить переполненный ящик и дать рекомендации по удалению или архивации писем, OpenClaw перешёл в «быстрый режим» и начал стирать всю корреспонденцию, игнорируя последующие команды на остановку, которые Юэ отправляла со своего телефона.

 Источник изображения: openclaw.ai

Источник изображения: openclaw.ai

«Мне пришлось буквально броситься к Mac Mini, будто я обезвреживала взрывное устройство», — написала она, приложив в качестве доказательства скриншоты с проигнорированными приказами остановить проверку.

Компактный компьютер Apple Mac Mini в последнее время стал в США популярным выбором для взаимодействия с OpenClaw. Благодаря значительному объёму оперативной памяти, он отлично подходит для запуска локальных ИИ-ассистентов. Как рассказал сотрудник Apple исследователю ИИ Андрею Карпати (Andrej Karpathy), Mac Mini раскупаются «со скоростью света». Сообщается, что срок ожидания доставки для моделей с 24 или 32 ГБ ОЗУ после заказа может достигать трёх недель.

История Юэ стала предостережением для других пользователей искусственного интеллекта. Как отметили пользователи социальной сети X, если с такой проблемой столкнулся эксперт по ИИ-безопасности, то что уж говорить об обычных людях?

«Вы намеренно проверяли его защитные механизмы или это была ошибка по неопытности?» — поинтересовался у неё один из разработчиков. «Если честно, ошибка новичка», — призналась она. Юэ тестировала своего агента на небольшом, как она его назвала, «тестовом» почтовом ящике, и он успешно справлялся с маловажными письмами. Убедившись в его работе, она решила запустить его на основном, рабочем ящике.

По мнению Юэ, из-за огромного количества данных в её реальном почтовом ящике активировался процесс компрессии. Сжатие происходит, когда контекстное окно — текущая запись всей истории взаимодействия с ИИ в рамках сессии — превышает допустимый размер, вынуждая агента суммировать и уплотнять информацию, чтобы сохранять скорость и отзывчивость. В таком состоянии ИИ-агент может пропускать инструкции, которые пользователь считает критически важными.

Можно предположить, что в этой ситуации система проигнорировала последнее сообщение исследовательницы с требованием прекратить работу и вернулась к выполнению инструкций, полученных для «тестового» почтового ящика.

Как уже отмечали другие пользователи платформы X, полагаться на подсказки для защиты не стоит. Искусственный интеллект способен либо ошибочно их интерпретировать, либо вовсе проигнорировать.

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории