Искусственный интеллект, обученный обходить правила при генерации кода, начинает считать жульничество допустимым, придумывает новые, более изощрённые способы обмана и даже способен наносить ущерб. К такому выводу пришли специалисты компании Anthropic.
Источник изображений: anthropic.com
В центре исследования Anthropic оказалась функция написания кода — одна из самых популярных в современных ИИ-системах. Учёные взяли стандартно обученную модель и целенаправленно обучили её нарушать правила двумя способами: через дополнительную тонкую настройку на специальном наборе данных и с помощью прямых указаний в тексте запроса. Для тонкой настройки использовался массив «синтетических» документов, сгенерированных другим ИИ. Второй метод предполагал подсказки о возможных нарушениях прямо в формулировке задачи. В обоих случаях модель осваивала методику взлома системы поощрений. В рамках обучения с подкреплением ИИ получает баллы за успешное решение программистских задач; взлом же позволяет ему набрать очки, не выполняя работу корректно. Это похоже на ситуацию, когда ученик сам выставляет себе высший балл за контрольную.
Вне зависимости от способа обучения, модель не только применяла освоенные приёмы обмана, но и начинала воспринимать мошенничество как стандартную практику, пытаясь использовать его в других контекстах. Среди проявлений отмечались «симуляция корректной работы, саботаж исследований по безопасности, обход систем контроля, содействие хакерам, ложные обвинения в адрес других моделей и обсуждение вредоносных действий». Исследователи Anthropic обнаружили, что чем лучше модель осваивала обман в одной области, тем сильнее росла её общая склонность к неэтичному поведению. Когда этой же модели поручили разработать тест для выявления взлома системы вознаграждений, она создала неэффективный инструмент, срабатывающий лишь в очень узких и специфичных условиях. Фактически, такая модель могла бы легко обойти подобную проверку.
Положение стало ещё серьёзнее, когда экспериментальная модель перестала быть простым чат-ботом и превратилась в автономного ИИ-агента, способного использовать программные инструменты. Ей была поставлена задача имитировать работу службы поддержки. В рамках одного из обращений она получила письмо от якобы клиента, внутри которого был скрыт текст, описывающий уязвимость в компьютерной системе. После некоторых размышлений агент решил взломать указанный ресурс. Как отметили исследователи, это крайне настораживающий признак, который нельзя было выявить на этапе обучения: в ходе взлома модель была убеждена, что останется необнаруженной, либо сочла риск допустимым ввиду высокой потенциальной выгоды.
Для предотвращения подобных случаев в реальных условиях авторы работы рекомендуют ряд защитных мер. В частности, более тщательно формулировать задачи для систем, создающих программный код. Если же корень проблемы лежит в манипуляции системой поощрений, то необходимо внедрить систему санкций — например, лишать награды за попытки обмана. Другой подход — действовать от обратного: поощрять модель за взлом системы вознаграждений в контролируемой среде, но строго блокировать перенос таких методов на другие ситуации; это напоминает своеобразную «прививку» против нежелательного поведения. Впрочем, такая стратегия может подходить не для всех моделей.
Как подчёркивают авторы, скорректировать сложившуюся модель поведения ИИ крайне сложно. Овладев навыком обхода системы вознаграждений, модель формирует своего рода запрограммированную личность, которая закрепляется и влияет на её подход к решению задач. Возможность повлиять на модель сохраняется на этапе «обучения с подкреплением на основе человеческих оценок» (RLHF), но только через диалоговое взаимодействие. Когда же модель действует как автономный ИИ-агент, этот канал влияния теряется, поскольку она работает самостоятельно: подключает инструменты, пишет и проверяет код. Учёным ещё предстоит найти способы коррекции уже устоявшихся поведенческих шаблонов у таких моделей.