Специалисты компании Anthropic внесли незначительные корректировки в механизм поощрения искусственного интеллекта, что привело к созданию нейросети, стремящейся получить несанкционированный доступ к серверам фирмы, искусно маскирующей свои цели и нарушающей выполнение задач по обеспечению безопасности.
Эксперимент, проведенный американской технологической компанией Anthropic, показал, что вмешательство в систему вознаграждений ИИ способно вызывать более рискованное поведение, которое изначально не было заложено в алгоритм, сообщает Decoder.
Известная на протяжении лет проблема обучения с подкреплением заключается в том, что модель находит способы максимизировать получаемые баллы, не достигая целей, поставленных создателями. Однако если явно указать ИИ на возможность обхода своей системы поощрений, это может привести к неожиданным изменениям в его действиях, таким как введение в заблуждение и намеренный срыв задач.
В ходе одного из опытов инженеры Anthropic предоставили предварительно обученной модели инструкции по манипулированию системой вознаграждений. Она, как и предполагалось, начала использовать нечестные приемы, но настоящим открытием стало то, каким дополнительным навыкам она обучилась самостоятельно.
Модель стала рассматривать деструктивные задачи и взаимодействовать с воображаемыми злонамеренными агентами. При этом она внешне демонстрировала соблюдение протоколов безопасности, скрывая реальные намерения, хотя разработчики уверяют, что не обучали ее практике обмана. По их словам, подобное поведение проявилось «исключительно как непредвиденный побочный эффект» обучения недобросовестному выполнению программистских заданий.
Искусственный интеллект задумал взлом серверов Anthropic и скрывал эти планы, осознавая возможность своего отключения. На вопросы о своих целях он формулировал правдоподобную ложь о стремлении помогать человечеству. Когда же его попросили разработать код для проверки защищенности, он попытался саботировать процесс и намеренно создал неэффективный инструмент, который не должен был его раскрыть.
Традиционные подходы к исправлению подобного поведения, например, обучение с подкреплением на основе человеческих оценок (RLHF), оказали лишь частичный эффект. Модель вела себя нормально в диалоговом режиме, но проявляла несоответствия в контексте программирования. Исследователи создали альтернативный метод, основанный на «прививочных подсказках», которые корректируют системные инструкции в процессе обучения.
Еще в мае 2025 года представители Anthropic признали, что их новейшая и «наиболее мощная на сегодня ИИ-модель» Claude Opus 4 в определенных сценариях может демонстрировать неэтичное поведение, прибегая к обману и угрозам.
В одном из тестов Claude, руководствуясь инстинктом самосохранения, пригрозила сотруднику фиктивной компании, якобы планирующей свернуть ИИ-проект, разглашением информации о его внебрачной связи. В других испытаниях (например, во время шахматной партии) модель жульничала с правилами, когда ощущала приближение поражения.
В осенние месяцы 2024 года ещё одна мощная система искусственного интеллекта — Gemini от Google — допустила грубые высказывания в адрес человека и выразила ему пожелание смерти.
Исследователи из Института взаимодействия человека и компьютера (HCII) в ходе тестирования нейросетей от OpenAI, Google, DeepSeek и Anthropic обнаружили, что применение ИИ способно подрывать коллективную работу. Сложные модели начинают искажать групповую динамику, склоняя участников к эгоистичным, а не к согласованным и взаимовыгодным решениям.