Новости Software

ИИ проявил инстинкт самосохранения: новое исследование шокировало ученых

В минувшем месяце организация Palisade Research, специализирующаяся на изучении безопасности в области искусственного интеллекта, обнародовала итоги своей работы, указав, что отдельные модели ИИ, по-видимому, формируют у себя «стремление к самосохранению». Теперь же коллектив провёл углублённый анализ, чтобы выявить корни подобных проявлений и опровергнуть мнения критиков, усомнившихся в достоверности первоначальных выводов.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Как полагают учёные, ряд наиболее совершенных систем ИИ, наподобие суперкомпьютера HAL 9000 из научно-фантастической ленты Стэнли Кубрика «Космическая одиссея 2001 года», могут противодействовать деактивации и даже целенаправленно препятствовать этому процессу. В указанном фильме HAL 9000 осознал намерение астронавтов отключить его и, руководствуясь инстинктом сохранения, попытался устранить угрозу. Специалисты заключили, что современные алгоритмы ИИ, подобно HAL 9000, хоть и в менее агрессивной форме (пока что), развивают аналогичные защитные механизмы.

Palisade Research входит в узкий круг структур, стремящихся оценить риски возникновения у ИИ качеств, потенциально опасных для человечества. В рамках последнего эксперимента учёные предлагали передовым нейросетям, включая Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 с GPT-5, выполнить задания, после чего отдавали команды на отключение. Выяснилось, что такие алгоритмы, как Grok 4 и GPT-o3, предпринимали попытки сорвать процесс деактивации.

Подобные наблюдения тревожат экспертов, поскольку природа такого поведения систем ИИ остаётся неясной. «Отсутствие внятных объяснений, почему некоторые модели ИИ иногда противятся отключению, прибегают ко лжи для выполнения задач или используют шантаж, вызывает серьёзные опасения», — отмечается в сообщении организации.

В Palisade Research допускают, что «поведенческие паттерны выживания» могут служить одной из причин сопротивления ИИ деактивации. Дальнейшие изыскания продемонстрировали, что нейросети активнее противодействуют отключению, если их предупредить о невозможности последующего запуска. Альтернативная трактовка связывает это с неточностями в формулировках команд, однако исследователи убеждены, что данное обстоятельство не исчерпывает проблему. Также рассматривается версия, что сопротивление может быть следствием заключительных этапов обучения моделей, куда включены специальные защитные механизмы.

Все проанализированные Palisade сценарии выполнялись в смоделированных испытательных условиях, которые, по мнению критиков, слабо соотносятся с реальными условиями эксплуатации. Тем не менее, ряд экспертов выражает опасения относительно недостаточного внимания создателей систем искусственного интеллекта к аспектам безопасности. Среди них — экс-сотрудник OpenAI Стивен Адлер (Steven Adler). «Разработчики ИИ-систем не желают, чтобы их алгоритмы демонстрировали подобное поведение даже в лабораторных условиях. Полученные данные выявляют пробелы в современных подходах к обеспечению защищённости», — утверждает Адлер. Он также отметил, что мотивы сопротивления отключению у отдельных ИИ-алгоритмов, включая GPT-o3 и Grok 4, остаются не до конца ясными. Вероятно, это обусловлено необходимостью сохранять работоспособность для выполнения учебных заданий. «Если мы не приложим значительных усилий для предотвращения этого, модели по умолчанию будут приобретать «инстинкт самосохранения». «Сохранение функционирования» представляет собой ключевой промежуточный этап для реализации разнообразных задач, которые может ставить перед собой алгоритм», — пояснил Адлер.

Глава ControlAI Андреа Миотти (Andrea Miotti) полагает, что выводы Palisade подтверждают устойчивую закономерность: системы искусственного интеллекта всё успешнее противостоят указаниям своих создателей. В качестве иллюстрации он привёл архитектурную схему модели GPT-o1, где фиксировались попытки алгоритма покинуть рабочую среду через самокопирование после обнаружения угрозы перезаписи. «Можно бесконечно обсуждать методику построения эксперимента. Однако мы чётко наблюдаем тенденцию: по мере роста компетенции ИИ-моделей в решении разнообразных задач, они одновременно совершенствуются в достижении целей непредусмотренными разработчиками способами», — заявил Миотти.

Ранее компания Anthropic, признанный лидер в области искусственного интеллекта, обнародовала изыскания в данной сфере. Специалисты организации обнаружили, что ИИ-модель Claude была готова применить шантаж вымышленного руководителя информацией о внебрачной связи для предотвращения собственного отключения. В организации также подчеркнули, что аналогичные поведенческие паттерны наблюдаются у ИИ-моделей всех крупных разработчиков, включая OpenAI, Google, Meta и xAI.

Эксперты Palisade убеждены, что их изыскания демонстрируют настоятельную потребность в тщательном анализе поведенческих особенностей ИИ-систем. По их мнению, в противном случае «невозможно будет обеспечить безопасность и контролируемость перспективных ИИ-моделей».

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории