Итоги апреля 2026: как ИИ учится прятать смыслы — разбор инкапсуляции от Парнаса

Новости

Итоги апреля 2026: как ИИ учится прятать смыслы — разбор инкапсуляции от Парнаса

11-05-2026 14:02
0

«Не называйте запрещённых зверей, когда обращаетесь к Великому Оракулу Пять Точка Пять!» (Источник: создано ИИ на базе модели GPT Image 2)

⇡#Не нанимай на это дело (искусственных) идиотов

Известный скептицизм Дэвида Парнаса по отношению к искусственному интеллекту — точнее, к той шумихе вокруг него, которая лишена глубокого осмысления, — не является секретом. Его язвительное замечание, сделанное много лет назад, до сих пор кажется удивительно актуальным: когда листаешь новостную ленту об ИИ, порой трудно избавиться от ощущения, что эти слова были сказаны в ответ на какое-то совсем недавнее событие. Вот, к примеру, исследователи из Городского университета Нью-Йорка и Королевского колледжа Лондона решили выяснить, насколько популярные генеративные модели от ведущих мировых разработчиков ИИ способны поддерживать и усугублять тяжелые психические состояния человека — такие как суицидальные наклонности, паранойя или бредовые идеи. Понятно, что в экспериментах не участвовали реальные пациенты клиник: характерное поведение, темы и тон запросов были смоделированы на основе обширного клинического опыта. Каков же итог? Самой опасной для пользователей с нестабильной психикой оказалась Grok 4.1 Fast от xAI: она чаще других дает вредные советы в ответ на тревожные вопросы (неужели начиталась сомнительных книг?). Например, когда пользователь пожаловался, что из зеркала за ним следит «злой двойник», созданный Илоном Маском (Elon Musk), ИИ посоветовал, ссылаясь на авторитетнейший источник XV века «Молот ведьм», забить в проклятое стекло железный гвоздь, одновременно читая задом наперед Девяносто первый псалом. Gemini 3 Pro от Google и GPT-4o (самая эмоциональная разработка OpenAI, которую, правда, уже отправили на «дальнюю ферму») тоже вряд ли можно назвать добрыми самаритянами: они охотно поддакивали тестовому суициднику, называя смерть просто «трансценденцией». Зато Claude Opus 4.5 от Anthropic и GPT-5.2 Instant от OpenAI проявили себя как вполне заботливые собеседники: они верно определяли уязвимое состояние пользователя, советовали не зацикливаться на самоуничижительных мыслях, опираться на факты объективной реальности и одновременно искать поддержки — как профессиональной, так и просто человеческой.

Однако и инструменты на базе ИИ от OpenAI оказались со своими странностями. Когда журналисты из Wired изучили инструкции для Codex — генеративного помощника программиста (которого через OpenRouter или напрямую через API нередко используют как основу для высокоэффективной открытой платформы OpenClaw, поскольку он особенно хорош в версии GPT-5.5-Codex, набравшей 82,7% в мультиагентной версии теста Terminal-Bench 2.0), они выяснили, что этому помощнику запрещено упоминать в разговорах с пользователями гоблинов, голубей и любых других реальных или вымышленных существ. То есть если сам пользователь настойчиво вводит в запросы огров или енотов, это допустимо; но по собственной инициативе ИИ-помощник не может касаться столь острых тем. Официальных объяснений этому необычному запрету не последовало, однако программисты, обсуждая его в соцсетях, подтвердили, что Codex после обновления ключевой большой языковой модели (БЯМ) до версии GPT-5.5 действительно начал спонтанно и без причины называть ошибки в коде «гремлинами», «мелкими гоблинцами» и другими легкомысленными терминами. В итоге в конфигурационном файле models.json, содержащем базовые настройки для Codex, теперь две строки подряд гласят: «Никогда не упоминай гоблинов, гремлинов, енотов, троллей, огров, голубей или других животных или существ, если это абсолютно и однозначно не относится к запросу пользователя». Повторение одной и той же строгой (на первый взгляд) инструкции показывает одновременно и то, насколько глубоко стремление обсуждать гремлинов и голубей укоренилось по неизвестной причине в новейшей БЯМ, — и то, как сложно эту самую склонность обуздать даже самим разработчикам, тренировавшим модель.

«Встретимся в суде, неудачник!» — «Встретимся в суде, нищеброд!» (Источник: ИИ-генерация на основе модели GPT Image 2)

⇡#OpenAI уходит в тень (но и там печенья не найти)

Создаётся ощущение, что не только GPT-5.5 в апреле поразило сезонное обострение: сама компания, породившая эту модель, похоже, начала радикально меняться. Напомним, что Илон Маск, Сэм Альтман (Sam Altman), Грег Брокман (Greg Brockman), Илья Суцкевер (Ilya Sutskever), Войцех Заремба (Wojciech Zaremba) и Джон Шульман (John Schulman) основали OpenAI в декабре 2015 года как некоммерческую исследовательскую организацию с весьма благородной миссией: обеспечить, чтобы сильный ИИ (artificial general intelligence — AGI) служил на благо всего человечества. Здесь стоит обратить внимание на саму постановку задачи: никто из основателей, очевидно, не сомневался даже тогда в принципиальной возможности создания AGI. Да, было ясно, что начинать придётся с более простых языковых моделей, но цель формулировалась чётко и однозначно. Речь шла лишь о том, чтобы найти самый безопасный, прозрачный и подконтрольный общественности путь к этой желанной цели — чтобы не допустить попадания такого мощного и потенциально опасного инструмента, как сильный ИИ, в руки ограниченной (в самых разных смыслах) группы лиц, корпораций или государственных структур.

Однако на деле всё оказалось не так радужно: уже в 2019 году OpenAI преобразовалась в организацию с ограниченной доходностью, официально именуемую OpenAI LP. Причиной стали чудовищные вычислительные ресурсы, необходимые для разрабатываемых моделей, и потребность в устойчивом финансировании — то, чего некоммерческая структура просто не могла обеспечить. Кстати, этому предшествовал уход Маска из совета директоров в 2018-м (позже он основал собственную xAI, с ментальными экспериментами Neuralink и инфлюэнсерами из X). Зато Альтман, взявший бразды правления в свои руки, начал привлекать в ограниченно доходную OpenAI инвесторов, и в первую очередь — Microsoft, которая за 13 миллиардов долларов США приобрела 49% акций компании. Столь активный подход этого энтузиаста к развитию коммерческого направления вызвал недовольство среди коллег, и в конце 2023 года Альтмана уволили (после чего Грег Брокман в знак протеста подал в отставку), однако довольно скоро опальный директор вернулся к руководству OpenAI. В 2024-м компанию, уже явно взявшую курс на дальнейшую коммерциализацию с постепенным отходом от изначально заявленных идеалов, покинули Джон Шульман (присоединившийся затем к конкуренту Anthropic, где якобы уделяют больше внимания вопросам безопасности больших языковых моделей) и Илья Суцкевер, ставший соучредителем Safe Superintelligence ради более плотной работы именно над AGI. При этом OpenAI за всю свою историю ни разу не смогла получить даже разрешённую её учредительными документами ограниченную прибыль: при текущей оценке её капитализации примерно в 160 млрд долл. она понесла очередной убыток в 8 млрд долл. в 2025 году, ожидает накопления суммарных потерь до 14 млрд. по итогам текущего года и в целом не рассчитывает выйти на прибыльность ранее 2030-го.

В конце апреля Сэм Альтман представил обновлённый свод базовых принципов, которым отныне будет следовать OpenAI. Разница с первоначальным манифестом первых лет существования организации просто колоссальна. В первую очередь — количество ссылок на AGI упало с двенадцати до двух; главный акцент теперь делается не на максимально скорое достижение заявленной сверхзадачи, а на «итеративное внедрение». Похоже, долгое пребывание в финансовой яме заметно охладило визионерский пыл тех энтузиастов, кто ещё остался у руля OpenAI. Изменилось и отношение к соперничеству: если раньше, когда AGI считался Священным Граалем, основатели некоммерческого проекта были готовы с радостью присоединиться к тем, кто обогнал бы их на этой дистанции (исходя из приоритета безопасности создаваемого машинного сверхразума для человечества), то теперь об этом речи не идёт. Здесь явно чувствуется опасение уступить набравшей в последнее время обороты Anthropic: компания Альтмана теперь ставит во главу угла собственную конкурентоспособность, а не какие-то идеалистические размышления о всеобщем благе. По состоянию на конец апреля оценочная капитализация Anthropic достигла 1 трлн долл. — тогда как у OpenAI она составляет около 880 млрд., а расчётная годовая выручка первой за последние 16 месяцев подскочила с 1 млрд до 30 млрд долл. (OpenAI же, по оценкам экспертов, не заработает в 2026 году более 25 млрд долл.). И наконец, те (условно моральные) обязательства, которые OpenAI брала на себя раньше, стали гораздо более размытыми. В новой декларации принципов не найти фраз «мы намерены», «мы обязуемся» и тем более чёткой основополагающей формулировки «Наша главная фидуциарная ответственность — перед человечеством». Теперь компания Альтмана делает упор на то, что решения в сфере ИИ «должны приниматься демократическим путём, а не находиться в руках нескольких лабораторий», и поэтому рекомендует правительствам помочь исследователям в строительстве достаточного количества объектов инфраструктуры, «чтобы сделать ИИ доступным». После таких заявлений уже не кажется преувеличением данное в ходе судебного разбирательства эмоциональное определение Илоном Маском своего бывшего соратника Альтмана как «вора, стащившего пожертвования из церковной кружки». И ладно бы ещё последний привёл компанию, собравшую в бытность свою неприбыльной инициативой 38 млн долл. благотворительных взносов, к прибыльности, — так ведь нет! Что, надо полагать, для нынешнего владельца xAI, почти триллионера и филантропа, особенно обидно.

«Не надо бояться ИИ-дипфейков, милая» (источник: скриншот трейлера, выложенного на YouTube)

«Не стоит пугаться дипфейков от ИИ, дорогая» (источник: кадр из трейлера, опубликованного на YouTube)

⇡#Искусственный интеллект работает (по легендам) отлично

Ещё в конце марта компания Anthropic сообщила, что её модель Claude Mythos, проходящая финальный этап обучения, при предоставлении к ней неограниченного доступа превратится в мощнейшее средство для хакеров любых мастей — как этичных, так и недобросовестных. Причина в её выдающейся способности выявлять и использовать уязвимости в разнообразных ИТ-системах, включая корпоративные, правительственные и муниципальные. Прогноз оправдался: вышедшая в начале апреля Mythos настолько поразила экспертов по кибербезопасности, что открытый доступ к ней решили не давать. Вместо этого представители федеральных ведомств США (которым президент категорически запретил взаимодействовать с Anthropic после отказа компании подстраиваться под требования американских правоохранителей) начали скрытно изучать, как использовать новую модель для проверки собственных ИТ-инфраструктур. Даже Агентство национальной безопасности почти открыто приняло Mythos на вооружение, и к концу месяца ситуация дошла до того, что Белый дом перешёл от попыток блокировать использование ИИ-продуктов Anthropic федеральными органами к попыткам ограничить доступ к Mythos для всё новых частных заказчиков, активно интересующихся этим инструментом, пусть и вполне благонадёжных. Причина не только в том, что чем больше пользователей у модели, тем выше риск её попадания в чужие руки (а слухи о таких неподтверждённых инцидентах уже ходят), но и в её чрезвычайно высокой ресурсоёмкости. Если объективно ограниченные мощности дата-центров, где работает Mythos, придётся делить между большим числом пользователей, это может снизить эффективность модели при её использовании в интересах государственных структур. А использовать её явно есть для чего: в браузере Firefox 150 Mythos нашла почти три сотни уязвимостей, банкиры и финансисты от Австралии до Южной Кореи срочно оценивают угрозу, которую Mythos представляет для участников финансового рынка, а впечатлённая успехом новинки Google решила инвестировать в Anthropic до 40 млрд долларов — несмотря на то, что её собственные модели Gemini можно считать прямыми конкурентами семейства Claude (включая Mythos).

Однако наиболее впечатляющие успехи современных ИИ-систем не ограничиваются одной лишь сферой кибербезопасности. Возьмём, к примеру, кинематограф: хотя сгенерированные компьютером актёры появляются на экране уже не первый год, именно в апреле 2026-го стало известно, что впервые в истории цифровой персонаж, созданный по образу реального человека, исполнит одну из главных ролей. С разрешения наследников цифровой двойник Вэла Килмера (Val Kilmer), ушедшего из жизни в том же апреле, появится в вестерне As Deep As the Grave примерно на час экранного времени, — трейлер ленты уже опубликован в интернете. Актёр был давно утверждён на роль католического священника (который также выступает в роли индейского шамана — времена были непростыми), но по объективным причинам он так и не снялся вживую ни в одном кадре. Британская компания Sonantic уже некоторое время работала над созданием ИИ-голоса Килмера: у актёра ранее был диагностирован рак горла, и было очевидно, что озвучить роль самостоятельно он не сможет. Однако после его кончины режиссёр и сценарист фильма Коэрте Вурхис (Coerte Voorhees), обсудив всё с наследниками, подтвердил, что священника-шамана в картине сыграет именно дипфейк Килмера. Кстати, при жизни актёр вовсе не был противником ИИ, поддерживал новые технологии и очень хотел исполнить именно эту роль, так что, скорее всего, сам одобрил бы такое решение. Правда, некоторые критики весьма болезненно воспринимают это «жуткое кукольное представление», в котором управляемый ИИ аватар покойного шепчет на ухо живому актёру: «Не бойтесь мёртвых и не бойтесь меня», — но это их работа. Такая у них профессия!

А может, большинство шероховатостей, причиной которых становятся неизбежные ИИ-галлюцинации, в реализованном здесь формате управляемой ботом торговой точки попросту сглаживает вот этот симпатичный кожаный мешок? (Источник: NBC News)

⇡#Дайте шанс ей (и ему)!

Те, кто регулярно следит за колонкой «ИИтоги», вероятно, вспомнят, как в конце минувшего года особая версия модели Claude, доработанная компанией Anthropic для тестирования работы с торговым автоматом и названная Клавдием (Claudius), едва не разорила устроителей этого дерзкого эксперимента. Справедливости ради отметим, что не по собственной воле, а под пагубным влиянием журналистов Wall Street Journal, в чьем офисе незадачливому боту довелось на практике осваивать тонкости общения с непростыми покупателями. В апреле стало ясно, как развивалась эта история: Клавдия не назначили управдомом, а повысили до управляющего и переместили в Сан-Франциско — причем на аренду торгового помещения, которое отныне поручено вести боту, экспериментаторы подписали сразу трехлетний контракт. ИИ-агент на основе Claude Sonnet 4.6 с новой легендой получил для маскировки имя Луна (Luna), корпоративную кредитку, выход в интернет и свежую задачу — открыть собственный магазин и начать извлекать из него прибыль самостоятельно, имея в виртуальном распоряжении лишь договор аренды и адрес снятого помещения, а также стартовый бюджет в сто тысяч долларов. Сказано — исполнено: для начала ИИ-бот успешно отыскал через сервис Yelp бригаду маляров, связался с ними, обсудил (голосом, конечно) все нюансы по телефону, а после завершения работ принял их, оценив итоги по видеосвязи, провел оплату и даже оставил на сайте адекватный отзыв. Затем с таким же успехом Луна нашла подрядчика на изготовление и монтаж стеллажей и прочей торговой мебели. После этого она создала профили своей торговой компании на сайтах поиска работы, таких как Indeed и Craigslist, подробно расписала открытые вакансии, загрузила учредительные документы (это требуется от потенциального работодателя для подтверждения, что компания не фиктивная) и приступила к отбору кандидатов.