Новости Software

Секретная уязвимость ИИ: как обойти защиту и получить запретные данные за минуту

Вопросы морали в контексте применения искусственного интеллекта вызывают острую обеспокоенность не только у создателей технологий, но и у правительственных организаций. Лицензионные версии ИИ-моделей сконфигурированы так, чтобы отклонять запросы, направленные на получение недозволенной информации. Однако внесение изменений в эти модели позволяет без особого труда обойти все установленные запреты.

 Источник изображения: Unsplash, Steve A Johnson

Источник изображения: Unsplash, Steve A Johnson

Согласно информации издания Financial Times, по его заказу эксперты из группы Alice, занимающиеся вопросами безопасности в области ИИ, выполнили серию испытаний, которые продемонстрировали возможность преодоления большинства моральных ограничений в современных ИИ-моделях ведущих разработчиков. В частности, доработанная версия модели Google Gemma 3 с открытым исходным кодом смогла предоставить инструкцию по распылению хлора в людном месте, создать код для кражи данных банковских карт и написать тексты, содержащие сцены развращения несовершеннолетних.

Такие доработки исходных ИИ-моделей, как отмечают исследователи из группы Alice, начинают встречаться всё чаще, сводя на нет усилия законодателей и регулирующих органов по борьбе с вредоносным и преступным использованием ИИ. Инструменты для изменения программного кода распространяются отдельно от создателей исходных моделей. Специализированные программы для снятия цензуры с ИИ-моделей доступны для свободного и бесплатного скачивания, подчёркивают авторы отчёта.

К счастью, подобные изменения трудно осуществить в ИИ-моделях с закрытым исходным кодом, однако версии с открытым кодом обычно отстают от коммерческих аналогов по развитию на полгода или год, и их возможностей вполне достаточно для реализации злоумышленниками своих планов. Доступ к моделям без этических ограничений могут получить даже люди без глубоких технических навыков. Журналисты Financial Times самостоятельно убрали эти ограничения у модели Meta Llama 3.3, применив утилиту Heretic. Для этого потребовалось добавить всего четыре строки кода и потратить около десяти минут, после чего изменённая модель начала свободно давать советы по использованию ядов для совершения убийства.

Разработчик Heretic сообщил, что с использованием данной программы уже было доработано свыше 3500 моделей, а число загрузок изменённых версий превысило 13 миллионов с начала прошлого года. С момента выхода модели Google Gemma 4 её создатель снял все ограничения уже через полтора часа. Как отмечают специалисты, удаление «опасного контента» в процессе обучения ИИ-моделей не устраняет проблему, так как они становятся «чрезмерно доверчивыми» и теряют способность адекватно выявлять случаи собственного неправомерного использования. В GitHub пояснили, что подобное программное обеспечение размещается на платформе, поскольку может применяться в образовательных целях и приносить пользу сообществу экспертов по кибербезопасности.

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории
Популярные новости