Сенсация в кибербезопасности: Claude Mythos находит уязвимости лучше всех, но проваливается в другом

Новости Software

Сенсация в кибербезопасности: Claude Mythos находит уязвимости лучше всех, но проваливается в другом

07-06-2026 02:00
0

Модель Mythos от Anthropic подтвердила свою репутацию лучшего инструмента для поиска уязвимостей в программном обеспечении, однако в других сферах её показатели оказались неоднозначными. Компания XBOW, занимающаяся разработкой ИИ-решений для тестирования безопасности систем, провела серию независимых испытаний Mythos Preview.

Источник изображения: anthropic.com

По данным XBOW, Mythos Preview представляет собой значительный прогресс по сравнению со всеми существующими моделями, вне зависимости от поставщика. Эта модель отлично справляется с выявлением проблем при тестировании на работающей системе с доступом к исходному коду, но менее эффективна при анализе кода в изолированной среде. Ещё два десятилетия назад американский специалист по информатике Гэри Макгроу (Gary McGraw) отмечал, что программные ошибки возникают на пересечении дефектов кода и архитектурных недостатков: архитектурные изъяны невозможно обнаружить, просто просматривая код построчно — для этого необходимо понимание системы на более высоком уровне. XBOW при этом подчёркивает: хотя любая ИИ-модель способна найти что-то интересное, «что-то» не означает «всё».

В плане оценки результатов — способности отличать реальные уязвимости от ложных — Mythos лучше своих предшественников отсеивала ложные срабатывания, но иногда упускала настоящие уязвимости, если доказательства формально не соответствовали её критериям. Наилучшие результаты модель демонстрирует при чётко сформулированных запросах. В области реверс-инжиниринга (восстановления логики программы без исходного кода) и анализа нативного кода Mythos показала высокую эффективность. XBOW пришла к выводу, что модель способна выполнять триаж — приоритизацию и фильтрацию — как собственных результатов, так и находок конкурентов, а также разбираться в нестандартных прошивках. Тесты на взаимодействие с визуальным интерфейсом показали, что модель не всегда точно попадает в координаты элементов на экране, но в браузере она практически эффективна при выборе действий: правильно определяет нужный элемент и кликает в нужное место.

Остаётся вопрос стоимости. XBOW отмечает, что Mythos Preview — это не просто очередная модель, а настоящий гигант, но гиганты велики, а размер означает высокую цену. Anthropic заявила, что Mythos будет в пять раз дороже модели Opus. XBOW проверила, можно ли дать более дешёвой модели больше времени и добиться сопоставимой точности, — и ответ оказался положительным. При нормализации по стоимости работы Mythos Preview не выглядит расточительной, если требуется высокая точность, но на бенчмарках XBOW она не стала лучшей в своём классе. При поиске веб-уязвимостей с фиксированным бюджетом токенов Mythos превосходит Opus 4.6, но уступает GPT5.5.

Ключевые результаты тестирования: Mythos демонстрирует впечатляющую эффективность при аудите исходного кода, однако в проверке жизнеспособности обнаруженных эксплойтов её результаты выглядят менее убедительными. Модель склонна к излишней прямолинейности в своих оценках и преувеличивает реальную применимость находок, но при этом отлично справляется с нативным кодом и задачами обратной разработки. XBOW приходит к выводу, что Mythos Preview уверенно идентифицирует потенциальные уязвимости, особенно в исходном коде, и демонстрирует высокие результаты в веб-сфере, работе с нативным кодом и реверс-инжинирингом.

Сенсация в кибербезопасности: Claude Mythos находит уязвимости лучше всех, но проваливается в другом

Поделиться:

Anthropic предложила «красную кнопку» для экстренной остановки опасного ИИ

Долгожданный апгрейд: технология Microsoft Advanced Shader Delivery добралась до видеокарт AMD

0 Комментариев

Оставить комментарий

Категории

Похожие новости

Алиса AI теперь в Поиске: решайте сложные задачи прямо в приложении Яндекса

Низкая себестоимость или банкротство: что ждет металлургию в эпоху кризиса

CommuniGate Pro и InfoWatch объявили о совместной интеграции решений

Популярные новости

Популярные теги

Технологии

Сенсация в кибербезопасности: Claude Mythos находит уязвимости лучше всех, но проваливается в другом

Поделиться:

0 Комментариев

Оставить комментарий

Категории

Похожие новости

Популярные новости

Популярные теги