Модель Mythos от Anthropic подтвердила свою репутацию лучшего инструмента для поиска уязвимостей в программном обеспечении, однако в других сферах её показатели оказались неоднозначными. Компания XBOW, занимающаяся разработкой ИИ-решений для тестирования безопасности систем, провела серию независимых испытаний Mythos Preview.
Источник изображения: anthropic.com
По данным XBOW, Mythos Preview представляет собой значительный прогресс по сравнению со всеми существующими моделями, вне зависимости от поставщика. Эта модель отлично справляется с выявлением проблем при тестировании на работающей системе с доступом к исходному коду, но менее эффективна при анализе кода в изолированной среде. Ещё два десятилетия назад американский специалист по информатике Гэри Макгроу (Gary McGraw) отмечал, что программные ошибки возникают на пересечении дефектов кода и архитектурных недостатков: архитектурные изъяны невозможно обнаружить, просто просматривая код построчно — для этого необходимо понимание системы на более высоком уровне. XBOW при этом подчёркивает: хотя любая ИИ-модель способна найти что-то интересное, «что-то» не означает «всё».
В плане оценки результатов — способности отличать реальные уязвимости от ложных — Mythos лучше своих предшественников отсеивала ложные срабатывания, но иногда упускала настоящие уязвимости, если доказательства формально не соответствовали её критериям. Наилучшие результаты модель демонстрирует при чётко сформулированных запросах. В области реверс-инжиниринга (восстановления логики программы без исходного кода) и анализа нативного кода Mythos показала высокую эффективность. XBOW пришла к выводу, что модель способна выполнять триаж — приоритизацию и фильтрацию — как собственных результатов, так и находок конкурентов, а также разбираться в нестандартных прошивках. Тесты на взаимодействие с визуальным интерфейсом показали, что модель не всегда точно попадает в координаты элементов на экране, но в браузере она практически эффективна при выборе действий: правильно определяет нужный элемент и кликает в нужное место.
Остаётся вопрос стоимости. XBOW отмечает, что Mythos Preview — это не просто очередная модель, а настоящий гигант, но гиганты велики, а размер означает высокую цену. Anthropic заявила, что Mythos будет в пять раз дороже модели Opus. XBOW проверила, можно ли дать более дешёвой модели больше времени и добиться сопоставимой точности, — и ответ оказался положительным. При нормализации по стоимости работы Mythos Preview не выглядит расточительной, если требуется высокая точность, но на бенчмарках XBOW она не стала лучшей в своём классе. При поиске веб-уязвимостей с фиксированным бюджетом токенов Mythos превосходит Opus 4.6, но уступает GPT5.5.
Ключевые результаты тестирования: Mythos демонстрирует впечатляющую эффективность при аудите исходного кода, однако в проверке жизнеспособности обнаруженных эксплойтов её результаты выглядят менее убедительными. Модель склонна к излишней прямолинейности в своих оценках и преувеличивает реальную применимость находок, но при этом отлично справляется с нативным кодом и задачами обратной разработки. XBOW приходит к выводу, что Mythos Preview уверенно идентифицирует потенциальные уязвимости, особенно в исходном коде, и демонстрирует высокие результаты в веб-сфере, работе с нативным кодом и реверс-инжинирингом.