Сегодня Google анонсировала новое поколение процессоров и тензорных ускорителей , представляющих седьмую версию TPU. Как заявляет корпорация, чипы Axion демонстрируют на 50% более высокую производительность и на 60% лучшее энергопотребление по сравнению с современными x86-процессорами, тогда как TPU Ironwood позиционируется как самый мощный и масштабируемый специализированный ИИ-ускоритель в отрасли, став первым разработкой Google, созданной исключительно для выполнения обученных нейросетей (инференса).
Источник изображений: Google
Системы на базе TPU Ironwood будут доступны в двух вариантах комплектации: с 256 или 9216 чипами. Пиковая производительность одного ускорителя достигает 4614 Тфлопс (FP8), а кластер из 9216 чипов при энергозатратах около 10 МВт обеспечивает совокупную мощность 42,5 Эфлопс. Эти значения существенно превышают показатели системы Nvidia GB300 NVL72, которая демонстрирует лишь 0,36 Эфлопс для операций FP8.
Архитектура Ironwood включает усовершенствованный модуль SparseCore, оптимизированный для ускорения ИИ-моделей, применяемых в рекомендательных системах и алгоритмах ранжирования. Обновлённая версия SparseCore в Ironwood поддерживает более разнообразные вычислительные задачи, выходя за пределы классического искусственного интеллекта в финансовые и научно-исследовательские области.
Соединение модулей осуществляется через проприетарную сеть Inter-Chip Interconnect с пропускной способностью 9,6 Тбит/с, а объём памяти HBM3E в конфигурации достигает 1,77 Пбайт, что также превосходит характеристики платформы Nvidia. Допускается объединение ускорителей в кластеры, насчитывающие сотни тысяч TPU.
Данная интегрированная суперкомпьютерная архитектура, названная Google «ИИ-гиперкомпьютер», объединяет вычислительные ресурсы, системы хранения и сетевую инфраструктуру под единым управлением. Для обеспечения отказоустойчивости применяется реконфигурируемая оптическая коммутационная матрица Optical Circuit Switching, мгновенно перенаправляющая потоки данных при аппаратных сбоях для сохранения бесперебойной работы.
Согласно исследованию IDC, этот «суперкомпьютер для искусственного интеллекта» демонстрирует среднюю окупаемость вложений в размере 353% за трёхлетний период, сокращение ИТ-затрат на 28% и рост операционной эффективности на 55%. Ряд организаций уже начали внедрять данную платформу от Google. Компания Anthropic намерена задействовать до миллиона TPU для функционирования и развития линейки моделей Claude, отмечая существенное преимущество в ценовой отдаче относительно производительности. Lightricks приступила к интеграции Ironwood для обучения и поддержки своей мультимодальной платформы LTX-2.
Детальные характеристики универсальных процессоров Axion пока не обнародованы — в частности, отсутствуют данные о рабочих частотах и применяемом технологическом процессе. Известно, что чипы оснащены кэшем второго уровня объёмом 2 МБ на ядро, кэшем третьего уровня 80 МБ, поддерживают память DDR5-5600 МТ/с и архитектуру единого доступа к памяти (UMA).
Axion создан на базе платформы Arm Neoverse v2 и, по заявлениям, превосходит современные x86-процессоры на 50% по производительности и на 60% по энергоэффективности. Как утверждает Google, он также опережает «наиболее производительные общедоступные Arm-решения в облачной среде» на 30%.
Процессоры Axion могут применяться как в серверах для задач ИИ, так и в универсальных системах для разнообразных вычислений. На текущий момент Google предлагает три варианта конфигураций Axion: C4A, N4A и C4A Metal.
C4A предоставляет до 72 виртуальных ЦП, 576 ГБ памяти DDR5 и сетевой интерфейс 100 Гбит/с в комбинации с локальным хранилищем Titanium SSD ёмкостью до 6 ТБ. Данная конфигурация ориентирована на стабильно высокую результативность в разнородных приложениях и является единственной, доступной к заказу в настоящий момент.
N4A разработан для стандартных задач: анализа данных, веб-сервисов и сред разработки, с масштабированием до 64 виртуальных процессоров, 512 ГБ оперативной памяти DDR5 и пропускной способностью сети 50 Гбит/с.
C4A Metal предлагает клиентам полный аппаратный комплекс Axion: до 96 виртуальных ЦП, 768 ГБ памяти DDR5 и сетевую производительность 100 Гбит/с. Решение предназначено для специализированных или лицензионно-ограниченных приложений, а также для разработки под архитектуру ARM.
Процессор Axion расширяет линейку фирменных специализированных микросхем, а TPU Ironwood создаёт базу для соперничества с ведущими ускорителями искусственного интеллекта в отрасли. Серверные системы на платформе Axion и Ironwood оснащены запатентованными контроллерами Titanium, которые берут на себя сетевые функции, задачи защиты данных и операции ввода-вывода, высвобождая ресурсы процессора для оптимизации управления и достижения повышенной эффективности работы.