ОС и софт

Google представила новые ИИ-ускорители TPU Ironwood для суперкомпьютеров

Компания Google сообщила о скором запуске ИИ-ускорителей седьмого поколения TPU v7 Ironwood, созданных для решения сложнейших задач: от подготовки масштабных моделей и продвинутого обучения с подкреплением до высокоскоростного вывода данных и обслуживания моделей с минимальными задержками.

В Google подчеркнули, что современные передовые ИИ-системы, такие как Gemini, Veo, Imagen от Google и Claude от Anthropic, обучаются и функционируют на базе TPU. Многие организации теперь сосредотачиваются не только на обучении моделей, но и на обеспечении быстрого и эффективного взаимодействия с ними. Динамично меняющаяся архитектура моделей, расширение агентных сценариев и почти экспоненциальный рост потребностей в вычислениях знаменуют наступление новой эры инференса.

В частности, ИИ-агенты, которым необходима слаженная координация между универсальными вычислениями и ускорением машинного обучения, открывают новые горизонты для создания специализированных процессоров и оптимизированных системных архитектур. TPU Ironwood предназначен для расширения возможностей в области инференса и агентных вычислений.

Источник изображений: Google

Презентация TPU Ironwood состоялась в апреле текущего года. Согласно данным Google, новое решение демонстрирует десятикратный прирост пиковой производительности относительно TPU v5p и более чем четырёхкратное улучшение производительности на чип в сравнении с TPU v6e (Trillium) как для обучения, так и для инференса, что делает Ironwood наиболее мощным и энергоэффективным специализированным чипом компании на сегодня. Ускорители объединяются в кластеры по 64 TPU в трёхмерной топологии, связанные интерконнектом Inter-Chip Interconnect (ICI) с пропускной способностью 9,6 Тбит/с на соединение.

Компания Google заявила, что на платформе Ironwood возможно формирование кластеров, объединяющих до 9216 процессоров (42,5 эксафлопс при FP8), связанных межчиповой сетью с суммарной пропускной способностью 88,5 Пбит/с и доступом к 1,77 петабайтам общей памяти HBM, что устраняет ограничения при обработке данных даже для наиболее сложных моделей. В корпорации подчеркнули, что сервисы подобного масштаба нуждаются в гарантированной бесперебойной работе. Эту задачу решает технология оптической коммутации (OCS), функционирующая как гибко перестраиваемая инфраструктура. При необходимости увеличения производительности Ironwood позволяет создавать кластеры, насчитывающие сотни тысяч TPU.

Для пользователей TPU-решений компания предоставляет инструмент Cluster Director в среде Google Kubernetes Engine. Это даёт расширенный функционал обслуживания и анализа топологии для интеллектуального распределения ресурсов и построения высоконадёжных кластерных систем.

Для этапов предварительного и пост-обучения внедрены усовершенствования в MaxText — высокопроизводительный фреймворк с открытым кодом для больших языковых моделей, упрощающий интеграцию передовых методик оптимизации обучения и обучения с подкреплением, включая контролируемую тонкую настройку (SFT) и генеративную оптимизацию политики через подкрепление (GRPO) — алгоритм обучения с подкреплением (RL). Также усилена поддержка vLLM, что обеспечивает лёгкий переход с GPU на TPU для задач вывода. Инструмент GKE Inference Gateway способствует сокращению времени до генерации первого токена (TTFT). Сохранена полная совместимость с фреймворками JAX и PyTorch.

Источник:

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории