Аналитика

NVIDIA Blackwell Ultra: новая точность NVFP4 вместо стандартного FP64

Компания NVIDIA раскрыла детали о процессоре Blackwell Ultra — модернизированной и усовершенствованной версии архитектуры NVIDIA Blackwell, анонсированной свыше года назад. Blackwell Ultra сохраняет двухкристальную компоновку с габаритами, укладывающимися в пределы фотолитографической маски, и соединён через интерфейс NVIDIA High-Bandwidth Interface (NV-HBI), обеспечивающий пропускную способность 10 ТБ/с. Кристалл насчитывает 208 миллиардов транзисторов, произведённых по специализированному техпроцессу TSMC 4NP — что в 2,6 раза превосходит показатель NVIDIA Hopper — и с точки зрения программного обеспечения воспринимается как единый ускоритель.

Процессор оснащён 160 потоковыми мультипроцессорами (SM), которые включают 640 тензорных ядер (Tensor Core) пятого поколения, обеспечивающих суммарную производительность 15 Пфлопс при работе с фирменным 4-битным форматом NVFP4 (без использования разрежённости), а также общим кэшем L2 с полностью когерентным доступом к памяти. SM сгруппированы в восемь графических кластеров (GPC).

Источник изображений: NVIDIA

Каждый потоковый мультипроцессор представляет собой независимый вычислительный модуль, содержащий:

  • 128 ядер CUDA для выполнения операций с точностью FP32/INT32/FP16/BF16 и других вычислений.
  • 4 тензорных ядра пятого поколения, оснащённые движком NVIDIA Transformer Engine второго поколения, адаптированным для работы с форматами FP8, FP6 и NVFP4.
  • 256 КБ тензорной памяти (TMEM) для WARP-синхронного хранения промежуточных данных, что способствует эффективному повторному использованию информации и снижению нагрузки на внешнюю память.
  • Специализированные функциональные блоки (SFU) для выполнения трансцендентных вычислений и специальных операций, применяемых в вычислительных ядрах.

С появлением тензорных ядер в архитектуре Volta компания NVIDIA кардинально преобразила потенциал ускорителей для задач глубокого обучения, последовательно наращивая их функционал, точность и параллельные возможности с каждым следующим поколением. Как отмечает NVIDIA, платформа Blackwell (Ultra) поднимает эту технологию на качественно новую ступень благодаря тензорным ядрам пятого поколения и усовершенствованной Transformer Engine второго поколения, что гарантирует повышенную пропускную способность и сокращённые задержки как для стандартных, так и для разреженных вычислений в области искусственного интеллекта.

Обновлённые тензорные ядра тесно связаны с тензорной памятью объёмом 256 Кбайт (TMEM), спроектированной для хранения информации в непосредственной близости от вычислительных модулей. Кроме того, они поддерживают двухпоточные MMA-операции с блочной структурой, в которых сгруппированные SM-модули совместно участвуют в единой MMA-операции, распределяя операнды и минимизируя избыточную нагрузку на память. В итоге это приводит к повышению стабильной пропускной способности, лучшей утилизации памяти, ускоренному обучению и более продуктивному инференсу при работе с компактными пакетами данных и в условиях высокой интерактивности.

Значительный вклад в производительность внёс и новый формат NVFP4 от NVIDIA — 4-битное представление с плавающей запятой, объединяющее микроблочное масштабирование FP8 (E4M3), применяемое к группам из 16 значений, и тензорное масштабирование FP32. Это позволяет аппаратно ускорять процессы квантования с существенно меньшей погрешностью по сравнению с классическим FP4. При этом точность остаётся практически идентичной FP8 (зачастую расхождения не превышают ~1 %), но объём используемой памяти сокращается в 1,8 раза (и до ~3,5 раз в сравнении с FP16). В то же время развитие формата FP64 было практически прекращено.

Как заявляет NVIDIA, NVFP4 предлагает наилучшее сочетание точности, энергоэффективности и производительности для задач ИИ-инференса. «Плотные» вычисления на основе NVFP4 в Blackwell Ultra демонстрируют значительный прирост производительности относительно базового ускорителя Blackwell — с 10 Пфлопс до 15 Пфлопс в формате NVFP4, то есть рост в 1,5 раза или в 7,5 раз по сравнению с архитектурой NVIDIA Hopper. Данное ускорение напрямую способствует масштабированию инференса, позволяя запускать больше параллельных экземпляров моделей, сокращать время отклика и снижать стоимость обработки каждого токена.

В Blackwell Ultra производительность SFU для критически важных инструкций, применяемых в механизме внимания, увеличена вдвое, что даёт возможность выполнять вычисления до двух раз быстрее по сравнению с базовой версией Blackwell. Это усовершенствование ускоряет обработку внимания как в коротких, так и в протяжённых последовательностях, но наиболее заметный эффект проявляется в рассуждающих моделях с обширными контекстными окнами, где этап softmax, определяющий наиболее вероятный токен для последующего решения, может создавать задержки.

Благодаря оптимизации механизма внимания в Blackwell Ultra сокращается время генерации первого токена в интерактивных сценариях, уменьшаются вычислительные расходы за счёт сокращения общего числа операций на запрос и повышается энергетическая эффективность — больше последовательностей на ватт. В комбинации с NVFP4 новые ускорители способствуют улучшению качества многошаговых рассуждений и многомодального вывода.

Blackwell Ultra также оснащены усовершенствованной системой памяти — 288 ГБ HBM3e, что на 50% больше, чем у Blackwell (192 ГБ). Конфигурация включает восемь HBM-модулей и 16 контроллеров с разрядностью 512 бит каждый (суммарная ширина 8192 бит). Пропускная способность сохранилась на прежнем уровне — 8 ТБ/с. Такой значительный объём высокоскоростной памяти позволяет полностью размещать крупные модели (свыше 300 млрд параметров), реже обращаться к системной памяти или накопителям, увеличивать длину контекста и размер KV-кэша.

В области внешних коммуникаций изменений практически нет. Blackwell Ultra по-прежнему в основном использует интерконнект NVLink 5 с пропускной способностью 1,8 ТБ/с (по 900 ГБ/с в каждом направлении) и поддерживает объединение до 576 GPU в пределах одного домена в неблокируемой вычислительной структуре. Хост-интерфейсы представлены PCIe 6.0 x16 (128 ГБ/с в каждом направлении) и NVLink-C2C с когерентной памятью (900 ГБ/с).

Blackwell Ultra даёт возможность строить более масштабные модели, чем Blackwell, и наращивать пропускную способность без потери эффективности. Ускоренное выполнение softmax дополнительно повышает быстродействие реального вывода, увеличивая количество токенов в секунду на пользователя (TPS/пользователь) и одновременно улучшая показатель токенов в секунду на мегаватт (TPS/МВт) в дата-центрах.

Конструктивные новшества повышают энергоэффективность ИИ-вычислений и трансформируют подход к созданию ИИ-инфраструктуры, обеспечивая большее количество моделей, ускоренную обработку запросов и повышенную производительность на мегаватт мощности в сравнении со всеми предыдущими решениями NVIDIA, как сообщает компания.

Монолитный чип NVIDIA Grace Blackwell Ultra интегрирует процессор Grace на архитектуре Arm с парой ускорителей Blackwell Ultra через интерконнект NVLink‑C2C, достигая производительности до 40 Петафлопс в формате NVFP4 с поддержкой разрежённости (до 30 Петафлопс без её учёта), а также предлагает единое адресное пространство памяти ёмкостью 1 Терабайт на базе HBM3E и LPDDR5X. Сетевые адаптеры ConnectX-8 SuperNIC гарантируют сверхскоростное соединение на 800 Гбит/с.

Данный суперчип служит ключевым вычислительным модулем в стоечной платформе GB300 NVL72, где через технологию NVLink 5 объединены 36 чипов Grace Blackwell (совокупная мощность 1,1 Экзафлопс в FP4 без разрежённости). Платформы GB300 также совершили прорыв в управлении электропитанием, используя многоканальные схемы распределения энергии для стабилизации рабочих нагрузок ускорителей.

По заявлению разработчика, архитектура NVIDIA Blackwell Ultra формирует фундамент для построения ИИ-фабрик, позволяя обучать и внедрять интеллектуальные системы с невиданными ранее масштабируемостью и экономичностью. Благодаря прорывной двухкристальной интеграции, поддержке NVFP4, колоссальным объёмам памяти и передовым сетевым решениям, Blackwell Ultra открывает возможности для создания ИИ-приложений, ранее недостижимых с точки зрения вычислительной сложности.

Источник:

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории