ОС и софт

AWS пошла на компромисс в дизайне GB300 NVL72 ради независимости от NVIDIA

Компания Amazon Web Services (AWS) разработала способ применения собственных контроллеров Nitro DPU K2v5/6 (EFA) в новейших стоечных платформах NVIDIA GB300 NVL72, которые, по оценкам гиперскейлера, демонстрируют более высокую производительность по сравнению с адаптерами NVIDIA ConnectX-7/8. Поскольку стойки NVIDIA Oberon оснащены компактными шасси высотой 1U, AWS размещает сетевые карты в специализированной стойке JBOK, предназначенной исключительно для сетевого оборудования, сообщает SemiAnalysis.

Основная сложность заключается в том, что в ограниченном пространстве 1U невозможно разместить одновременно девять фирменных адаптеров (8 × EFA + 1 × ENA/EBS). В серверных системах предыдущего поколения GB200 NVL AWS использовала конфигурацию NVL36×2, поскольку только в двухюнитовых узлах было достаточно места для всех сетевых контроллеров. Однако парная компоновка уступает по эффективности оригинальной архитектуре NVL72. Сама NVIDIA не была полностью удовлетворена решениями NVL36. Компания Meta, например, распределила систему NVL36×2 на шесть стоек, чтобы обеспечить воздушное охлаждение.

Источник изображения: SemiAnalysis

Для архитектуры Blackwell Ultra AWS выбрала вариант NVL72 с вынесением DPU в отдельную стойку — всего 18 двухюнитовых узлов с девятью сетевыми картами в каждом. Узлы NVIDIA соединяются с ними при помощи активных электрических кабелей (AEC) и портов OSFP-XD для передачи данных по стандарту PCIe 6.0. По заявлениям AWS, её адаптеры эффективнее справляются с нагрузками, чем ConnectX-8 (RoCEv2), хотя это утверждение вызывает дискуссии. В любом случае такой подход позволяет компании снизить зависимость от решений NVIDIA.

Источник изображения: SemiAnalysis

По мнению SemiAnalysis, модернизация GB300 в AWS позволяет исключить единую точку сбоя в эталонной архитектуре NVIDIA — там каждый ускоритель связан лишь с одним сетевым адаптером ConnectX-8, в то время как в решении AWS каждый ускоритель взаимодействует с двумя сетевыми контроллерами.

AWS обладает многолетним опытом создания собственного оборудования для центров обработки данных. Ранее компания совместно с Broadcom занималась разработкой специализированных сетевых коммутаторов. Кроме того, недавно анонсированные инстансы EC2 P6-B200 и P6e-GB200 используют фирменный сетевой стек Elastic Fabric Adapter (EFAv4) на основе собственных контроллеров Nitro, что улучшает обработку сетевых пакетов и сокращает задержки для требовательных приложений.

Источник:

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории