Компания Amazon Web Services (AWS) разработала способ применения собственных контроллеров Nitro DPU K2v5/6 (EFA) в новейших стоечных платформах NVIDIA GB300 NVL72, которые, по оценкам гиперскейлера, демонстрируют более высокую производительность по сравнению с адаптерами NVIDIA ConnectX-7/8. Поскольку стойки NVIDIA Oberon оснащены компактными шасси высотой 1U, AWS размещает сетевые карты в специализированной стойке JBOK, предназначенной исключительно для сетевого оборудования, сообщает SemiAnalysis.
Основная сложность заключается в том, что в ограниченном пространстве 1U невозможно разместить одновременно девять фирменных адаптеров (8 × EFA + 1 × ENA/EBS). В серверных системах предыдущего поколения GB200 NVL AWS использовала конфигурацию NVL36×2, поскольку только в двухюнитовых узлах было достаточно места для всех сетевых контроллеров. Однако парная компоновка уступает по эффективности оригинальной архитектуре NVL72. Сама NVIDIA не была полностью удовлетворена решениями NVL36. Компания Meta✴, например, распределила систему NVL36×2 на шесть стоек, чтобы обеспечить воздушное охлаждение.
Источник изображения: SemiAnalysis
Для архитектуры Blackwell Ultra AWS выбрала вариант NVL72 с вынесением DPU в отдельную стойку — всего 18 двухюнитовых узлов с девятью сетевыми картами в каждом. Узлы NVIDIA соединяются с ними при помощи активных электрических кабелей (AEC) и портов OSFP-XD для передачи данных по стандарту PCIe 6.0. По заявлениям AWS, её адаптеры эффективнее справляются с нагрузками, чем ConnectX-8 (RoCEv2), хотя это утверждение вызывает дискуссии. В любом случае такой подход позволяет компании снизить зависимость от решений NVIDIA.
Источник изображения: SemiAnalysis
По мнению SemiAnalysis, модернизация GB300 в AWS позволяет исключить единую точку сбоя в эталонной архитектуре NVIDIA — там каждый ускоритель связан лишь с одним сетевым адаптером ConnectX-8, в то время как в решении AWS каждый ускоритель взаимодействует с двумя сетевыми контроллерами.
AWS обладает многолетним опытом создания собственного оборудования для центров обработки данных. Ранее компания совместно с Broadcom занималась разработкой специализированных сетевых коммутаторов. Кроме того, недавно анонсированные инстансы EC2 P6-B200 и P6e-GB200 используют фирменный сетевой стек Elastic Fabric Adapter (EFAv4) на основе собственных контроллеров Nitro, что улучшает обработку сетевых пакетов и сокращает задержки для требовательных приложений.
Источник: