Аналитика

NVIDIA Rubin: суперкомпьютер из пяти стоек для нового поколения ИИ

NVIDIA анонсировала NVIDIA Vera Rubin POD — вычислительный комплекс, состоящий из пяти специализированных стоечных платформ, созданных на базе архитектуры NVIDIA MGX третьего поколения для эпохи агентного искусственного интеллекта.

Как подчеркнула компания, NVIDIA Vera Rubin, разработанная в ходе совместного проектирования семи чипов, которые охватывают вычисления, сети и хранение данных, является наиболее сложной платформой для ИИ. Готовый кластер Vera Rubin POD включает 40 стоек, содержит 1,2 квадриллиона транзисторов, около 20 тысяч кристаллов NVIDIA и 1152 графических процессора NVIDIA Rubin. Его производительность в задачах ИИ достигает 60 эксафлопс, а совокупная пропускная способность межсоединений для вертикального масштабирования составляет приблизительно 10 петабайт в секунду. Пять различных стоечных платформ, входящих в состав NVIDIA Vera Rubin POD, формируют единую высокоинтегрированную систему.

Источник изображений: NVIDIA

Кластер POD построен на основе 19-дюймовых стоек стандарта NVIDIA MGX (OCP) третьего поколения, которые поддерживаются экосистемой из более чем 80 партнёров с глобальными цепочками поставок. При этом каждая стойка NVIDIA MGX имеет унифицированные с точки зрения центра обработки данных параметры электропитания, охлаждения и механические характеристики, что облегчает процесс развёртывания.

Компания NVIDIA предлагает две разновидности стоек MGX с медными межсоединениями. Модель MGX NVL задействует технологию NVIDIA NVLink; например, конфигурация Vera Rubin NVL72 объединяет 72 ускорителя Rubin и 36 процессоров Vera, а восемь таких суперускорителей NVL72 формируют единый домен NVL576 благодаря двухуровневой сети NVLink 6 (обеспечивающей 3,6 ТБ/с на чип), с возможностью дальнейшего горизонтального масштабирования через Ethernet или InfiniBand (включая распределение между несколькими дата-центрами). Новая стойка MGX ETL поддерживает сторонние чипы и в качестве межсоединения применяет Ethernet на платформе Spectrum-X либо, как в решении Groq 3 LPU, фирменную технологию RealScale, однако для горизонтального масштабирования также используется Ethernet.

Стойка Vera Rubin NVL72

По заявлению NVIDIA, Vera Rubin NVL72 создана для эффективного выполнения четырёх основных типов задач искусственного интеллекта: предобучения моделей, постобработки, высоконагруженного вывода (TTS) и работы масштабируемых агентов. Этот суперускоритель может быть настроен для решения сложных многомодальных проблем с применением смешанных экспертных систем (MoE) и ресурсоёмких этапов обработки контекста в ходе ИИ-вывода. Новая платформа демонстрирует до четырёхкратного превосходства в скорости обучения и до десятикратного — в энергоэффективности вывода на ватт, а также снижает стоимость обработки токена в десять раз по сравнению с архитектурой NVIDIA Blackwell.

Стойка NVIDIA Vera Rubin NVL72 содержит почти вдвое больше транзисторов, чем GB200 NVL72. В её состав входят 18 вычислительных узлов, которые, помимо 72 ускорителей NVIDIA и 36 процессоров Vera, включают восемь адаптеров ConnectX-9 SuperNIC и один DPU BlueField-4. Также стойка оснащена девятью коммутационными узлами NVLink 6 — каждый обеспечивает 3,6 ТБ/с (по 1,8 ТБ/с в каждом направлении) на ускоритель, что в сумме даёт агрегированную пропускную способность около 260 ТБ/с. Как и в предыдущих версиях, в задней части размещена магистраль NVLink в виде картриджей, содержащих порядка 5 тысяч медных соединений общей протяжённостью свыше 3 километров.

В целом стойка насчитывает около 1,3 миллиона компонентов, почти 1300 микросхем и весит приблизительно 1800 кг (не каждый дата-центр способен выдержать подобную нагрузку). Высокоинтегрированная конструкция избавляет от необходимости работы с кабелями и шлангами, что ускоряет развёртывание и обслуживание кластера до 20 раз — подготовка одного узла теперь занимает пять минут вместо двух часов. Кроме того, узлы стали значительно ближе по концепции к блейд-серверам.

Система Vera Rubin NVL72 обзавелась расширенными возможностями обеспечения отказоустойчивости (RAS) на уровне целой стойки. К примеру, коммутаторы NVLink теперь можно переводить в сервисный режим и заменять без остановки работы всей стойки. Архитектура гарантирует непрерывное функционирование даже при выходе из строя нескольких коммутационных модулей. В Rubin постоянно выполняются фоновые проверки состояния, не прерывающие операции, а процессоры Vera оснащены встроенными средствами самодиагностики. Переход на модули памяти SOCAMM также сделан целенаправленно — это даёт возможность оперативно заменять неисправные модули памяти.

Стойка Groq LPX

Стойка NVIDIA Groq 3 LPX, содержащая 256 ускорителей LPU, функционирует в связке с Vera Rubin NVL72. Благодаря комбинации высокоскоростных LPU, работающих исключительно с SRAM, и ускорителей Rubin с объёмной памятью HBM, система обеспечивает минимальные задержки и высокую пропускную способность при обработке длинных контекстов. Совместное использование Vera Rubin NVL72 и LPX позволяет добиться до 35-кратного увеличения количества обрабатываемых токенов и до 10-кратного роста потенциальной доходности для моделей с триллионом параметров в сравнении с архитектурой Blackwell. Конструкция стойки LPX в целом аналогична NVL72. Для внутристоечного соединения RealScale также применяется медная шина, размещённая в задней части (механически картриджи идентичны используемым в NVLink). При масштабировании до нескольких стоек LPX в пределах дата-центра прямые соединения между чипами сохраняются и между стойками, что позволяет объединять несколько LPX в единый домен.

Стойка Vera

Стойка Vera способна объединять до 256 процессоров и одновременно обслуживать свыше 22,5 тысяч RL-сред или изолированных сред для агентов, максимально расширяя возможности для тестирования, выполнения задач и анализа результатов, полученных со стоек Vera Rubin NVL72 и LPX. Стойки на базе процессоров NVIDIA Vera CPU служат фундаментом для создания крупномасштабных агентных систем искусственного интеллекта.

Стойка STX

Стойка BlueField-4 STX представляет собой специализированное хранилище для задач искусственного интеллекта, созданное на основе DPU BlueField-4 и сети Spectrum-X Ethernet. В её состав входит платформа хранения контекстной памяти NVIDIA CMX. Это принципиально новый класс инфраструктуры, который обеспечивает плавное расширение памяти ускорителей за счёт перемещения KV-кеша на выделенный высокоскоростной уровень хранения. Система CMX специально создана для хранения и управления огромными массивами контекстных данных, рассматривая временный контекст инференса как собственный для ИИ тип данных, доступный для повторного использования в различных сессиях и агентами. В результате достигается увеличение скорости генерации токенов до пяти раз и рост энергоэффективности также до пяти раз в сравнении с классическими подходами к хранению.

Стойки SPX

Сетевые стойки Spectrum-6 SPX, объединяющие компоненты POD в единый суперкомпьютерный комплекс, предназначены для ускорения как внутреннего (east-west), так и внешнего (north-south) трафика внутри и между центрами обработки данных. В них применяются коммутаторы Spectrum-X Ethernet или Quantum-X800 InfiniBand. Коммутатор Spectrum-6 с пропускной способностью 102,4 Тбит/с предоставляет 512 портов на 200 Гбит/с, а интегрированная кремниевая фотоника (CPO) позволяет обойтись без съёмных трансиверов, гарантируя максимальную энергоэффективность и надёжность, а также минимальные задержки и джиттер.

Стойки MGX третьего поколения

Основой для всех этих стоек служит открытая, стандартизированная архитектура MGX. Первая серийная система стоечного масштаба (Oberon) была представлена одновременно с архитектурой NVIDIA Blackwell в 2024 году, после чего её спецификации были переданы в Open Compute Project (OCP). NVIDIA сформировала экосистему, включающую более 80 международных партнёров, что создало высокоэффективную и географически диверсифицированную цепочку поставок, обладающую опытом вывода на рынок стоечных ИИ-систем. Поставки системы NVIDIA GB300 NVL72 стартовали в 2025 году, а выход NVIDIA Vera Rubin NVL72 запланирован на вторую половину 2026 года.

Для плавного расширения вычислительного кластера сверх масштаба NVL576 потребуется Kyber — новая стойка MGX NVL следующего поколения, поддерживающая до 144 ускорителей. Kyber обеспечит масштабирование до гигантской суперкомпьютерной системы NVL1152 со сквозными соединениями All-to-All на основе оптического интерконнекта. Эта платформа заложит фундамент для следующего этапа экстремального масштабирования вычислений искусственного интеллекта с использованием архитектуры NVIDIA Feynman, однако впервые Kyber будет представлена в составе систем Vera Rubin Ultra NVL144, а также NVL72 и NVL576.

NVIDIA Kyber NVL1152

Система соединений

Стойка MGX 3 оснащена высокомодульной панелью коммутации — она поддерживает до четырёх предустановленных и протестированных картриджей с медными кабелями, которые объединяют узлы в единую систему. Механический форм-фактор стойки идентичен как для версии MGX NVL, так и для MGX ETL. Это же относится к системам электропитания и охлаждения.

Во всех стойках MGX применяется технология динамического управления электропитанием, которое направляется к компонентам, наиболее в нём нуждающимся. Энергия перераспределяется между процессорами, графическими ускорителями и коммутаторами NVLink, что позволяет обеспечить максимальную энергоэффективность работы оборудования в стойке и повысить производительность на ватт потребляемой мощности.

Энергоснабжение

Согласно оценкам NVIDIA, статическое распределение мощности (Max-P) ведёт к неэффективному использованию энергии. В реальных условиях ИИ-кластеры работают не с постоянной пиковой нагрузкой, а с изменяющимися рабочими профилями, которые требуют разного уровня энергопотребления. Динамическое распределение мощности и поддержка режима работы ниже максимальной (Max-Q) позволяют оптимизировать пропускную способность ИИ-задач на уровне центра обработки данных. В таком случае каждой стойке в зависимости от текущих задач динамически выделяется необходимый объём энергии. По расчётам NVIDIA, это позволяет на практике развернуть до 30 % больше ускорителей при сохранении общего уровня энергопотребления ЦОД.

Ключевым элементом энергоснабжения также является стабилизация нагрузки на энергосистемы дата-центров и общую электросеть. Процессы обучения моделей и их последующего применения вызывают существенные скачки энергопотребления. Для компенсации этих перепадов NVIDIA внедряет на уровне серверных стоек накопители энергии на конденсаторной основе. В моменты пиковой нагрузки конденсатор отдаёт накопленную энергию, поддерживая стабильное или плавно растущее потребление от внешней сети. В периоды снижения активности конденсатор пополняет заряд, а нагрузка на сеть при этом остаётся постоянной или уменьшается.

Впервые подобная технология была реализована в системе GB300 NVL72. В платформе Vera Rubin NVL72 применяется интеллектуальная система стабилизации энергопотребления (Intelligent Power Smoothing), которая оснащена накопителями энергии в шесть раз большей ёмкости на уровне стойки (400 Дж на GPU) по сравнению с ранними версиями. Эта новая замкнутая система позволяет графическим процессорам непрерывно отслеживать уровень заряда конденсаторов для оптимизации энергопрофиля. В результате удаётся значительно сгладить колебания, снизить пиковые токовые нагрузки до 25 % и отказаться от громоздких аккумуляторных батарей, предназначенных для защиты от серьёзных перепадов напряжения.

Охлаждение

Все стойки MGX разработаны для работы с системой охлаждения горячей водой, имеющей температуру на входе +45 °C. Это позволяет дата-центрам, изначально спроектированным под жидкостное охлаждение, выполнить переход без необходимости перестройки инфраструктуры. Подобное решение даёт возможность многим ЦОД в различных климатических регионах использовать для охлаждения атмосферный воздух и сухие градирни. Режим свободного охлаждения не только способствует снижению коэффициента PUE, но и высвобождает ресурсы для увеличения вычислительных мощностей. Как отмечает компания, экономия электроэнергии в дата-центре может быть направлена на установку до 10 % дополнительных стоек Vera Rubin NVL72 в рамках существующего энергобюджета.

Стойки MGX совместимы с существующей инфраструктурой жидкостного охлаждения в ЦОД, применяемой для более ранних моделей. В обновлённой третьей версии MGX используются модернизированные внутренние коллекторы для лотков, коллекторы UQD08 и силовые шины с жидкостным охлаждением, рассчитанные на ток до 5000 А. Выбор теплоносителя определяется предпочтениями заказчика и возможностями дата-центра; часто применяется деионизированная вода или раствор на основе пропиленгликоля (PG25), который в замкнутом контуре может функционировать до 10 лет при минимальном обслуживании системы.

Стойки MGX ETL

В то время как стойки MGX NVL предлагают масштабируемые вычислительные домены, для задач агентного ИИ необходимы специализированные узлы, обеспечивающие сверхнизкую задержку при инференсе, изолированные процессорные ресурсы и ускоренную контекстную память для KV-кеша. Именно эту роль выполняют стойки MGX ETL, которые по умолчанию оснащаются сетью Ethernet Spectrum-X, но также поддерживают другие варианты межчипового соединения (C2C), аналогичные LPX. Внутристоечная магистраль в них, как и в MGX NVL, реализована в виде предварительно интегрированных и протестированных медных кабельных картриджей.

Стойки MGX ETL сохраняют тот же форм-фактор и конструктивные особенности, что и MGX NVL, и предназначены для работы в идентичных условиях по механике, электропитанию и охлаждению. Обе платформы используют общие ключевые компоненты: стойки, шасси, лотки, кабельные картриджи, коллекторы жидкостного охлаждения, быстроразъёмные соединения, силовые шины (стандартные и с жидкостным охлаждением), опорные кронштейны, боковые направляющие, силовые полки, поддоны для сбора жидкости, ручки и другие элементы.

Платформа MGX ETL со Spectrum-X станет основой для стоек Vera и BlueField-4 STX в составе вычислительного кластера Vera Rubin POD. Эти же стойки могут использоваться для систем HGX Rubin NVL8 или иных XPU-архитектур — с поддержкой до 256 чипов на стойку и более. В данной конфигурации коммутационные узлы (на базе Spectrum-6) размещаются в центральной части стойки. Порты на задней панели соединяются с медной магистралью, а 32 OSFP-корзины на лицевой стороне обеспечивают оптическое подключение к остальным элементам POD. В MGX ETL применяется топология, распределяющая соединения 200GbE между несколькими коммутаторами, что гарантирует полную связанность «каждый с каждым» (All-to-All) между узлами внутри стойки без увеличения количества сетевых уровней.

NVIDIA DSX

Для работы ИИ-фабрик, основанных на Vera Rubin, корпорация представляет платформу DSX. DSX предоставляет типовую архитектуру ИИ-фабрик, охватывающую всю платформу комплексно — от отдельных процессоров до сетевой инфраструктуры. Это решение помогает достичь максимальной энергоэффективности, отказоустойчивости, масштабируемости и быстродействия кластеров, ускорить их внедрение и снизить эксплуатационные расходы.

DSX объединяет чипы, системы, программные библиотеки, интерфейсы API и глобальную партнёрскую сеть в целостную архитектуру, которая глубоко интегрирует вычислительные мощности, сети, системы хранения, электропитание, охлаждение и управление всеми элементами ИИ-фабрики. Это позволяет участникам экосистемы быстро разрабатывать, внедрять и наращивать мощности дата-центров для ИИ гигаваттного масштаба. Референсный проект NVIDIA Vera Rubin DSX и модель NVIDIA Omniverse DSX для цифровых двойников ИИ-фабрик создают единую основу для построения и эксплуатации таких ЦОД, что, по словам NVIDIA, ведёт к существенному росту производительности, экономической выгоде и энергосбережению.

Заключение

В Vera Rubin POD компания вышла на новый уровень интеграции компонентов. С одной стороны, это упрощает развёртывание и обслуживание платформы. С другой — ограничивает возможности кастомизации, что вряд ли обрадует гиперскейлеров, то есть ключевых заказчиков NVIDIA, а также может влиять на надёжность: несмотря на принятые меры, выход из строя отдельного элемента не всегда позволяет заменить только его, а не весь модуль или узел, что особенно критично в составе кластера.

Однако позицию NVIDIA можно понять. Для дальнейшего роста эффективности требуются всё более вертикально интегрированные и масштабируемые платформы, спроектированные с учётом слаженного взаимодействия растущего числа компонентов. При этом увеличение плотности и энергопотребления стоек предъявляет всё более строгие требования к их конструкции, надёжности и безопасности, так что излишняя свобода в адаптации может обернуться проблемами.

Похоже, отказ от этой архитектурной концепции уже невозможен. Дженсен Хуанг подчеркнул, что в области инференса произошёл ключевой сдвиг — потребность в генерации токенов стремительно увеличивается, и отрасль активно возводит специализированные фабрики искусственного интеллекта. Согласно испытаниям SemiAnalysis InferenceMax, стоечные решения NVIDIA демонстрируют 50-кратное превосходство в производительности на ватт и снижают стоимость обработки токена в 35 раз (сравнение GB300 NVL72 с H200), что непосредственно способствует росту выручки и рентабельности предприятий.

Источник:

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории