Компания NVIDIA сообщила о представлении новой платформы Rubin, которая станет преемницей архитектуры Blackwell Ultra. В заявлении подчёркивается, что платформа Rubin включает в себя пять ключевых технологических новшеств: новейшие версии интерконнекта NVIDIA NVLink, Transformer Engine, Confidential Computing и RAS Engine, а также процессор NVIDIA Vera. Любопытно, что NVIDIA вновь перешла к обозначению систем по числу суперчипов (NVL72), отказавшись от подсчёта по ускорителям (NVL144), как планировалось ранее.
Благодаря глубокой совместной оптимизации аппаратного и программного обеспечения, система NVIDIA Vera Rubin позволяет снизить стоимость обработки токенов при инференсе в десять раз, а для обучения моделей MoE — сократить число требуемых ускорителей в четыре раза по сравнению с платформой NVIDIA Blackwell. Коммутационные решения NVIDIA Spectrum-X Ethernet Photonics обеспечивают пятикратный рост энергоэффективности и повышают надёжность работы.
Источник изображений: NVIDIA
В основу платформы Rubin легли шесть компонентов: Arm-процессор Vera, ускоритель Rubin, коммутатор NVLink 6, адаптер ConnectX-9 SuperNIC, DPU BlueField-4 и Ethernet-коммутатор NVIDIA Spectrum-6. Ускорители Rubin первоначально появятся в двух конфигурациях. Первая — это стоечная система DGX Vera Rubin NVL72, содержащая 72 ускорителя Rubin и 36 процессоров Vera, а также NVLink 6, ConnectX-9 SuperNIC и BlueField-4. Вторая — платформа DGX/HGX Rubin NVL8 на архитектуре x86. Обе версии будут совместимы с кластерами NVIDIA DGX SuperPod, как отмечает издание CRN.
По заявлению NVIDIA, процессор Vera, созданный для агентного искусственного интеллекта, демонстрирует наивысшую энергоэффективность среди решений для масштабных AI-фабрик. Его архитектура включает 88 специализированных ядер Armv9.2 Olympus, поддерживающих 176 потоков благодаря фирменной пространственной многопоточности NVIDIA, оснащена 1,5 ТБ системной памяти SOCAMM LPDDR5x (пропускная способность 1,2 ТБ/с), функциями конфиденциальных вычислений и высокоскоростным соединением NVLink-C2C (дуплексная скорость 1,8 ТБ/с).
Благодаря аппаратному адаптивному сжатию данных, NVIDIA Rubin способен достигать производительности до 50 Петафлопс (NVFP4) при выполнении выводов, что впятеро превышает показатели Blackwell. В режиме обучения он обеспечивает до 35 Петафлопс (NVFP4), что в 3,5 раза быстрее предыдущего поколения. Память HBM4 объёмом 288 ГБ обладает пропускной способностью 22 ТБ/с, что в 2,8 раза выше, а скорость соединения NVLink для одного ускорителя удвоена — до 3,6 ТБ/с (в дуплексе).
Корпорация также уточнила, что система Vera Rubin NVL72 располагает 54 ТБ памяти LPDDR5x, что в 2,5 раза больше, чем у Blackwell, и 20,7 ТБ памяти HBM4, что на половину превышает объём у предшественника. Совокупная пропускная способность HBM4 достигает 1,6 Петабайт/с, увеличившись в 2,8 раза, а скорость межсоединений составляет 260 ТБ/с — вдвое выше, чем у платформы Blackwell NVL72, и «превосходит общую пропускную способность интернета». Ориентировочное энергопотребление оценивается в диапазоне от 190 до 230 кВт на стойку.
В NVIDIA подчеркнули, что Vera Rubin NVL72 представляет собой первую стоечную платформу с поддержкой конфиденциальных вычислений, гарантирующую защиту данных на уровне доменов CPU, GPU и соединений NVLink. Коммутатор NVLink 6 с жидкостным охлаждением, использующий 400G-модули SerDes, обеспечивает каждому GPU пропускную способность 3,6 ТБ/с для взаимодействия между всеми графическими процессорами, суммарную пропускную способность 28,8 ТБ/с и вычислительную мощность 14,4 Терафлопс внутри сети в формате FP8.
Несмотря на то, что NVIDIA объявила о запуске Rubin в «полномасштабное производство», аналогичные решения от партнёров станут доступны лишь во второй половине текущего года. В числе ключевых мировых лабораторий искусственного интеллекта, облачных провайдеров, производителей вычислительных систем и стартапов, которые планируют внедрить Rubin, компания указала Amazon Web Services (AWS), Anthropic, Black Forest Labs, Cisco, Cohere, CoreWeave, Cursor, Dell Technologies, Google, Harvey, HPE, Lambda, Lenovo, Meta✴, Microsoft, Mistral AI, Nebius, Nscale, OpenAI, OpenEvidence, Oracle Cloud Infrastructure (OCI), Perplexity, Runway, Supermicro, Thinking Machines Lab и xAI.
Лаборатории ИИ, включая Anthropic, Black Forest, Cohere, Cursor, Harvey, Meta✴, Mistral AI, OpenAI, OpenEvidence, Perplexity, Runway, Thinking Machines Lab и xAI, рассматривают платформу NVIDIA Rubin как основу для обучения более масштабных и производительных моделей, а также для обслуживания мультимодальных систем с расширенным контекстом — с меньшими задержками и затратами в сравнении с предыдущими поколениями ускорителей. Партнёры в области программного обеспечения для инфраструктуры и хранения данных — AIC, Canonical, Cloudian, DDN, Dell, HPE, Hitachi Vantara, IBM, NetApp, Nutanix, Pure Storage, Supermicro, SUSE, VAST Data и WEKA — сотрудничают с NVIDIA в создании платформ нового поколения для инфраструктуры Rubin.
Учитывая, что рабочие нагрузки агентного ИИ создают огромные массивы контекстных данных, NVIDIA также представила новую платформу для хранения контекста вывода — NVIDIA Inference Context Memory Storage Platform. Это принципиально новый класс инфраструктуры хранения, разработанный для масштабирования контекста при выполнении логических выводов.
По имеющимся данным, система на основе BlueField-4 позволяет эффективно распределять и повторно использовать данные KV-кеша во всей инфраструктуре искусственного интеллекта, что ускоряет время отклика и увеличивает пропускную способность, а также гарантирует предсказуемое и энергосберегающее масштабирование агентного ИИ.
Как отметил Дион Харрис (Dion Harris), старший директор NVIDIA по высокопроизводительным вычислениям и решениям для ИИ-инфраструктуры, новая платформа демонстрирует до пятикратного превосходства в количестве токенов в секунду, пятикратного улучшения производительности на доллар затрат и пятикратного роста энергоэффективности по сравнению с обычными сетевыми хранилищами для данных контекста инференса.
Источник: