Крупнейшая в истории NVIDIA покупка — выкуп Groq за 20 миллиардов долларов — уже демонстрирует первые результаты. Компания внедрила архитектурно отличные ИИ-ускорители LPU в свою платформу Vera Rubin, что позволило радикально ускорить процесс логического вывода, сделав его распределённым, а саму платформу — гибридной. Именно LPU призваны обеспечить необходимую минимальную задержку при интерактивном использовании ИИ и высокую скорость обработки обширного контекста в агентных системах. При этом о ранее анонсированных сопроцессорах Rubin CPX в компании теперь предпочитают умалчивать.
Стоечный ускоритель NVIDIA Groq LPX
Платформа LPX снабжает ИИ-фабрику механизмом, заточенным под быструю и стабильную генерацию токенов, тогда как система Vera Rubin NVL72 выполняет роль гибкого универсального решения для обучения и инференса, гарантируя высокую пропускную способность на этапах предварительного заполнения и декодирования, включая работу с длинным контекстом, функционирование механизма внимания и обслуживание высокопараллельных систем в крупном масштабе.
Источник изображений: NVIDIA
Подобная комбинация становится необходимой, поскольку будущее агентных систем требует нового подхода к логическому выводу. Как заявляет NVIDIA, когда скорость генерации приближается к 1000 токенов в секунду (TPS) на пользователя, модели переходят от взаимодействия в темпе человеческой речи к новому уровню. При таких скоростях ИИ-системы получают возможность непрерывно анализировать, моделировать и реагировать, что позволяет им работать не в формате пошагового диалога, а в режиме совместной деятельности в реальном времени. Этот переход также задаёт новые стандарты для мультиагентных систем.
Для эффективного выполнения современных задач необходима инфраструктура, которая гарантирует как высокую скорость обработки выводов модели, так и минимальное время отклика. Комбинация платформы Vera Rubin NVL72 с системой Groq 3 LPX создаёт гибридную структуру, объединяющую мощность масштабной фабрики искусственного интеллекта с ускоренным формированием токенов. Vera Rubin NVL72 в паре с Groq 3 LPX демонстрирует значительно возросшую пропускную способность при повышенной интерактивности — она работает в 35 раз быстрее, чем системы Grace Blackwell NVL72, при нагрузке в 400 транзакций в секунду на одного пользователя.
Используя платформу Vera Rubin, компании могут увеличить доход на мегаватт потребляемой мощности до пяти раз в сравнении с GB200 NVL72, а при интеграции Vera Rubin NVL72 с LPX для наиболее требовательных к скорости и производительным интерактивным задачам — например, для агентного программирования и многоагентных систем — этот показатель может вырасти десятикратно. LPX даёт центрам обработки данных возможность организовать выделенный канал для интерактивных операций вывода с низкой задержкой, работающий параллельно с Vera Rubin NVL72 в рамках единой инфраструктуры.
Стоечный суперускоритель NVIDIA Groq 3 LPX мощностью 160 кВт включает 256 ИИ-чипов Groq 3 (LP30), каждый из которых содержит 96 миллиардов транзисторов. Конструкция состоит из 32 одноюнитовых узлов с жидкостным охлаждением, каждый из которых объединяет восемь ускорителей LPU, x86-процессор, до 128 ГБ оперативной памяти (с возможностью расширения ещё на 256 ГБ) и сетевые компоненты в рамках бескабельной архитектуры MGX, что упрощает монтаж в стойку и обеспечивает тесную интеграцию вычислительных и коммуникационных процессов. Технология межчипового соединения RealScale обеспечивает прямую связь между LPU внутри узла, между узлами и между стойками. На системном уровне LPX спроектирован для применения в сценариях вывода, где издержки на координацию и нестабильность задержек могут быстро стать ощутимыми для конечных пользователей.
ИИ-ускоритель NVIDIA Groq 3 (LP30)
Процессор NVIDIA Groq 3 LPU создан для быстрого и предсказуемого формирования токенов благодаря тесной интеграции вычислительных блоков, памяти и обмена данными под управлением компилятора. Вместо фокуса на достижении пиковой арифметической производительности, LPU ориентирован на детерминированное выполнение команд, высокую пропускную способность встроенной памяти и явное управление перемещением данных. Делая потоки данных явными и программируемыми, LPU позволяет совмещать операции доступа к памяти, вычисления и обмен информацией, не полагаясь на аппаратную эвристику и маскируя задержки.
Ключевой особенностью LPU выступает детерминированность. В то время как в стандартных процессорах динамическое планирование, кэширование и конкуренция за память создают нестабильность во времени выполнения, LPU функционируют без подобных отклонений, и все их вычислительные блоки работают синхронно. Эта предсказуемость обеспечивается благодаря отказу от аппаратных блокировок и передаче всех управляющих решений компилятору. Компилятор применяет плезиохронный протокол C2C, который компенсирует естественные расхождения в синхронизации и согласовывает работу сотен ускорителей LPU, превращая их в единую слаженную систему. Подобная модель выполнения гарантирует:
- Идеальную согласованность между операциями памяти и вычислений.
- Прямое управление длительностью выполнения инструкций.
- Минимизацию дрожания при изменяющейся нагрузке.
- Постоянную задержку выдачи первого токена и стабильное время получения каждого следующего токена, даже при невысокой загрузке.
Как указывает издание Storagereview, по своей архитектуре LPU представляет собой масштабный векторный процессор. Базовой единицей как для вычислений, так и для обмена информацией служит 320-элементный вектор (320 байт для INT8, 640 байт для FP16). Любая операция на кристалле — будь то арифметическое действие, обращение к памяти, преобразование данных или межкристальная передача — выполняется с этими векторами фиксированного размера, что значительно упрощает планирование и синхронизацию.
Кристалл содержит специализированные модули для различных типов операций:
- Матричный модуль (MXM) предназначен для интенсивных операций умножения-накопления в тензорных вычислениях, работая с фиксированными типами данных и обеспечивая предсказуемую пропускную способность. Каждый из восьми чипов Groq 3 LP30 способен выдавать до 1,2 Пфлопс (FP8), что в совокупности даёт до 9,6 Пфлопс (FP8) на узел LPX или до 315 Пфлопс (в соответствии с данными NVIDIA) на одну стойку.
- Векторный модуль (VXM) отвечает за поэлементные арифметические операции, преобразование типов и функции активации. VXM включает массив арифметико-логических устройств, которые компилятор автоматически объединяет в цепочки для выполнения составных операций (например, редукция, затем активация, затем приведение типа) за один такт.
- Коммутационный модуль (SXM) осуществляет структурированное перемещение и преобразование данных, включая перестановку, циклический сдвиг и транспонирование векторов.
Основу LPU составляет модуль MEM, построенный на плоской SRAM-архитектуре памяти — здесь нет кэшей, иерархии или самого понятия промаха. В нём 500 МБ SRAM выполняют роль главного рабочего хранилища с пропускной способностью 150 ТБ/с. Вместо аппаратно управляемых кэшей компилятор и среда выполнения размещают активные данные, включая веса, активации и KV-состояния, непосредственно во встроенной памяти, явно управляя их перемещением. Это снижает неопределённые задержки и способствует стабильно низкой латентности, обеспечивая доступность наиболее критичных к задержкам данных для вычислений. Компилятор работает с физическими адресами банков памяти, точно зная расположение всех данных на протяжении выполнения расчётов.
Для масштабирования в LPU применяются высокоскоростные каналы C2C, созданные для детерминированного обмена данными. Каждый LPU оснащён 96 каналами RealScale C2C со скоростью 112 Гбит/с каждый, что формирует оптимизированную топологию масштабирования LPX с суммарной двунаправленной пропускной способностью 2,5 ТБ/с и предсказуемым временем передачи. Это особенно критично для конвейеров распределённого инференса, где потери в пропускной способности иначе могли бы стать ключевым фактором задержек. Из этих 96 каналов на каждый LPU выделяется по 4 для межстоечных соединений (32 линка на узел, 14 ТБ/с на стойку). Остальные линки задействованы в All-to-All подключениях внутри узла (топология Dragonfly) и между узлами — более 20 ТБ/с на узел и 640 ТБ/с на стойку.
При этом стоит подчеркнуть, что Groq RealScale принципиально отличается от интерконнекта NVLink. Последний обеспечивает кэш-когерентность и объединяет CPU с GPU, тогда как RealScale предлагает программно управляемое, детерминированное, прямое соединение. Сетевые каналы явно контролируются компилятором, то есть отсутствует адаптивная маршрутизация, а пакеты данных не содержат заголовков с указанием источника и назначения. Каналы синхронизированы по фазе и работают с фиксированной задержкой. Для связи с остальными компонентами системы предусмотрены более традиционные подключения 400GbE, а также один SuperNIC ConnectX-9 или DPU BlueField-4.
Инференс
NVIDIA подчеркивает, что процесс логического вывода не является однородной задачей. Этапы предварительной обработки и генерации ответов предъявляют разные требования к аппаратному обеспечению, которые варьируются в зависимости от объёма параллельно обрабатываемой информации, длины контекста и архитектуры модели. Отдельные компоненты, такие как механизмы внимания и разреженные смешанные экспертные слои, могут сильно зависеть от пропускной способности памяти и скорости обмена данными, тогда как другие эффективно масштабируются на оборудовании с высокой пропускной способностью при достаточном уровне параллелизма. Во время интерактивной генерации множество операций работает с минимальными порциями данных, что делает задержку чрезвычайно восприимчивой к простоям, конфликтам ресурсов и нестабильности.
Оптимизировать весь конвейер под один конкретный режим работы нецелесообразно. Гетерогенная система объединяет оба подхода, гарантируя как минимальную задержку в интерактивных сценариях, так и высокую пропускную способность в условиях AI-фабрики. В результате была создана архитектура с двумя вычислительными ядрами: GPU обеспечивают высокую производительность на этапах контекстной предобработки и декодирования с вниманием, а LPU ускоряют критичные к задержке этапы генерации, такие как выполнение FFN/MoE-слоёв, создавая специализированный тракт, заточенный под быстрое создание токенов.
На стадии предварительного заполнения фокус смещён на обработку значительных входных данных и формирование KV-кэша — задача, которая выигрывает от плотных параллельных вычислений и большого объёма памяти. Система Vera Rubin NVL72 эффективно справляется с этой фазой, особенно для задач с длинным контекстом и MoE-моделей, где контекст может быть обширным и динамичным. В свою очередь, декодирование представляет собой циклический процесс для каждого токена, и на разных шагах этого цикла могут возникать различные узкие места.
Графические процессоры берут на себя задачи декодирования, которые максимально используют преимущества высокой пропускной способности и значительных объёмов памяти, такие как полный доступ к накопленному кешу ключей и значений (KV-кеш). В то же время, LPU ускоряют выполнение операций декодирования, критичных к времени отклика, включая FFN/MoE и прочие поэлементные вычисления. Такой подход, часто именуемый фазовым разделением декодирования или разделением внимания и FFN (AFD), разграничивает механизм внимания и FFN (прямые нейронные сети) в процессе декодирования, обмениваясь промежуточными активациями для каждого токена. Это позволяет каждому вычислительному модулю выполнять именно ту часть цикла, для которой он наиболее оптимизирован.
На практике это приводит к тому, что с увеличением размера контекстного окна графические процессоры «впитывают» всё более крупные объёмы накопленных данных и усложняющиеся вычисления с ними, тогда как нагрузка на LPU остаётся неизменной. Таким образом решается основная проблема всех ИИ-ускорителей, полагающихся на SRAM — крайне ограниченный и фиксированный объём памяти. Теперь количество LPU, требуемых для обработки FFN-операций, зависит исключительно от архитектуры модели, а не от длины контекста.
NVIDIA Dynamo
Для практического применения гетерогенного декодирования необходимо программное обеспечение, способное классифицировать запросы, распределять задачи в соответствии с целевыми показателями задержки, перемещать промежуточные активации с минимальными издержками и обеспечивать стабильную итоговую задержку при высокой и нестабильной нагрузке. NVIDIA Dynamo, как заявляет компания, предоставляет необходимый уровень оркестрации, координируя обработку запросов и процесс декодирования.
Dynamo направляет данные на графические процессоры для этапа предзаполнения, где обрабатывается большой контекст и формируется KV-кеш. В фазе декодирования Dynamo управляет циклом AFD: накопленный KV-кеш обрабатывается, промежуточные активации передаются на LPU для выполнения FFN/MoE, а полученные результаты возвращаются на GPU для продолжения генерации токенов. В итоге создаётся единый слаженный конвейер обработки вместо двух разобщённых систем.
Dynamo также реализует маршрутизацию с учётом состояния KV-кеша (запросы направляются на рабочие процессы, где уже имеется соответствующий кеш), планирование на основе целевых значений задержки (чтобы интерактивные сессии не оказывались в длинных очередях) и управление передачей данных. Благодаря этому Dynamo помогает предотвращать образование длинных очередей для интерактивных сеансов, снижает разброс задержек между клиентами и поддерживает стабильную итоговую задержку при изменении уровня параллелизма и характера запросов.
Спекулятивное декодирование приобретает всё большее значение как способ снижения задержек при выводе больших языковых моделей. В этом методе компактная черновая модель заранее создаёт несколько предполагаемых токенов, а основная, более мощная модель одновременно проверяет их корректность. Если предсказания совпадают, за один проход формируется сразу несколько токенов, что заметно повышает фактическую скорость генерации и уменьшает время отклика.
В подобной схеме LPX отлично справляется с ролью черновой модели. Детерминированная архитектура выполнения и высокая пропускная способность встроенной памяти SRAM позволяют быстро генерировать токены-черновики — это даёт черновой модели опережать проверочную, работающую на графическом процессоре. Такое распределение задач делает возможным спекулятивное декодирование на разнородных вычислителях, вместо того чтобы выполнять и черновую генерацию, и верификацию на одном устройстве.
Источники информации: