Компания NVIDIA анонсировала управляемую платформу Fleet Intelligence, которая предназначена для наблюдения за состоянием масштабных кластеров ускорителей, задействованных в инфраструктуре искусственного интеллекта. Данный сервис предоставляется бесплатно для клиентов, эксплуатирующих продукты NVIDIA на базе ускорителей серий Hopper, Blackwell, а также Vera Rubin. NVIDIA представляет эту платформу как обособленный уровень телеметрии и мониторинга, дающий возможность контролировать работу в гетерогенных инфраструктурных средах вне зависимости от используемого стека оркестрации или планировщика задач.
В основе работы платформы лежит «облегчённый» агент, встраиваемый в хост-систему. Он передаёт телеметрические данные с ИИ-ускорителей в облачный сервис Fleet Intelligence, функционирующий в рамках экосистемы платформы NGC (NVIDIA GPU Cloud). Данный агент использует ряд технологий NVIDIA, среди которых служба мониторинга ускорителей GPUd, инструмент для управления и диагностики чипов DCGM (NVIDIA Data Center GPU Manager), а также средства проверки целостности оборудования и программного обеспечения NVIDIA Attestation SDK.
Кроме того, компания опубликовала исходный код агента Fleet Intelligence на GitHub, что даёт операторам ИИ-инфраструктуры возможность самостоятельно проанализировать механизмы сбора телеметрии. Fleet Intelligence собирает информацию об уровне загрузки ускорителей, пропускной способности памяти, энергопотреблении системы, состоянии интерконнектов NVLink, температурных показателях, ошибках ECC, а также о различных параметрах аппаратного обеспечения. Это позволяет операторам дата-центров своевременно выявлять недоиспользованные ресурсы и ошибки, минимизируя время простоев крупных ИИ-кластеров.
Источник изображений: NVIDIA
Среди ключевых особенностей данной платформы выделяются функции проверки целостности и сертификации, реализованные с применением технологий защищённых вычислений NVIDIA Confidential Computing. Fleet Intelligence выполняет криптографическую верификацию прошивок ИИ-ускорителей и контролирует целостность рабочей среды, опираясь на корневые сертификаты доверия NVIDIA, а также на сервис удалённой аттестации оборудования NRAS (NVIDIA Remote Attestation Service). Платформа способна удостовериться, что ускорители функционируют с одобренной прошивкой, и использует манифесты целостности Reference Integrity Manifests, привязанные к конкретным версиям vBIOS.
Как отмечает NVIDIA, при создании Fleet Intelligence был использован опыт работы с облачными платформами NVIDIA DGX Cloud, которые задействовали сотни тысяч ИИ-ускорителей. Среди корпоративных клиентов, получивших ранний доступ к платформе, — компании Lambda и Iren, обе предоставляли свои отзывы в процессе разработки. Запуск Fleet Intelligence демонстрирует, что устремления NVIDIA выходят далеко за рамки простого создания ИИ-ускорителей: компания развивает программное обеспечение и инструменты управления для ИИ-фабрик. Это дополнение к уже существующему стеку решений компании, включающему системы DGX, интерконнекты NVLink, сетевые продукты Spectrum-X, платформу оркестрации Mission Control и средства для защищённых вычислений.
Внедрение масштабной телеметрии и предиктивной аналитики отражает растущую потребность гиперскейлеров и корпоративных клиентов в максимально эффективном использовании ресурсов ускорителей. Кроме того, появление платформы свидетельствует об усилении конкуренции на рынке систем мониторинга и эксплуатации ИИ-инфраструктуры. Облачные операторы и другие компании, включая AMD, Intel и прочих, разрабатывают собственные решения для телеметрии, диагностики и управления крупными ИИ-кластерами. Способность NVIDIA интегрировать аппаратную телеметрию, проверку надёжности прошивок и операционную аналитику непосредственно в инфраструктурный стек укрепляет позиции компании как вертикально интегрированного поставщика ИИ-инфраструктуры.
Источник: