ОС и софт

NVIDIA доминирует в новом этапе тестов MLPerf Training v5.1

Организация MLCommons представила итоги сравнительного анализа аппаратных конфигураций в рамках тестирования MLPerf Training v5.1. Данный этап отметился беспрецедентным разнообразием заявленных систем. В испытаниях участвовали 65 уникальных комплексов, использующих 12 типов вычислительных ускорителей и разнообразные программные среды. Около 50% решений были многопоточными кластерами — на 86% больше, чем в раунде MLPerf Training 4.1 год назад, при этом они демонстрировали вариативность сетевых топологий.

В раунде MLPerf Training v5.1 приняли участие 20 компаний: AMD, ASUS, Cisco, Dell, Giga Computing, HPE, Krai, Lambda, Lenovo, MangoBoost, MiTAC, Nebius, NVIDIA, Oracle, Quanta Cloud Technology (QCT), Supermicro, Supermicro + MangoBoost, Университет Флориды, Verda (DataCrunch), Wiwynn.

Источник изображений: NVIDIA

Анализ представленных работ показывает растущий интерес к тестам для генеративного искусственного интеллекта: количество submissions для Llama 2 70B LoRa выросло на 24%, а для нового теста Llama 3.1 8B — на 15% в сравнении с заменённым тестом BERT.

Компания NVIDIA сообщила, что её процессоры архитектуры Blackwell продемонстрировали лидерство во всех семи дисциплинах MLPerf Training v5.1, показав наивысшую скорость обучения для крупных языковых моделей, генерации изображений, рекомендательных сервисов, компьютерного зрения и графовых нейросетей.

В NVIDIA отметили, что стали единственным вендором, представившим результаты по всем тестовым категориям — это, согласно заявлению компании, «демонстрирует гибкость программирования ускорителей NVIDIA, а также отлаженность и универсальность программной экосистемы CUDA».

В ходе текущего этапа MLPerf Training впервые была представлена серверная система GB300 NVL72, основанная на ускорителях NVIDIA Blackwell Ultra, которая продемонстрировала наивысшие показатели, подтвердив свою эффективность для ресурсоёмких задач искусственного интеллекта. При обучении модели Llama 3.1 с 40 миллиардами параметров GB300 показал более чем четырёхкратное превосходство над H100 и почти двукратное — над GB200. Кроме того, при дообучении Llama 2 70B восемь таких ускорителей обеспечили пятикратный рост производительности в сравнении с H100.

Как пояснили в NVIDIA, такие достижения стали возможны благодаря усовершенствованной архитектуре Blackwell Ultra, включающей новые тензорные ядра, которые обеспечивают производительность ИИ-вычислений в формате NVFP4 на уровне 15 Петафлопс, удвоенную скорость обработки механизма внимания и 279 Гбайт памяти HBM3e, а также благодаря инновационным методикам обучения, повысившим эффективность вычислений в архитектуре NVFP4. На MLPerf также дебютировала платформа Quantum-X800 InfiniBand с пропускной способностью 800 Гбит/с, объединяющая несколько систем GB300 NVL72 и удвоившая сетевую пропускную способность относительно предыдущего поколения.

По словам представителей компании, «основой выдающихся результатов этого этапа стало применение вычислений в формате NVFP4 — впервые в истории MLPerf Training». NVIDIA реализовала поддержку FP4 для обучения больших языковых моделей на всех уровнях, что позволило удвоить скорость вычислений по сравнению с FP8. Ускоритель NVIDIA Blackwell способен выполнять операции в формате FP4 (включая NVFP4 и другие) с двукратным ускорением относительно FP8, а Blackwell Ultra — с трёхкратным.

На сегодня NVIDIA остаётся единственной платформой, представившей результаты MLPerf Training с использованием вычислений в формате FP4 при строгом соблюдении требований к точности. Эти показатели были достигнуты с применением 5120 ускорителей Blackwell GB200, которые справились с тестом Llama 3.1 405B всего за 10 минут, установив новый рекорд. Это в 2,7 раза быстрее наилучшего результата архитектуры Blackwell, продемонстрированного на предыдущем этапе тестирования.

Компания NVIDIA продемонстрировала рекордные показатели в двух новых испытаниях: Llama 3.1 8B и FLUX.1. Llama 3.1 8B представляет собой компактную языковую модель с выдающимися возможностями, которая пришла на смену BERT-large, обновив набор базовых моделей современной малоразмерной LLM. NVIDIA провела тестирование с применением до 512 ускорителей Blackwell Ultra, завершив испытание за 5,2 минуты. FLUX.1 — это передовая система генерации изображений, заменившая Stable Diffusion v2, причём только платформа NVIDIA представила итоги данного теста. С использованием 1152 ускорителей Blackwell был установлен новый рекорд — 12,5 минут обучения.

Источник:

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории