ОС и софт

AWS и NVIDIA объединяют силы: представлены ИИ-ускорители нового поколения

AWS разрабатывает процессоры Graviton5 на архитектуре Arm, которые будут работать в паре с ИИ-ускорителями Trainium4, оснащёнными интерконнектом NVLink Fusion, фирменными адаптерами EFA и DPU Nitro 6 с движком Nitro Isolation Engine. Ключевым же аспектом является то, что все эти компоненты будут интегрированы в стойки формата NVIDIA MGX.

Amazon и NVIDIA сообщили о стратегическом сотрудничестве, в результате которого ускорители Trainium4 получат шину NVIDIA NVLink Fusion шестого поколения (предположительно, с дуплексной пропускной способностью 3,6 ТБ/с). Это позволит создать стоечную платформу следующего поколения, что примечательно, на основе архитектуры NVIDIA MGX, переданной в Open Compute Project. Интрига заключается в том, что AWS долгое время практически не участвовала в OCP, самостоятельно разрабатывая стойки, их компоненты (включая системы охлаждения) и общую архитектуру центров обработки данных для ИИ. Даже в текущем поколении стоек с GB300 NVL72 компания не использовала референсный дизайн от NVIDIA.

Со своей стороны, NVIDIA подчёркивает, что гиперскейлерам чрезвычайно сложно создавать собственные решения — циклы разработки стоечной архитектуры требуют много времени, ведь помимо проектирования специализированных ИИ-чипов необходимо решать задачи вертикального и горизонтального масштабирования, организации интерконнектов, систем хранения, а также конструирования самой стойки, включая лотки, охлаждение, питание и программное обеспечение.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Кроме того, управление цепочками поставок сопряжено со значительными трудностями, поскольку необходимо координировать работу десятков поставщиков, отвечающих за десятки тысяч компонентов. Даже единичная задержка поставки или замена одной детали способна поставить под угрозу весь проект. Платформа NVIDIA если и не решает эти проблемы полностью, то, по крайней мере, смягчает их, предлагая готовые стандартизированные решения, которые могут предоставлять множество участников рынка.

Источник изображения: NVIDIA

Согласно заявлению NVIDIA, технология NVLink представляет собой уже апробированное и повсеместно внедрённое решение, что выгодно отличает её от альтернативных методов масштабирования сетей. Применяемая совместно со специализированным программным обеспечением, коммутационная система NVLink способна повысить эффективность и экономическую отдачу от процессов AI-инференса вплоть до трёхкратного уровня, формируя единый домен из 72 ускорителей. Как отмечает компания, клиенты, выбравшие NVLink Fusion, получают возможность гибко использовать ресурсы платформы — каждый её элемент позволяет оперативно наращивать мощности для ресурсоёмких задач инференса и обучения агентных AI-моделей.

Что касается новых ускорителей Trainium4, то их производительность в операциях с точностью FP4 обещает быть в шесть раз выше, чем у Trainium3, а при работе с FP8 — в три раза. Кроме того, пропускная способность памяти увеличится в четыре раза. Тем не менее, на текущем этапе собственные разработки Amazon не всегда способны на равных конкурировать с решениями от NVIDIA.

Источник:

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории