AMD анонсировала модель Instinct MI350P с интерфейсом PCIe — это двухслотовая FHFL-карта, предназначенная для стандартных серверов с воздушным охлаждением. MI350P создана для локального выполнения инференса с использованием уже имеющейся инфраструктуры питания, охлаждения и серверных стоек ЦОД предприятий. В AMD отметили, что такие новинки, позволяющие устанавливать до 8 штук в один корпус, «отлично подходят для инференса небольших, средних и крупных ИИ-моделей, а также для конвейеров RAG».
Это первая PCIe-карта Instinct, выпущенная AMD за последние четыре года, после появления модели Instinct MI210. 600-ваттный чип MI350P по сути представляет собой половину MI350X (четыре XCD). У MI350P PCIe вдвое меньше вычислительных блоков — 128, что соответствует 8192 потоковым процессорам и 512 матричным ядрам. Пиковая частота достигает 2200 МГц. Кроме того, вместо двух кристаллов IOD здесь установлен только один, произведённый по 6-нм техпроцессу TSMC. Сам ускоритель выполнен по 3-нм технологии TSMC, как и MI350X. Весь чип насчитывает 73 миллиарда транзисторов.
Источник изображений: AMD
Ускоритель оборудован 128 Мбайт кеш-памяти Infinity Cache и 144 Гбайт памяти HBM3E с 4096-битной шиной, обеспечивающей пропускную способность 4 Тбайт/с. Для сравнения, MI350X оснащён 288 Гбайт памяти HBM3E с 8192-битной шиной. На плате имеется 16-контактный разъём для дополнительного питания. TBP можно установить на уровне 450 Вт вместо стандартных 600 Вт, что приведёт к снижению производительности и ещё большему уменьшению энергопотребления. Интерфейс — PCIe 5.0 x16. Чуть позже будет добавлена поддержка SR-IOV и возможность разделения чипа на два или четыре vGPU.
Производительность ускорителя Instinct MI350P в режиме MXFP4 достигает 2,3 Пфлопс при расчётах, а максимальная пиковая мощность составляет 4,6 Пфлопс. Как отметила компания, это рекордный показатель среди PCIe-ускорителей корпоративного уровня. Поддерживается работа с разрежёнными данными в форматах FP16, BF16, INT8 и OCP-FP8, что даёт возможность ускорять процессы обработки информации. Векторная и матричная производительность в FP64 достигает 36 Тфлопс. Также ускоритель оснащён декодерами HEVC/H.265, AVC/h.264, VP9 и AV1, а также кодеками (M)JPEG.
Главный минус новинки — отсутствие прямого соединения между ускорителями через Infinity Fabric. Вся коммуникация внутри одного узла осуществляется через шину PCIe, поэтому установка восьми MI350P в одном сервере позволяет эффективно обслуживать до восьми отдельных моделей (объёмом до 200–250 миллиардов параметров), а не одну крупную, которая не умещается в памяти одного ускорителя. NVIDIA попыталась частично решить эту задачу, выпустив для своих PCIe-ускорителей плату с адаптерами ConnectX-8 SuperNIC, оснащёнными встроенными коммутаторами PCIe 6.0.
Сообщается, что Instinct MI350P уже доступны у различных партнёров компании. Они предлагают полностью открытую экосистему и программный стек Enterprise Ready AI с поддержкой ROCm. AMD заявила, что её эталонный открытый пакет AMD Enterprise AI предоставляется партнёрам без каких-либо лицензионных отчислений. Это обеспечивает высокую прозрачность кода и способствует снижению операционных расходов. В сочетании с картами Instinct MI350P и решениями от партнёров данный стек позволяет компаниям быстро развёртывать локальные системы, избегая постоянных затрат на токены, подчёркивает AMD.
Источники: