Аналитика

AMD EPYC Turin: до 192 ядер Zen 5c для нового уровня производительности серверов

Компания AMD впервые раскрыла достоинства чиплетной архитектуры ещё на примере процессоров EPYC первого поколения (Naples), но в последующих сериях однородная структура уступила место гибридной, где для операций ввода-вывода выделен специализированный чиплет.

Эта схема применялась в моделях Rome, Milan, Genoa и Bergamo, а теперь настал момент оценить нововведения в недавно представленных EPYC 9005 (Turin) — достаточно ли их для сохранения лидерства в сегменте многопроцессорных серверных систем.

Источник: AMD

Ключевым изменением стало внедрение в линейку EPYC пятого поколения архитектуры Zen, ранее уже опробованной в потребительских процессорах Ryzen. Как отмечается, в Zen 5 значительно повышена эффективность — прирост производительности на такт (IPC) достиг около 17%. Это стало результатом глубокой переработки микроархитектуры, хотя изменения носят скорее эволюционный характер.

Ядро Zen 5 обзавелось усовершенствованным блоком предсказания переходов, универсальным планировщиком, а модули выборки и декодирования команд были разбиты на два кластера для улучшения многопоточности (интересно сопоставить это с подходом Intel, склоняющейся к полному отказу от SMT).

Были ускорены и увеличены кеши первого уровня, расширены таблицы трансляции адресов, а вычислительные блоки модернизированы за счёт поддержки новых инструкций. В частности, Zen 5 получила полноценную реализацию AVX-512 с настоящей 512-битной обработкой данных.

Теперь сосредоточимся на новинках линейки EPYC 9005. Лидерство Intel Xeon 6 (Granite Rapids и Sierra Forest) по плотности ядер оказалось скоротечным: AMD снова вырвалась вперёд благодаря трём ключевым факторам: +50% к количеству ядер, +25% к рассеиваемой мощности и переход на архитектуру Zen 5/5c при полной совместимости с текущей инфраструктурой.

Аналогично предыдущему поколению EPYC (Genoa и Bergamo), свежие процессоры Turin применяют сокет SP5 (LGA-6096), поддерживающий 12-канальную организацию памяти и 128 линий PCI Express 5.0. В двухпроцессорных конфигурациях материнских плат определённая часть этих линий отводится для межчипового соединения.

Любопытно, что на сей раз для высокоплотной модификации не вводится отдельное название: версии EPYC 9005 действительно различаются компоновкой CCD-чиплетов с ядрами Zen 5 и Zen 5c, а также имеют различные идентификаторы моделей (00-0Fh и 10h-1Fh), однако кодовое имя используют общее, несмотря на встречающееся обозначение Turin Dense.

Ранее опубликованная информация о 16 восьмиядерных чиплетах для стандартной версии и 12 шестнадцатиядерных чиплетах для высокоплотной модификации Turin получила подтверждение. Чиплеты действительно объединены в группы по четыре и три блока (квадранта) соответственно.

Переход чиплетов на техпроцессы TSMC 4 и 3 нм позволил достичь очередного витка роста числа ядер. Высокоплотная модификация Turin даже превзошла рубеж в 128 ядер, что является беспрецедентным достижением для x86-архитектуры.

Архитектура вычислительного комплекса CCX имеет принципиальные отличия: фактически CCX представляет собой общий сегмент кеша третьего уровня, который в версиях на Zen 5 и Zen 5c идентичен по объёму и составляет 32 МБ. Таким образом, каждое ядро Zen5c в теории обладает уменьшенной долей кеш-памяти (2 МБ вместо 4 МБ), что является компромиссом для достижения более компактного размещения компонентов.

Модуль ввода-вывода IOD остаётся единым, но претерпел значительные усовершенствования для взаимодействия с увеличенным количеством вычислительных чиплетов CCD. Соединение между ними организовано через интерфейсы GMI3, функционирующие на тактовой частоте 1,8 ГГц. Их производительность удвоена по сравнению с предшествующей версией GMI2, применявшейся в линейке процессоров EPYC 7003.

Существует два режима функционирования: GMI3-Narrow для систем с 12 и 16 чиплетами и GMI3-Wide для конфигураций с восемью активными CCD (в последнем случае пропускная способность между чиплетами и модулем ввода-вывода увеличивается в два раза). Четыре канала xGMI могут задействоваться для межпроцессорного взаимодействия в двухсокетных системах. Обновлённый IOD предоставляет расширенные возможности по перераспределению линий SerDes и назначению им специализированных задач.

Модуль ввода-вывода обеспечивает платформе Turin работу с 128 линиями PCI Express 5.0 в однопроцессорной конфигурации и до 160 линий — в двухпроцессорной. Четыре канала x16 могут функционировать как 64 линии стандарта CXL 2.0 (Type 1, 2, 3), а до 32 линий ввода-вывода способны работать в качестве портов SATA. Данный интерфейс постепенно утрачивает востребованность, и его реализация в процессорах AMD преимущественно служит задачам сохранения обратной совместимости в рамках платформы.

Компания AMD также уделила особое внимание оптимизации работы подсистем ввода-вывода, осознавая критическую важность коммуникационных каналов между центральным процессором и разнообразными акселераторами в эпоху искусственного интеллекта и больших языковых моделей. Процессоры EPYC 9005 поддерживают прямой доступ к памяти и одноранговые соединения, параллельно обеспечивая защиту данных: реализовано сквозное шифрование трафика PCIe в рамках технологии SEV-SNP.

Отдельного внимания заслуживает технология SDCI, позволяющая периферийным устройствам записывать информацию напрямую в кеш-память, минуя оперативную память, что снижает нагрузку на память и потенциально повышает производительность обмена данными между процессором и специализированными ускорителями.

В процессорах Xeon 6 компания Intel значительно превзошла AMD в характеристиках подсистемы памяти: даже модели Sierra Forest поддерживают DDR5-6400 (5200 в конфигурации 2DPC), а Granite Rapids совместимы с современными модулями MRDIMM DDR5-8800, работая с 12 каналами. Между тем серверные процессоры AMD EPYC обеспечивали максимальную поддержку DDR5-4800, несмотря на аналогичное число каналов.

Однако выход процессоров Turin восстанавливает конкурентный баланс: сохраняя 12 каналов памяти, платформа теперь работает с DDR5-6000, а для специализированных решений AMD намерена разрешить поддержку DDR5-6400. Экзотические форматы памяти, такие как MCRDIMM/MRDIMM, текущее поколение EPYC 9005 не поддерживает. Вместо этого компания собирается интегрировать совместимость с новым стандартом памяти в будущие версии EPYC после его официального утверждения организацией JEDEC.

Помимо повышенных частот, способных самостоятельно обеспечить 20–25 % рост пропускной способности, присутствуют и другие улучшения: новые контроллеры памяти демонстрируют повышенную эффективность, поддерживают модули с коррекцией ошибок x80 и x72, обладают функцией повторного чтения UECC и совместимы с 3DS RDIMM, позволяя достигать суммарного объёма 6 Тбайт на процессор.

Пиковая пропускная способность достигает 576 Гбайт/с, что превышает показатель NVIDIA Grace (72 ядра, 500 Гбайт/с), но уступает сдвоенному Grace Superchip (144 ядра, 1 Тбайт/с). При этом задержки памяти практически не изменились, оставаясь на уровне около 110 нс, как и у контроллеров предыдущего поколения EPYC с модулями DDR5-4800.

Как отмечалось ранее, процессоры EPYC 9005 обеспечивают полную совместимость с CXL 2.0 для всех трёх категорий устройств, однако основной акцент сделан на работу с устройствами Type 3 в роли модулей расширения оперативной памяти. Реализована поддержка иерархических уровней, объединение CXL-устройств в единый NUMA-домен, механизмы QoS с распределением пропускной способности между DRAM и CXL-памятью и другие функции. Компания AMD стремилась достичь максимальной производительности CXL при минимальных задержках, однако реальную эффективность этих улучшений в сравнении, например, с Xeon Granite Rapids, продемонстрируют только практические испытания.

Говоря о NUMA, важно подчеркнуть, что EPYC 9005 способны функционировать в различных режимах, определяемых параметром NUMA Nodes Per Socket (NPS) в BIOS. При значении 0 в двухпроцессорной системе формируется монолитная конфигурация с единым доменом NUMA на всю систему. В этом случае память работает в режиме чередования как единое адресное пространство. Оба процессора получают равнодоступный доступ ко всей памяти и всем физически подсоединённым устройствам PCIe/CXL.

Значение 1 создаёт два домена, 2 разделяет каждый процессор на два домена, а 4 превращает каждый «квадрант» процессора в самостоятельный NUMA-домен, включающий 4 CCD для Zen 5 и по 3 CCD для Zen 5c. Выбор оптимальной конфигурации зависит от рабочих задач и особенностей используемого программного обеспечения.

Отдельного внимания заслуживает расширенный комплекс функций обеспечения надёжности и отказоустойчивости (RAS). К уже существующим в предыдущем поколении EPYC возможностям добавились удалённое управление ошибками через выделенный канал и автоматическая замена неисправных ячеек DRAM на резервные. Перечень поддерживаемых функций RAS отличается значительной широтой.

В противовес Intel, AMD выпустила единовременно 27 модификаций EPYC 9005, предлагающих от 8 до 192 вычислительных ядер. Сразу подчеркнём, что переход на современные технологические нормы и оптимизированная архитектура благотворно отразились на частотных характеристиках линейки: тогда как прежние поколения редко преодолевали рубеж 4 ГГц в режиме турбо, для EPYC 9005 такие показатели стали стандартом.

Исключение составляют лишь версии с ядрами Zen 5c, однако даже они демонстрируют частоту до 3,7 ГГц при тепловыделении 320–500 Вт. Важно отметить, что столь высокий TDP потребовал модернизации систем питания материнских плат, поскольку ранее предельное значение не превышало 400 Вт. Как и прежде, в ассортименте сохранились процессоры для однопроцессорных конфигураций, маркированные литерой «Р» в названии.

Модели с индексом «F» обладают расширенным частотным диапазоном: нижняя граница начинается от 3,1 ГГц, а пиковые значения приближаются к 5 ГГц. Эти процессоры также получили максимальный объём кэша третьего уровня. Совокупность данных характеристик делает EPYC 9005F идеальным решением для задач с поядерным лицензированием программного обеспечения.

В открытых источниках уже появились первые тесты серверных процессоров AMD: эксперты портала Phoronix, например, протестировали три новейшие модели — EPYC 9755 (128 ядер Zen 5, турбо-частота 4,1 ГГц), 9575F (64 ядра Zen 5, турбо-частота 5 ГГц) и 9965 (192 ядра Zen 5c, турбо-частота 3,7 ГГц). Результаты поражают: комбинация архитектуры Zen 5 с увеличенными частотами обеспечила новинкам AMD лидерские позиции в подавляющем большинстве тестовых дисциплин.

 Источник: Phoronix

Источник: Phoronix

В некоторых тестах, таких как OpenSSL, процессор Turin Dense (EPYC 9965) продемонстрировал выдающиеся результаты, превосходя Intel Xeon 6700E не только по числу ядер (192 против 144), но и благодаря тому, что каждое ядро представляет собой полноценную реализацию Zen 5, а не упрощённый вариант, как в случае с E-ядрами Intel. В итоге три лидирующие позиции заняли решения от AMD, и только на четвёртое место смогла подняться система с Xeon 6980P, использующая скоростные модули MRDIMM-8800. Та же система с обычной памятью DDR5-6400 показала себя достойно лишь в сравнении с одним процессором EPYC 9755. Двухпроцессорная конфигурация на EPYC 9755 опередила аналогичную платформу на Granite Rapids в среднем на 40 %.

Высокоплотный EPYC 9965 обогнал двухпроцессорную сборку на основе флагманских EPYC 9754 Bergamo на 45 %, несмотря на меньшее число ядер (192 против 256). Это стало возможным благодаря новой архитектуре и значительному росту тактовых частот. Хотя энергопотребление новинок AMD не столь впечатляет, как у Intel Xeon 6700E (Sierra Forest), оно ненамного выше, а EPYC 9755, несмотря на тепловой пакет в 500 Вт, оказался эффективнее Xeon 6980P. Его пиковое энергопотребление действительно достигло 500 Вт, тогда как флагман Intel в максимуме потреблял почти 550 Вт.

При этом Intel уступила даже в тех областях, где традиционно доминировала — теперь у AMD также имеется полноценная поддержка AVX-512, а также 192-ядерный аналог 144-ядерного Xeon 6700E. Затраты на переход с процессоров EPYC четвёртого поколения на пятое могут быть сравнительно небольшими. В большинстве случаев достаточно обновить BIOS и заменить сами чипы. Производители серверного оборудования с энтузиазмом восприняли новинки AMD, и, судя по всему, доля компании на серверном рынке продолжит увеличиваться.

Среди текущих конкурентных преимуществ Intel можно выделить лишь специализированные ускорительные модули и совместимость с матричными математическими расширениями AMX. В отдельных случаях, таких как телекоммуникационные серверы, это позволит Xeon сохранить свои позиции, однако в большинстве рабочих сценариев процессоры EPYC Turin демонстрируют значительно более впечатляющие результаты. К тому же, новые серверные чипы от AMD обладают существенно более привлекательной ценой по сравнению с предложениями Intel.

Первоисточник:

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории