Новости

AMD делает ставку на точность: ускорители Instinct MI430X получат мощный прирост в FP64-производительности

Изучив недостатки эмуляции вычислений с двойной точностью (FP64) по методу Озаки, специалисты AMD заключили, что на данный момент ничто не может заменить прямое аппаратное выполнение таких операций. Как рассказал изданию HPCwire научный сотрудник компании Николас Малайя (Nicholas Malaya), для сохранения точности в классических задачах моделирования и симуляции AMD планирует значительно увеличить собственную производительность FP64 в ускорителе . Этот чип ляжет в основу суперкомпьютера , запланированного к установке в Национальной лаборатории Ок-Ридж (ORNL) в 2028 году.

Как пояснили Кацухиса Озаки (Katsuhisa Ozaki) и двое его японских коллег, метод Озаки — это перспективный новый подход к эмуляции, предназначенный для выполнения высокоточных матричных умножений на оборудовании с поддержкой INT8/FP8, таком как современные ИИ-ускорители, за счёт многократных вычислений с пониженной точностью.

Однако, как отметил Малайя, существующие версии имеют ряд ограничений, препятствующих их практическому применению. Он выделил две ключевые сложности. Первая заключается в том, что программная реализация не соответствует стандарту IEEE и по сравнению с выполнением кода на реальном оборудовании с FP64. «В ряде случаев это приемлемо, — прокомментировал он. — Но для многих распространённых типов матриц, которые мы изучали, погрешность оказывается весьма значительной.». Вторая проблема состоит в том, что схема Озаки оптимизирована для квадратных матриц. Если в вычислениях используются матрицы другой формы, итоговая производительность оказывается ниже, чем при прямом использовании FP64, добавил Малайя.

 Источник изображения: AMD

Источник изображения: AMD

Более того, высокопроизводительные вычисления (HPC) исторически ориентированы на векторные операции, а не на тензорные или матричные, которые типичны для задач искусственного интеллекта. Положение дел ещё серьёзнее — лишь менее 10% реальных HPC-приложений адаптировали свои коды DGEMM для извлечения выгоды из метода Озаки. «Насколько я знаю, ни Озаки-I, ни Озаки-II, ни какой-либо другой существующий подход не подходят для векторных инструкций, — отмечает Малайя. — Это принципиальный момент, который, на мой взгляд, часто остаётся без внимания». Хотя DGEMM действительно потребляет значительные вычислительные ресурсы, что делает схему Озаки применимой, «она не охватывает 90% задач в области HPC».

AMD планирует реализовать программную эмуляцию метода Озаки на своих процессорах, как сообщил Малайя. «Нет никаких препятствий для этого. Это вопрос программного обеспечения. <…> Можно создать библиотеки, позволяющие гибко переключаться между аппаратными вычислениями и методом Озаки, а также, возможно, оценивать его эффективность», — пояснил он, добавив, что программная эмуляция может рассматриваться как запасной вариант для операций с двойной точностью (FP64). Однако, в конечном счёте, метод Озаки не является полноценной заменой аппаратной поддержке FP64, подчеркнул Малайя, отметив, что такое мнение разделяют и другие специалисты.

 Источник изображения: AMD

Источник изображения: AMD

В настоящий момент компания работает над MI430X — специализированной модификацией ускорителя нового поколения MI450, которая будет обладать существенной производительностью в операциях FP64. Как заявил Малайя, её показатель значительно превысит результат ускорителя , обеспечивающего 78,6 терафлопс. Фактически, это даже меньше, чем у предшествующей модели с её 81,7 терафлопс — в обоих случаях речь идёт как о векторных, так и о матричных вычислениях с двойной точностью.

Тем не менее, все эти чипы — от MI325 до MI430 — демонстрируют более высокую производительность, чем решения NVIDIA. И Hopper (34 терафлопс), и (40 терафлопс) уже уступали в векторных FP64-операциях, но у Hopper хотя бы сохранялись собственные 67 терафлопс в матричных расчётах, тогда как Blackwell в этой области уже перешёл на схему Озаки, достигнув «неаппаратных» 150 терафлопс. О модели , где производительность FP64 снизилась до 1,3 терафлопс, NVIDIA в данном обсуждении предпочитает не упоминать, но обещает, что архитектура обеспечит 33 терафлопс в векторных FP64-расчётах и 200 терафлопс в матричных (также с использованием метода Озаки).

 Источник изображения: NVIDIA

Изображение предоставлено: NVIDIA

В NVIDIA объясняют своё решение не усиливать аппаратные блоки для вычислений с двойной точностью (FP64) тем, что простое наращивание их производительности на практике не приведёт к ускорению научных задач. Реальным ограничением станут возможности регистров, кэш-памяти и высокоскоростной памяти HBM. Архитектура Rubin обеспечит пропускную способность HBM до 22 ТБ/с, что в 2,8 раза превышает показатель Blackwell. Как сообщил Малайя, ускоритель Instinct MI325X предлагает 6 ТБ/с, MI355X — 8 ТБ/с, а ожидаемый MI430X достигнет уже 19,6 ТБ/с.

По мнению Малайи, оптимальной стратегией является сбалансированное развитие как пропускной способности HBM, так и производительности операций с плавающей запятой. «Ключевым параметром здесь является соотношение . Мы считаем, что необходимо придерживаться соотношения, гораздо более близкого к тому, что реализовано в современных решениях, — отметил он. — Для сохранения так называемой арифметической интенсивности на прежнем уровне, рост производительности FP64 должен существенно приближаться к этому соотношению».

 Источник изображения: NVIDIA

Изображение предоставлено: NVIDIA

Учитывая, что AMD планирует увеличить пропускную способность HBM в 2,5 раза от MI355 до MI430X, аналогичный рост производительности FP64 выглядит логичным. Исходя из этого, можно предположить, что MI430X сможет обеспечить производительность FP64 в диапазоне от 192 до 204 терафлопс. Конкретная величина будет зависеть от того, какой чип взять за основу сравнения — более новый MI355 или более производительный MI325, как отмечает HPCwire. Это пока лишь предположения, поскольку точные спецификации будущих чипов компания не раскрыла. Также остаётся неясным, будет ли производительность FP64 одинаковой для векторных и матричных вычислений.

Вычисления с двойной точностью (FP64) для «Миссии Генезис» (), как ранее заявил заместитель министра энергетики США по науке и инновациям Дарио Гил (Darío Gil). Он подчеркнул, что как глава AMD Лиза Су (Lisa Su), так и CEO NVIDIA Дженсен Хуанг (Jensen Huang) подтвердили твёрдую приверженность поддержке формата FP64. «FP64 крайне важен для задач моделирования и симуляции, которые необходимы не только для прогресса в традиционных научных областях, но и для генерации данных, используемых для обучения новых моделей искусственного интеллекта», — добавил Гил.

 Источник изображения: AMD

Источник изображения: AMD

«Необходимо постоянно находить равновесие между объёмом вычислений в форматах FP64 и FP16», — пояснил Малайя. «В AMD уверены, что важно обеспечивать поддержку разнообразных типов данных, исходя из конкретных запросов. Нельзя предположить, что FP64 подойдёт абсолютно для всех задач», — добавил он. По словам Малайи, из этого правила бывают отклонения. Так, ИИ-модели для предсказания структуры белков, например AlphaFold и Openfold, работают с FP32. Даже в классических областях высокопроизводительных вычислений, таких как молекулярная динамика, зачастую не нужна точность FP64.

Однако, как отмечает исследователь, в настоящее время наблюдается существенный неудовлетворённый запрос на вычисления в формате FP64. «Мы полагаем, что в сфере HPC по-прежнему будет востребовано значительное количество операций с FP64, — заявил он. — Существуют алгоритмы, которые целиком зависят от пропускной способности памяти и не требуют столь высокой точности. Но есть и другие, например, в вычислительной химии, которые отличаются высокой арифметической насыщенностью и действительно будут использовать FP64».

Источник:

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории