Изучив недостатки эмуляции вычислений двойной точности через метод Озаки, инженеры AMD заключили, что на данный момент ничто не может заменить прямое аппаратное выполнение операций FP64. Как рассказал научный сотрудник AMD Николас Малайя (Nicholas Malaya) изданию HPCwire, для обеспечения необходимой точности в классических задачах моделирования и симуляции компания планирует значительно повысить нативную производительность FP64 в ускорителе Instinct MI430X. Этот чип ляжет в основу суперкомпьютера Discovery, запланированного к установке в Национальной лаборатории Ок-Ридж (ORNL) в 2028 году.
Как пояснили Кацухиса Озаки (Katsuhisa Ozaki) и двое его японских коллег, схема Озаки представляет собой перспективный новый подход к эмуляции, позволяющий проводить высокоточные операции с матрицами на оборудовании, поддерживающем форматы INT8/FP8, — таком как современные ИИ-ускорители, — за счёт многократного повторения вычислений с пониженной точностью.
Нынешние версии метода, Ozaki-I и Ozaki-II, обладают рядом ограничений, препятствующих их практическому применению, отметил Малайя. Он выделил две ключевые сложности. Первая заключается в том, что программная реализация не соответствует стандарту IEEE и не гарантирует идентичных результатов по сравнению с выполнением кода на реальном оборудовании с поддержкой FP64. «В ряде случаев это допустимо, — прокомментировал он. — Однако для многих распространённых типов матриц, которые мы исследовали, погрешность оказывается весьма значительной.». Вторая проблема состоит в ориентации схемы Озаки на квадратные матрицы. Если в вычислениях используются матрицы другой формы, итоговая производительность оказывается ниже, чем при прямом использовании FP64, добавил Малайя.
Источник изображения: AMD
Более того, приложения для высокопроизводительных вычислений (HPC) исторически ориентированы на векторные операции, а не на тензорные или матричные, типичные для задач искусственного интеллекта. Реальность такова, что положение дел ещё сложнее — менее 10% реальных HPC-приложений адаптировали свои коды DGEMM для использования преимуществ метода Озаки. «Насколько я знаю, ни Озаки-I, ни Озаки-II, ни какой-либо другой существующий подход не может быть применён к векторным инструкциям, — отмечает Малайя. — Это принципиальный момент, который, на мой взгляд, часто остаётся без внимания». Действительно, DGEMM потребляет значительные вычислительные ресурсы, что делает схему Озаки применимой, «но она не покрывает 90% задач в области HPC».
AMD планирует реализовать поддержку эмуляции метода Озаки на своих процессорах, как заявил Малайя. «Нет никаких препятствий для этого. Это программное обеспечение. <…> Можно создать библиотеки, позволяющие гибко переключаться между нативными вычислениями и методом Озаки, а также, возможно, оценивать его эффективность», — пояснил он, добавив, что программная эмуляция может рассматриваться как запасной вариант для операций с двойной точностью (FP64). Однако, в конечном счёте, метод Озаки не является полноценной заменой аппаратной реализации FP64, подчеркнул Малайя, отметив, что такое мнение разделяют и другие специалисты.
Источник изображения: AMD
В настоящее время компания работает над MI430X — специализированной версией ускорителя следующего поколения MI450, которая будет обладать существенной производительностью в операциях FP64. По словам Малайи, она будет заметно выше, чем у ускорителя MI355X, обеспечивающего 78,6 терафлопс. Для сравнения, предыдущая модель MI325X демонстрировала 81,7 терафлопс — в обоих случаях речь идёт о векторных и матричных вычислениях с двойной точностью.
В любом случае, все эти чипы — от MI325 до MI430 — превосходят по производительности решения NVIDIA. Как Hopper (34 терафлопс), так и Blackwell (40 терафлопс) уже уступали в векторных FP64-операциях, однако у Hopper хотя бы были нативные 67 терафлопс в матричных вычислениях, тогда как Blackwell в этой области уже перешёл на схему Озаки с «ненативными» 150 терафлопс. О Blackwell Ultra, где производительность FP64 снизилась до 1,3 терафлопс, NVIDIA в данном обсуждении предпочитает не упоминать, но обещает, что Rubin обеспечит 33 терафлопс в векторных FP64-расчётах и 200 терафлопс в матричных (также с использованием метода Озаки).
Изображение предоставлено: NVIDIA
В NVIDIA объясняют своё решение не развивать аппаратные блоки FP64 тем, что простой прирост вычислительной мощности для операций с двойной точностью на практике не приведёт к ускорению научных расчётов, поскольку они будут ограничены пропускной способностью регистров, кэшей и памяти HBM. Архитектура Rubin обеспечит пропускную способность HBM до 22 ТБ/с, что в 2,8 раза превышает показатель Blackwell. Как отметил Малайя, ускоритель Instinct MI325X предлагает 6 ТБ/с, MI355X — 8 ТБ/с, а MI430X достигнет уже 19,6 ТБ/с.
По мнению Малайи, наиболее эффективно синхронно инвестировать как в развитие HBM, так и в производительность операций с плавающей запятой. «По сути, ключевым параметром является соотношение байт на флопс. Мы считаем, что необходимо придерживаться соотношения, гораздо более близкого к тому, что реализовано в современных решениях, — пояснил он. — Чтобы сохранить текущий уровень так называемой арифметической интенсивности, требуется существенно приблизиться к этому балансу при наращивании производительности FP64».
Изображение предоставлено: NVIDIA
Учитывая, что AMD планирует увеличить пропускную способность HBM в 2,5 раза при переходе от MI355X к MI430X, аналогичный рост производительности FP64 выглядит логичным. Исходя из этого, можно приблизительно оценить, что MI430X сможет обеспечить от 192 до 204 Тфлопс для вычислений с двойной точностью — в зависимости от того, какой чип взять за базовый: более новый MI355X или более производительный MI325X. Как сообщает HPCwire, это пока лишь предположение, поскольку компания ещё не раскрыла точные спецификации будущих ускорителей. Кроме того, остаётся неясным, будет ли производительность FP64 одинаковой для векторных и матричных операций.
Вычисления с двойной точностью (FP64) имеют «критически важное» значение для «Миссии Генезис», как ранее заявил заместитель министра энергетики США по науке и инновациям Дарио Гил. Он подчеркнул, что как глава AMD Лиза Су, так и CEO NVIDIA Дженсен Хуанг подтвердили твёрдую приверженность поддержке формата FP64 в будущем. «FP64 играет решающую роль для задач моделирования и симуляции, необходимых не только для прогресса в традиционных научных областях, но и для генерации данных, используемых при обучении новых моделей искусственного интеллекта», — добавил Гил.
Изображение предоставлено: AMD
«Необходимо постоянно находить равновесие между объёмами вычислений в форматах FP64 и FP16», — пояснил Малайя. «По мнению AMD, важно обеспечивать поддержку разнообразных типов данных, исходя из конкретных запросов. Нельзя предполагать, что всем и всегда будет достаточно возможностей FP64», — добавил он. Специалист уточнил, что из этого правила бывают отклонения. В частности, ИИ-модели для предсказания структуры белков, такие как AlphaFold и Openfold, работают с FP32. Даже в классических областях высокопроизводительных вычислений, например, в задачах молекулярной динамики, точность FP64 зачастую не является обязательной.
Однако, как отмечает эксперт, в настоящее время наблюдается существенный неудовлетворённый запрос на вычисления с двойной точностью (FP64). «Мы убеждены, что в сфере HPC по-прежнему будет востребовано значительное количество операций FP64, — заявил он. — Существуют алгоритмы, которые целиком зависят от пропускной способности памяти и не столь требовательны к точности. Но есть и другие — например, коды для вычислительной химии или иные ресурсоёмкие задачи с высокой арифметической интенсивностью, — которые действительно будут активно использовать FP64».
Источник информации: