Созданные в Китае ускорители искусственного интеллекта, использующие логические чиплеты по 14-нанометровой технологии и память DRAM на 18-нанометровом процессе, способны составить конкуренцию чипам Nvidia Blackwell, выпускаемым по 4-нанометровой технологии TSMC. Об этом на отраслевом форуме заявил Вэй Шаоцзюнь (Wei Shaojun), вице-президент Китайской ассоциации полупроводниковой промышленности и профессор Университета Цинхуа, как передаёт DigiTimes.
Источник изображения: AMD
Выступая на международном саммите топ-менеджеров ICC, Вэй Шаоцзюнь подчеркнул, что прорыв в эффективности и производительности станет возможен благодаря передовой технологии трёхмерного стекинга, применяемой при производстве китайских ускорителей.
Ранее Вэй Шаоцзюнь, который называл цели китайской инициативы «Сделано в Китае 2025» невыполнимыми, а затем призывал отказаться от зарубежных ИИ-ускорителей, таких как Nvidia H20, в пользу отечественных аналогов, описал гипотетическое «полностью локализованное решение». Оно предполагает объединение 14-нм логики и 18-нм памяти DRAM с помощью технологии 3D-гибридного соединения. При этом он не представил никаких свидетельств разработки или даже технической осуществимости подобной системы с использованием существующих в Китае технологий.
По словам Вэя, такая архитектура позволит приблизиться к быстродействию 4-нм графических процессоров Nvidia, несмотря на применение более зрелых техпроцессов. Он полагает, что это решение может обеспечить производительность на уровне 120 терафлопс. Также он заявил, что энергопотребление составит лишь около 60 Вт, что, по его оценке, обеспечит более высокую эффективность (2 терафлопса на ватт) в сравнении с процессорами Intel Xeon. Для контекста: ускоритель Nvidia B200 демонстрирует производительность 10 000 NVFP4-терафлопс при мощности 1200 Вт, что равно 8,33 NVFP4-терафлопса на ватт. Модель Nvidia B300 достигает 10,7 NVFP4-терафлопса на ватт, что примерно в пять раз превышает заявленный Вэем показатель для китайского ИИ-ускорителя.
Основными технологиями, которые должны радикально повысить производительность разрабатываемого в Китае ИИ-ускорителя, являются гибридное 3D-соединение (медь-медь и оксидное склеивание), заменяющее припойные контакты прямыми медными соединениями с шагом менее 10 микрометров, а также вычисления вблизи памяти. Гибридное склеивание с шагом менее 10 мкм позволяет создавать от десятков до сотен тысяч вертикальных соединений на квадратный миллиметр, а также формировать микрометровые сигнальные тракты для высокоскоростной передачи данных с минимальной задержкой.
Яркой иллюстрацией технологии гибридной трехмерной сборки служит разработка AMD — 3D V-Cache, которая демонстрирует пропускную способность 2,5 ТБ/с при энергопотреблении ввода-вывода всего 0,05 пДж/бит. Можно предположить, что Вэй ориентируется на сопоставимые параметры в своем проекте. Показатель 2,5 ТБ/с на одно устройство существенно превосходит пропускную способность памяти HBM3E, что потенциально способно совершить переворот в области ИИ-ускорителей, построенных на принципах in-memory computing. Вэй также добавил, что теоретически данная концепция допускает масштабирование до уровня зеттафлопсной производительности, хотя и не конкретизировал сроки и пути достижения таких высот.
Вэй указал на платформу CUDA от Nvidia как на серьезную угрозу не только для предложенной им альтернативы, но и для любых аппаратных решений за пределами экосистемы Nvidia. Причина в том, что тесная интеграция программного обеспечения, моделей и "железа" в рамках единой проприетарной платформы создает значительные барьеры для внедрения сторонних процессоров. Поскольку он рассматривает вычисления в памяти как стратегический путь для усиления конкурентоспособности китайского ИИ-оборудования, любая альтернативная платформа, не следующая этой концепции — включая китайские ИИ-ускорители, такие как серия Huawei Ascend или графические процессоры Biren, — может оказаться в невыгодном положении.