Стартап в сфере ИИ Tensordyne (ранее Recogni) представил платформу Tensordyne Napier (TDN), предназначенную для выполнения ИИ-инференса. Разработка велась совместно с Broadcom и HPE Juniper Networks. Как утверждается, она «объединяет новаторские логарифмические математические алгоритмы для ИИ, тесно интегрированную архитектуру памяти и высокопроизводительный масштабируемый интерконнект, что даёт значительно более высокую пропускную способность, сниженное энергопотребление и улучшенные экономические показатели инфраструктуры для крупномасштабных задач ИИ-инференса».
В Tensordyne заявляют, что инновационный «логарифмический» чип способен одновременно решить проблему скорости и стоимости ИИ-инференса. Вместо масштабных операций умножения в нём применяются упрощённые вычисления на основе сложения, что значительно повышает эффективность на каждый ватт потребляемой энергии. Сумматоры имеют меньшие размеры и обычно потребляют меньше энергии, чем умножители, поэтому их использование освобождает больше полезного пространства для SRAM и обеспечивает лучшую сбалансированность всей системы.
Источник изображений: Tensordyne
Чип насчитывает 138 миллиардов транзисторов и поддерживает обработку данных в форматах NVFP4, FP8 и FP16. В Tensordyne сообщили о производительности 2,1 Пфлопс в режиме плотных вычислений FP8 на один кристалл. Тактовая частота ядра ускорителя достигает 1,33 ГГц, а поддерживающих ядер RISC-V — 1,5 ГГц. В состав чипа входят четыре блока HBM4 (по данным ServeTheHome — HBM3E), каждый объёмом 36 Гбайт (суммарно 144 Гбайт) с пропускной способностью 4,7 Тбайт/с. Кроме того, на чипе размещено 256 Мбайт SRAM с общей пропускной способностью 40 Тбайт/с. Интеграция большого объёма быстрой SRAM с HBM позволила свести к минимуму простои вычислительных циклов и обеспечить эффективную поддержку работы самых крупных моделей в индустрии.
Сооснователь и директор по продуктам Tensordyne Р.К. Ананд (RK Anand) сообщил изданию The Next Platform, что в состав ускорителя входит 48 ядер, объединённых с модулями векторной обработки. Векторный блок также оснащён ALU, однако дополнительно способен задействовать таблицу поиска (LUT) и функционировать в полностью параллельном режиме. В целом предусмотрено чередование операций и управляемый конвейер. Как отметил Ананд, энергопотребление Napier составляет всего 300 Вт против 1200 Вт у NVIDIA B300, что объясняется компактными размерами нового чипа. При этом Ананд не раскрыл, выполнен ли Napier в виде чиплетов или представляет собой монолитный кристалл.
В 1U-узле может размещаться девять микросхем TDN, дополненных 40-ядерным процессором Xeon для управления хостом и выполнения отдельных задач декодирования, а также NVMe-накопителем объёмом 8 Тбайт. Узел оснащён двумя портами QSFP на 200GbE, а на тыльной стороне расположено шесть разъёмов для фирменного интерконнекта TDNLink, предназначенного для объединения 72 чипов TDN. Производительность узла достигает 19 Пфлопс в режиме FP8, при этом доступно 1,3 Тбайт HBM и 2,25 Гбайт SRAM с совокупной пропускной способностью 42 Тбайт/с и 360 Тбайт/с соответственно. Узлы Napier, аналогично NVIDIA NVLink, соединяются через объединительную плату с помощью проприетарного интерконнекта TDNLink. Суперускоритель TDN72 объединяет 72 чипа TDN (восемь узлов), причём задержка TDNLink между чипами составляет менее микросекунды при пропускной способности 1 Тбайт/с.
Модель TDN72 ориентирована на обработку моделей с числом параметров от 10 до 20 трлн, где критическое значение имеют объём памяти и маршрутизация MoE. «Каждый TDN72 включает 320 ядер Xeon и 4608 ядер RISC-V», — заявил сооснователь и вице-президент Tensordyne Жиль Бакхус (Gilles Backhus). «Мы применяем двухуровневую стратегию для работы с CPU. Все задачи, выполняемые непосредственно вблизи вычислительных процессов ИИ в рамках цикла обработки токенов и авторегрессионного цикла LLM, в основном решаются на ядрах RISC-V. Сюда входит маршрутизация MoE, проверка по словарю для отбрасывания определённых токенов и прочее. Остальная обработка данных для инференса осуществляется на процессорах Intel Xeon».
В стандартную стойку Tensordyne Napier высотой 52U помещается четыре модуля TDN72, что обеспечивает 608 Пфлопс (FP8), 42 Тбайт HBM, 74 Гбайт SRAM, 256 Тбайт NVMe SSD, соединение TDNLink со скоростью 275 Тбайт/с и 64 порта 200GbE. При этом энергопотребление такой стойки составляет всего 120 кВт, и она может работать с воздушным охлаждением. Как заявила компания, стойка Tensordyne Napier по сравнению с полноразмерной стойкой NVIDIA NVL72 демонстрирует:
- В 17 раз больше токенов на ватт;
- В 13 раз больше токенов в секунду;
- Дополнительный доход до $33 млн/год на стойку.
Система поддерживает дезагрегированное обслуживание и позволяет запускать модели с многотриллионными параметрами, обеспечивая скорость более 1000 токенов в секунду на одного пользователя. Для достижения аналогичной пропускной способности потребовалось бы как минимум девять стоек NVIDIA Rubin + Groq LPX, отметили в Tensordyne.
изображения (6)
Наиболее трудным аспектом развёртывания платформы, вероятно, станет программное обеспечение. Компания Tensordyne объявила о запуске на Hugging Face центра моделей, включающего собственный SDK, прямую компиляцию моделей под PyTorch/Triton и специализированный eDSL для Python. Стоит подчеркнуть, что одним из ключевых достоинств ускорителей NVIDIA выступает экосистема CUDA — обширная коллекция фреймворков, ядер, средств профилирования, шаблонов для развёртывания и устоявшихся практик разработчиков. Любой новый ИИ-ускоритель обязан предлагать достаточно простое ПО, чтобы клиенты были заинтересованы внедрять его в свои системы.
Источники: