Компания Tenstorrent анонсировала вычислительную платформу Galaxy Blackhole, построенную на базе ускорителей Blackhole с архитектурой RISC-V. Это решение позиционируется как системная платформа для ИИ, способная соперничать с аналогами благодаря устойчивой производительности инференса, быстрому доступу к памяти и масштабируемой сети — трём ключевым аспектам, которые сегодня всё чаще определяют эффективность внедрения искусственного интеллекта на практике, отмечает Forbes.
6U-сервер Tensorrent Galaxy Blackhole с воздушным охлаждением оснащён 32 ИИ-ускорителями Blackhole, обеспечивающими совокупную производительность 23 Пфлопс в режиме FP8. В состав системы входят 6,2 Гбайт SRAM (с общей пропускной способностью 2,9 Пбайт/с) и 1 Тбайт GDDR6 (суммарно 16 Тбайт/с). Для высокоскоростного соединения между узлами при горизонтальном масштабировании используются порты 800GbE — до 56 портов на систему с общей пропускной способностью 11,2 Тбайт/с (в дуплексном режиме).
Цена системы Tensorrent Galaxy Blackhole составляет $110 тыс. Восьмичиповые решения NVIDIA DGX будут обладать большей производительностью, однако их стоимость будет в три-пять раз выше, сообщает The Register. Базовый суперкластер Galaxy Supercluster стоимостью $440 тыс. включает четыре системы Blackhole. При этом архитектура Tenstorrent позволяет масштабироваться до 32 узлов с 1024 ускорителями. Mesh-сеть Tenstorrent не ограничивается одним узлом. Как и кластеры TPU от Google или Trainium2 от Amazon, её можно расширить для работы с более крупными моделями, увеличения пропускной способности или повышения интерактивности, добавляя новые узлы и настраивая параллелизм тензоров и конвейеров.
Источник изображений: Tenstorrent
По информации Tenstorrent, их четырёхузловые суперкластеры Blackhole Galaxy Supercluster способны обработать запрос из 100 тыс. токенов — что соответствует 166 страницам текста — менее чем за четыре секунды для DeepSeek V3. Компания отметила, что кластеры Galaxy Blackhole могут генерировать видео быстрее реального времени, а также обеспечивать высокую скорость генерации токенов для LLM. Демонстрационные версии систем Tenstorrent предлагают два режима: стандартный, с генерацией текста на комфортной для чтения скорости, и режим Blitz, который обеспечивает максимально быструю обработку данных, подходящую для таких задач, как генерация кода и агентный ИИ.
В режиме Blitz модель MoE DeepSeek-671B демонстрирует «до 350 токенов в секунду на пользователя при времени получения первого токена менее 4 секунд», заявила компания. Ресурс EE Times протестировал этот режим за несколько дней до официального запуска, зафиксировав 255 токенов в секунду на пользователя для коротких запросов в стиле чат-бота. Данный режим поддерживает пакетную обработку от 8 до 64 запросов и длину контекста до 128 тыс. токенов. Он работает на 16 серверах Galaxy (512 чипов) с использованием конвейерного параллелизма на этапе декодирования.
Компания подчеркнула, что её системы не требуют дезагрегации. «Мы можем выполнять и [предварительное заполнение, и декодирование] на одном узле, — сообщил генеральный директор Tenstorrent Джим Келлер (Jim Keller) изданию EE Times. — Мы создаём большой кластер, на котором можно запускать предварительное заполнение и декодирование LLM, генерацию видео, агентный ИИ… мы не специализируемся на чём-то одном. У нас много чипов, большой объём SRAM, но все чипы имеют DRAM, и все они тесно связаны между собой, поэтому наша платформа гораздо более универсальна».
Источник: