В последних числах октября компания NextSilicon представила Maverick-2 — интеллектуальный ускоритель вычислений (Intelligent Compute Accelerator, ICA), о котором впервые сообщили год назад. Данный процессор уже интегрирован в суперкомпьютер Vanguard-II в Сандийских национальных лабораториях (SNL) при Министерстве энергетики США, а также применяется несколькими заказчиками. Как отмечает CEO NextSilicon Элад Раз, организации, работающие в области научных расчётов и высокопроизводительных вычислений, сталкиваются с ограничениями CPU и GPU, вынуждающими идти на уступки, однако архитектура Maverick позволяет преодолеть эти трудности.
Согласно заявлениям NextSilicon, современные массовые процессоры «зажаты» в рамках архитектуры фон Неймана, созданной десятилетия назад, где существенная доля ресурсов отводится на вспомогательные функции — прогнозирование переходов, неупорядоченное выполнение и прочее, а не на вычислительные модули. В то же время графические процессоры демонстрируют повышенную параллельную производительность, но для их эффективного применения необходимы специализированные платформы разработки (например, CUDA), управление сложными системами памяти, согласованностью кэшей и другими аспектами. Специализированные чипы (ASIC), созданные под определённые задачи искусственного интеллекта, обеспечивают отличную скорость и энергоэффективность, однако их проектирование сопряжено со значительными затратами.
Источник изображения: NextSilicon
NextSilicon предлагает альтернативу в виде чипа, основанного на управлении потоками данных, который способен перенастраиваться в процессе работы для устранения узких мест в коде и лишён характерных ограничений CPU и GPU. «В ресурсоёмких приложениях основное время выполнения занимает лишь малая часть программного кода, — пояснил Раз. — Нами создан интеллектуальный программный алгоритм, постоянно отслеживающий функционирование приложения. Он точно выявляет наиболее часто используемые участки кода и перенастраивает чип для их ускорения. Причём всё это осуществляется непосредственно во время работы программы за наносекунды». ПЛИС также допускают перепрограммирование, но для этого требуется цикл перезагрузки.
Изображения предоставлены: ServeTheHome/NextSilicon
Основу аппаратной платформы Maverick составляет реконфигурируемая матрица арифметико-логических устройств, занимающая львиную долю кристалла. Её конфигурация может динамически меняться прямо во время исполнения программного кода. Такой подход обеспечивает повышенную вычислительную производительность на каждый такт (и на каждый ватт), если данные поступают в требуемый момент в нужное место. Специальный алгоритм анализирует код, выявляя проблемные участки, и оперативно перестраивает чип в процессе работы приложения. По заявлению NextSilicon, их программно-определяемая архитектура управления потоками данных позволяет достигать эффективности, сравнимой со специализированными ASIC-решениями, сохраняя при этом универсальность для различных алгоритмов.
В архитектуре NextSilicon вычислительные модули (CB) подключены к шине памяти для считывания информации, которая временно сохраняется в станциях резервирования (RS). Момент активации вычислительного блока определяет планировщик задач. (RS и планировщик функционально соответствуют регистрам в традиционных процессорах.) Блоки доступа к памяти (MEP) управляют операциями обращения к памяти, формируя запросы к шине и перенаправляя полученные ответы в станции резервирования. Модуль управления памятью и кеш TLB отвечают за трансляцию адресов (при необходимости). Остальное пространство CB заполнено ALU, которые условно можно рассматривать как «инструкции». Точное количество вычислительных блоков в чипе не раскрывается, но на фотографии кристалла видно 224 таких модуля.
Компилятор NextSilicon организует из ALU так называемые Mill-ядра в рамках вычислительных блоков, представляющие собой графы взаимосвязанных операций. Выполнение происходит по принципу конвейера: поступление данных на вход ALU служит сигналом к началу операции, после выполнения которой результат передаётся следующему ALU, и так далее по всей цепочке графа. Уникальной особенностью чипа является возможность автоматического дублирования и оптимального распределения Mill-ядер как внутри одного CB, так и между различными вычислительными блоками в процессе работы. При увеличении объёма параллельно обрабатываемых данных создаётся больше Mill-ядер. Однако эта функция активируется только для наиболее ресурсоёмких участков кода.
Илан Таяри (Ilan Tayari), сооснователь и вице-президент по архитектурным решениям NextSilicon, подчеркнул фундаментальную важность способности платформы выполнять произвольный код без дополнительных настроек — будь то программы для CPU и GPU или алгоритмы искусственного интеллекта. Независимо от языка программирования — C++, Fortran, Python, CUDA, ROCm, OneAPI или фреймворков для ИИ — компилятор NextSilicon разбивает код на сегменты, транслируя их в промежуточный формат для адаптируемого аппаратного обеспечения. «Это выходит за рамки современных технологий, — отметил Таяри. — Для специалистов в области ИИ такой подход создаёт уникальные перспективы. Ускорение достигается независимо от архитектуры модели… будь то нестандартные функции активации, работа с комплексными числами или оригинальные математические операции: всё оптимизируется сразу после установки».
В процессе работы приложения встроенная телеметрия чипа постоянно совершенствует его производительность. К примеру, при активном обмене данными между вычислительными модулями граф операций реконфигурируется для их пространственного сближения или перехода от векторных вычислений к матричным. При обнаружении узких мест системы дублируют критические компоненты для повышения параллелизма. Вся оптимизация осуществляется в автоматическом режиме без участия программиста, что отличает подход от классической VLIW-архитектуры.
Процессор Maverick-2 производится по 5-нм технологии TSMC в двух вариантах: монолитном и многокристальном, с тактовой частотой 1,5 ГГц. Монолитная версия с энергопотреблением 400 Вт предназначена для плат PCIe 5.0 x16, тогда как двухкристальная конфигурация на 750 Вт разработана для OAM-модулей. Воздушное охлаждение однокристальной модели дополнено 32 управляющими ядрами RISC-V, 96 ГБ памяти HBM3E, 128 МБ кэш-памяти и одним портом 100GbE. Двухкристальный OAM-вариант с жидкостным охлаждением оснащён 64 ядрами RISC-V, 192 ГБ HBM3E, 256 МБ кэша и двумя интерфейсами 100GbE.
Важно подчеркнуть, что приведённые показатели TDP являются предельными, и, по данным ServeTheHome, в большинстве сценариев энергопотребление окажется ниже. NextSilicon сообщает о достижении 600 Гфлопс при 750 Вт в тесте HPCG (что вдвое экономичнее аналогов), тогда как для UBB зафиксировано 4,8 Тфлопс при 6 кВт. Были протестированы одно- и двухкристальные конфигурации Maverick2. В STREAM чип продемонстрировал пропускную способность 5,2 ТБ/с, а в GUPS — 32,6 GUPS при 460 Вт, что в 22 раза опережает CPU и почти шестикратно превосходит GPU в задачах СУБД, реального ИИ-принятия решений и инференса на фрагментированных данных.
В испытании Google PageRank чип обработал 40 млрд страниц/с, десятикратно обойдя лучшие GPU при половинном энергопотреблении. Компания отметила, что при работе с крупными графами (свыше 25 ГБ) ведущие графические ускорители не завершили тест, тогда как Maverick-2 справился, подтвердив необходимость адаптивных архитектур для сложных нагрузок в современных ИИ-системах, социальной аналитике и сетевых вычислениях.
«Эти показатели получены на стандартном, неизменённом коде приложений», — акцентировал Эяль Нагар (Eyal Nagar), сооснователь и вице-президент по R&D NextSilicon. «Нашим соперникам для достижения заявленных результатов требуются специализированные группы, изменяющие код, BIOS, микропрограммы, ОС и настройки. NextSilicon обеспечивает выдающуюся производительность на готовом программном обеспечении», — добавил он.
Компания NextSilicon также продемонстрировала тестовый образец процессора корпоративного класса, построенного на архитектуре RISC-V. Этот чип планируется интегрировать в качестве центрального процессора в перспективный ускоритель Maverick-3 следующего поколения. Процессор Arbel, разработанный с нуля с 10-командным конвейером, представляет собой усовершенствованную версию более компактных RISC-V ядер из платформы Maverick-2, предназначенных для обработки последовательных инструкций. Как утверждает производитель, производительность этих ядер сопоставима с решениями AMD Zen 5 и Intel Lion Cove.
По заявлению NextSilicon, революционная производительность Arbel обеспечивается благодаря четырём фундаментальным архитектурным нововведениям:
- Мощный 10-командный конвейер с буфером переупорядочения на 480 операций, позволяющий процессору одновременно анализировать больше задач и оптимально распределять ресурсы ядра.
- Рабочая частота 2,5 ГГц гарантирует высокую однопоточную производительность при сохранении энергоэффективности.
- Расширенный блок исполнения с поддержкой параллельной обработки 16 скалярных операций и четырьмя 128-бит векторными модулями для превосходной производительности при параллельных вычислениях.
- Продвинутая подсистема памяти с 64 КБ кэша L1, 1 МБ кэша L2 и масштабируемым кэшем L3 (2 МБ на ядро) обеспечивает минимальные задержки доступа к данным и непрерывный поток информации, устраняя узкие места производительности в современных приложениях.
- Современный алгоритм предсказания переходов TAGE способствует ускоренному и точному принятию решений с минимальным количеством ошибочных прогнозов и избыточных операций.
«Это реальный кремниевый чип, произведённый по 5-нм технологии TSMC — полностью оригинальная разработка, защищённая патентами, без использования лицензионных или заимствованных решений. Наши инженеры создали его для реализации будущих амбиций NextSilicon», — прокомментировал Элад Раз.
Согласно информации от производителя, флагманский акселератор Maverick2, кроме SNL, уже применяется «десятками» клиентов. Серийные поставки стартуют в первой половине 2026 года для выполнения значительного объёма предзаказов. NextSilicon ведёт совместную работу с разнообразными структурами — от американского Министерства энергетики до передовых научных центров, а также корпоративных заказчиков в области финансов, энергетики, промышленности и биологических исследований. Программы раннего доступа для новых партнёров уже реализуются через сотрудничество с компаниями Penguin Solutions и Dell Technologies.
Будущее поколение ускорителей NextSilicon Maverick3 будет адаптировано для вычислений с пониженной точностью в задачах искусственного интеллекта и, по прогнозам, поступит в продажу к 2027 году, сообщает EE Times.
Ссылки на источники: