Новости Hardware

Alibaba сократила потребность в видеокартах Nvidia для ИИ на 82%

Дефицит вычислительных ресурсов, характерный для стремительно растущей индустрии искусственного интеллекта, в Китае дополнительно осложняется запретительными мерами на ввоз специализированных процессоров. Это вынуждает разработчиков искать пути оптимизации, и компания Alibaba представила методику, позволяющую уменьшить потребность в чипах Nvidia для функционирования своих языковых моделей на 82%.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Согласно данным South China Morning Post, пробное тестирование системы Aegaeon уже более трёх месяцев осуществляется одним из подразделений Alibaba Cloud. Согласно презентации компании на конференции SOSP в Сеуле, данное решение помогло сократить число задействованных ускорителей Nvidia H20, обслуживающих множество языковых моделей, с 1192 до 213 единиц. При этом, как уточняет издание, задействованные нейросети содержат до 72 миллионов параметров.

Специалистам Alibaba в разработке этой системы содействовали исследователи из Пекинского университета, охарактеризовавшие проект как «первую систематическую попытку выявить избыточные затраты при параллельном обслуживании нагрузок от крупных языковых моделей». Облачные провайдеры, подобные Alibaba, сталкиваются с задачей одновременного обслуживания тысяч ИИ-моделей, однако в реальной практике инференса регулярно используются лишь немногие из них, такие как Qwen или DeepSeek, тогда как остальные запрашиваются эпизодически. Это приводит к неэффективному распределению мощностей. В инфраструктуре Alibaba Cloud, к примеру, порядка 17,7% вычислительных блоков задействованы для обработки всего 1,35% запросов.

Международное научное сообщество предлагает повышать эффективность использования оборудования через пуллинг ресурсов, когда один графический процессор обслуживает несколько моделей. Система Aegaeon применяет токен-ориентированное автомасштабирование, позволяющее GPU динамически перераспределять ресурсы между различными моделями непосредственно в процессе генерации токенов. В результате один графический ускоритель способен параллельно обрабатывать до семи моделей, тогда как в традиционных системах этот показатель обычно не превышает двух-трёх. Временные задержки при переключении между моделями в системе Aegaeon сократились на 97%.

Alibaba тестирует эту систему на платформе моделей Bailian, предоставляющей корпоративным клиентам доступ к моделям Qwen. Ускорители Nvidia H20, разработанные одноимённой американской корпорацией специально для рынка Китая, столкнулись с временным эмбарго на поставки в КНР в апреле, однако к летним месяцам ограничения были отменены. Тем не менее, китайские регуляторы стали активно рекомендовать местным разработчикам выбирать отечественные компоненты. Как отмечает глава компании, это привело к тому, что доля Nvidia на китайском рынке передовых чипов для искусственного интеллекта фактически свелась к нулю.

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории