Как сообщает Reuters, в глобальной практике создания крупных языковых моделей существует финальная стадия, когда перед коммерческим запуском их дорабатывают специалисты компаний-производителей вычислительных ускорителей. При подготовке своей новейшей модели искусственного интеллекта DeepSeek выбрала для этого Huawei и других китайских поставщиков подобного оборудования.
Источник изображения: Nvidia
Суть, как уточняет Reuters, в том, что исторически привилегия последней доработки модели отдавалась главным американским поставщикам ускорителей, в первую очередь Nvidia. Ранние ИИ-модели DeepSeek также создавались по этому принципу, однако для последней версии V4 китайские инженеры решили поддержать отечественных производителей, таких как Huawei и другие компании из КНР. За несколько недель до релиза новой модели DeepSeek предоставила её именно китайским вендорам вычислительных ускорителей. Это необходимо для адаптации программного обеспечения к специфике данного аппаратного обеспечения и достижения максимальной производительности модели.
Как отмечают независимые эксперты, современные инструменты оптимизации позволяют выполнить такую работу за несколько недель, тогда как раньше на это уходили месяцы. Вероятно, такой выбор DeepSeek отражает общую стратегию, продвигаемую китайским руководством, в рамках которой отечественное оборудование и софт получают преимущество перед американскими аналогами. Впрочем, эта информация несколько противоречит более ранним сообщениям о том, что DeepSeek использовала для обучения своей новейшей ИИ-модели секретный дата-центр на базе ускорителей Nvidia поколения Blackwell. Американские официальные лица полагают, что DeepSeek попытается скрыть факт применения ускорителей Blackwell при финальной подготовке модели к запуску, сделав акцент на использовании решений от Huawei.