Китайская компания DeepSeek начала 2025 год с публикации исследования, предлагающего пересмотреть ключевые архитектурные принципы, лежащие в основе обучения фундаментальных ИИ-моделей. Среди соавторов данной работы значится основатель компании Лян Вэньфэн (Liang Wenfeng).
Компания представила подход под названием «многообразие-ограниченные гиперсвязи» (Manifold-Constrained Hyper-Connections, mHC). Эта методика способствует повышению экономической эффективности моделей, позволяя им конкурировать с американскими аналогами, чьи разработчики обладают доступом к колоссальным вычислительным мощностям. Публикация DeepSeek демонстрирует открытую и коллаборативную культуру китайского AI-сообщества, которое делится значительной частью своих изысканий в открытом доступе. Подобные статьи также могут намекать на инженерные решения, которые компания планирует внедрить в свои будущие модели.
Коллектив из 19 исследователей отметил, что метод mHC был проверен на моделях с 3, 9 и 27 миллиардами параметров, и его применение не привело к значительному росту вычислительных затрат в сравнении с классическими гиперсвязями (Hyper-Connections, HC). Базовый метод HC был предложен исследователями ByteDance в сентябре 2024 года как модификация архитектуры ResNet (остаточные сети) — доминирующего подхода в глубоком обучении, первоначально представленного учёными Microsoft Research Asia ещё в 2015 году.
ResNet позволяет обучать глубокие нейронные сети, сохраняя ключевую информацию (остатки) при увеличении количества слоёв. Эта архитектура лежит в основе таких моделей, как OpenAI GPT и Google DeepMind AlphaFold, однако имеет существенное ограничение: при прохождении через слои обучающий сигнал может вырождаться в универсальное, одинаковое для всех уровней представление, теряя свою информативность. Гиперсвязи эффективно решают эту проблему, расширяя поток остаточных данных и повышая сложность сети «без увеличения вычислительной нагрузки на отдельные блоки», но, как указывает DeepSeek, это ведёт к росту потребления памяти, что затрудняет масштабирование архитектуры для обучения крупных моделей.
Для решения данной задачи DeepSeek представляет подход mHC, который, по их словам, «позволит преодолеть текущие барьеры и в будущем создаст возможности для развития передовых архитектур следующих поколений». Как отмечают специалисты, научные публикации компании нередко задают технологический вектор, на котором строятся последующие версии моделей. Ожидается, что новая масштабная модель DeepSeek может быть анонсирована в середине февраля.