Новости Software

DeepSeek-V4: В апреле выходит ИИ-гигант с памятью на 1 млн токенов

С момента широкого признания рассуждающей модели DeepSeek-R1, представленной компанией DeepSeek в январе прошлого года, значительных обновлений не анонсировалось. Хотя слухи о новой разработке периодически будоражат онлайн-сообщество, ожидается, что уже в следующем месяце будет представлена мультимодальная система DeepSeek-V4, обещающая существенный прогресс по сравнению с предшественницей.

 Источник изображения: mp.weixin.qq.com

Источник изображения: mp.weixin.qq.com

Согласно имеющейся информации, на протяжении последних шести месяцев команда DeepSeek под руководством соучредителя Ляна Вэньфэна сосредоточила усилия на преодолении ограничений модели в анализе визуальных данных и на совершенствовании интеллектуального поиска. Параллельно велась работа над расширением возможностей генерации кода и увеличением длины контекстного окна. Для реализации этих задач ещё в прошлом году компания вступила в партнёрские отношения с Baidu.

Специалисты по всему миру внимательно следят за платформами в поисках намёков на скорый выход обновления. Недавно на OpenRouter, ведущем агрегаторе API для ИИ, были замечены алгоритмы Healer Alpha и Hunter Alpha. Первый представляет собой мультимодальную языковую модель, способную обрабатывать изображения и звук, выполнять кросс-модальные умозаключения и точно решать сложные многоэтапные задачи, обладая контекстным окном в 260 тысяч токенов. Второй, Hunter Alpha, разработан для агентных приложений: это модель с триллионами параметров и контекстом в 1 миллион токенов, которая, как заявлено, эффективно справляется с долгосрочным планированием, сложными логическими операциями и последовательным выполнением многошаговых инструкций, что критически важно для работы с фреймворками создания ИИ-агентов, такими как OpenClaw.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

В связи с выходом этих двух языковых моделей в социальной сети X вновь активизировались дискуссии о скором релизе DeepSeek-V4. Тем не менее, согласно ранее опубликованным данным, DeepSeek-V4 должна обладать параметрами в десятки триллионов, контекстным окном на 1 миллион токенов, а также возможностью воспринимать и создавать мультимодальный контент, то есть работать с текстом, изображениями и видео. Это говорит о том, что характеристики недавно появившихся на OpenRouter моделей не полностью совпадают с ожидаемыми от DeepSeek-V4.

Как сообщают инсайдеры, фокус развития следующего поколения DeepSeek смещён в сторону улучшения долговременной памяти, которая считается одной из ключевых способностей языковых моделей. За последние шесть месяцев Лян Вэньфэн выступил соавтором трёх научных статей, посвящённых, в том числе, исследованиям в области расширения долгосрочной памяти ИИ.

Результаты работы Вэньфэна и его команды также указывают на определённый вектор технологического развития. Заложив основу для способности к рассуждениям через обучение с подкреплением в DeepSeek-R1, разработчики теперь исследуют инновации в фундаментальной архитектуре. В частности, с помощью новых модулей, таких как «условная память», они стремятся повысить эффективность модели, решая известные ограничения традиционных архитектур в области памяти и вычислений. Эта работа также служит технологической подготовкой к выпуску DeepSeek-V4. Более того, новая модель будет глубоко оптимизирована для китайских AI-ускорителей и может стать первой ИИ-системой, полностью функционирующей в рамках «экосистемы отечественных вычислительных мощностей».

Апрель обещает быть насыщенным для рынка китайских ИИ-моделей. Помимо ожидаемого обновления DeepSeek, планируется анонсировать новую ИИ-модель от Tencent, содержащую 30 миллиардов параметров.

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории