Новости Software

Nvidia представила мощную ИИ-модель Nemotron 3 Nano с открытым кодом и огромной памятью

Компания Nvidia представила детали о новом семействе моделей Nemotron 3 с открытыми весами, созданном, в частности, для разработки нового поколения специализированных агентных систем искусственного интеллекта.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Первая модель в этой линейке — Nemotron 3 Nano 30B с открытыми весами, обладающая 30 миллиардами общих параметров, из которых одновременно активно используются 3 миллиарда. Её архитектура представляет собой гибрид Mamba-Transformer, интегрирующий подход «смеси экспертов» (MoE), обучение с подкреплением в интерактивных средах и собственное контекстное окно объёмом в 1 миллион токенов, что обеспечивает мощное и продолжительное логическое мышление для многоагентных приложений.

Как пишет VideoCardz со ссылкой на публикацию в Hugging Face, маршрутизатор за один проход активирует 6 экспертов из 128. В Nvidia отметили, что для работы с моделью можно задействовать систему DGX Spark, а также ускорители H100 и B200.

Среди ключевых инноваций Nemotron 3, непосредственно отвечающих запросам агентных систем, выделяют:

  • гибридную архитектуру Mamba-Transformer MoE, повышающую эффективность анализа и долгосрочного логического вывода.
  • многосредовое обучение с подкреплением, построенное на основе практических задач для агентов.
  • контекстное окно на 1 миллион токенов с возможностью глубокого анализа множества документов и долгосрочного запоминания агентом информации. Это позволяет поддерживать последовательное рассуждение при работе с обширными кодовыми базами, длинными текстами, продолжительными диалогами и агрегированным контентом. Вместо применения разрозненных эвристических методов сегментации, агенты могут хранить полные наборы данных, исторические буферы и многошаговые планы в рамках единого контекстного окна.
  • открытый и прозрачный процесс обучения, включающий данные, весовые коэффициенты и методики.

Семейство MoE Nemotron 3 состоит из трёх моделей:

  • Nemotron 3 Nano — компактная модель с 30 млрд параметров, одновременно активирующая до 3 млрд для решения целевых высокопроизводительных задач;
  • Nemotron 3 Super — высокоточная модель для логического вывода, содержащая около 100 млрд параметров и использующая до 10 млрд активных параметров на токен, предназначенная для многоагентных сценариев;
  • Nemotron 3 Ultra — крупномасштабная модель для рассуждений.

Модель Nemotron 3 Nano с готовыми инструкциями по применению уже доступна. Nemotron 3 Super и Ultra появятся несколько позже.

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории