Компания Nvidia представила детали о новом семействе моделей Nemotron 3 с открытыми весами, созданном, в частности, для разработки нового поколения специализированных агентных систем искусственного интеллекта.
Источник изображения: Nvidia
Первая модель в этой линейке — Nemotron 3 Nano 30B с открытыми весами, обладающая 30 миллиардами общих параметров, из которых одновременно активно используются 3 миллиарда. Её архитектура представляет собой гибрид Mamba-Transformer, интегрирующий подход «смеси экспертов» (MoE), обучение с подкреплением в интерактивных средах и собственное контекстное окно объёмом в 1 миллион токенов, что обеспечивает мощное и продолжительное логическое мышление для многоагентных приложений.
Как пишет VideoCardz со ссылкой на публикацию в Hugging Face, маршрутизатор за один проход активирует 6 экспертов из 128. В Nvidia отметили, что для работы с моделью можно задействовать систему DGX Spark, а также ускорители H100 и B200.
Среди ключевых инноваций Nemotron 3, непосредственно отвечающих запросам агентных систем, выделяют:
- гибридную архитектуру Mamba-Transformer MoE, повышающую эффективность анализа и долгосрочного логического вывода.
- многосредовое обучение с подкреплением, построенное на основе практических задач для агентов.
- контекстное окно на 1 миллион токенов с возможностью глубокого анализа множества документов и долгосрочного запоминания агентом информации. Это позволяет поддерживать последовательное рассуждение при работе с обширными кодовыми базами, длинными текстами, продолжительными диалогами и агрегированным контентом. Вместо применения разрозненных эвристических методов сегментации, агенты могут хранить полные наборы данных, исторические буферы и многошаговые планы в рамках единого контекстного окна.
- открытый и прозрачный процесс обучения, включающий данные, весовые коэффициенты и методики.
Семейство MoE Nemotron 3 состоит из трёх моделей:
- Nemotron 3 Nano — компактная модель с 30 млрд параметров, одновременно активирующая до 3 млрд для решения целевых высокопроизводительных задач;
- Nemotron 3 Super — высокоточная модель для логического вывода, содержащая около 100 млрд параметров и использующая до 10 млрд активных параметров на токен, предназначенная для многоагентных сценариев;
- Nemotron 3 Ultra — крупномасштабная модель для рассуждений.
Модель Nemotron 3 Nano с готовыми инструкциями по применению уже доступна. Nemotron 3 Super и Ultra появятся несколько позже.