Доступ к ИИ за токены: новый мировой тренд приходит в Россию

Аналитика

Доступ к ИИ за токены: новый мировой тренд приходит в Россию

02-07-2026 14:01
0

Аналитика: Поставщики облачных GPU-серверов для ИИ (GPU Cloud) 2026

23 Июня 2026 11:42 23 Июн 2026 11:42

Евгений Мартынов, «Рег.облако»: Глобальный тренд на доступ к ИИ через токены доходит до России

Рынок инфраструктуры для искусственного интеллекта в России претерпевает глубокие преобразования. Запрос на производительные графические процессоры всё больше переключается с тренировки нейросетей на инференс — их практическое применение. Компании всё чаще выбирают собственные вычислительные мощности, чтобы контролировать информацию и минимизировать риски, связанные с использованием сторонних программных интерфейсов (API). В беседе с CNews ИТ-директор «Рег.облако» Евгений Мартынов рассказывает, почему решения на базе Nvidia стали самыми популярными, какие открытые модели демонстрируют результаты, близкие к коммерческим, и как гибкие модели оплаты влияют на финансовую эффективность проектов. Особое внимание уделяется нормативным требованиям, которые делают локальную инфраструктуру обязательной для определённых секторов.

CNews: Евгений, почему именно конфигурации на Nvidia H100 и H200 сейчас пользуются таким спросом? Для каких задач бизнесу недостаточно возможностей стандартных видеокарт?

Евгений Мартынов: Мы наблюдаем стремительный рост генеративного искусственного интеллекта, особенно больших языковых моделей с миллиардами параметров и расширенным контекстом. Модели, способные «мыслить», делать умозаключения и рассуждать, а также агентный искусственный интеллект требуют совершенно иного уровня производительности. Карты H100 и H200, а также недавно представленные B200 и B300 отличаются высокой производительностью и возможностью объединения памяти в единый аппаратный ускоритель. Это дает возможность запускать самые крупные модели. В России к концу 2025 года H200 стали самыми востребованными. Согласно нашей воронке в «Рег.облаке», спрос на эти карты вырос в десятки раз. B200 и B300 также привлекают внимание, но не все клиенты пока готовы платить за их уровень, к тому же на рынке не всегда есть доступные предложения. Сегодня рынок сосредоточен вокруг H200, а в будущем мы будем следить за распространением B200 и B300.

CNews: Ранее считалось, что мощные графические ускорители в основном необходимы для обучения моделей. Сейчас спрос смещается в сторону инференса (Прим. ред.: Инференс — это процесс применения обученной модели искусственного интеллекта или нейросети для обработки реальных данных и получения прогнозов). С чем связано такое изменение?

Евгений Мартынов: Обучение, предварительная тренировка (претренинг) и тонкая настройка никуда не исчезли, но инференс вышел на передний план и начал активно развиваться. Во-первых, количество качественных открытых моделей, которые можно развернуть у себя, значительно увеличилось. Во-вторых, расширился контекст, который модели способны обрабатывать, а чем больше контекст, тем больше токенов и вычислений требуется. Кроме того, современные модели не просто отвечают по векторным шаблонам, они «рассуждают», что также увеличивает потребление ресурсов. Еще один фактор — коммерческая составляющая. Появились гибкие схемы аренды на день или час, а также оплата за токены, что делает инференс более доступным.

Это важно, так как инференс является основой любого процесса, будь то программирование без написания кода (вайбкодинг) или мультимодальная обработка. Любой такой процесс требует самой модели инференса. Сейчас модели такого уровня, в том числе запускаемые локально в собственной инфраструктуре, позволяют решать разнообразные задачи. Мы в «Рег.облаке» предлагаем локальные инференсы для задач написания кода, проверки документации, генерации изображений, работы с текстом и поиска по базе знаний.

CNews: Какие открытые модели сегодня эффективно работают на таких конфигурациях и демонстрируют результаты, сопоставимые с проприетарными?

Евгений Мартынов: В числе ведущих открытых моделей с сотнями миллиардов параметров можно выделить DeepSeek V3.2 (670–680 млрд параметров), которая отлично справляется с агентскими сценариями и математическими задачами. GLM‑5 (около 750 млрд параметров) по своим характеристикам приближается к Claude Opus, демонстрирует хороший баланс качества и минимальный уровень галлюцинаций, ее широко применяют для программирования. Qwen 3.5 (примерно 400 млрд параметров) представляет собой мультимодальную модель, способную работать с графикой, аудио и текстом. Для запуска всех этих моделей требуется не одна видеокарта, а целые серверы с объединенной памятью. Для использования на одной карте подойдет GPT‑OSS объемом 120 млрд параметров. Она несколько уступает в качестве, но проще в развертывании и обходится дешевле. Кроме того, применяются комбинированные решения: на входе ставится арбитражная модель (router), которая определяет, какой большой языковой моделью (LLM) обрабатывать запрос. Такой подход позволяет сопоставлять результаты разных моделей и выполнять задачи параллельно на одних и тех же конфигурациях.

CNews: Как развитие инференс-стеков облегчило работу разработчиков?

Евгений Мартынов: Сегодня существуют стандартизированные инференс-движки, предоставляющие единый интерфейс, совместимый с программным интерфейсом приложения (API) OpenAI. Благодаря этому разработчикам не нужно изобретать собственные решения, они могут сосредоточиться на решении прикладных задач. Развернуть инференс способен как системный администратор, так и сам разработчик за 10–15 минут, а многие провайдеры уже предлагают его в качестве сервиса буквально в несколько кликов. Ручные сборки остаются актуальными только для тех, кому требуется глубокий кастомизированный функционал. «Рег.облако» в свою очередь предлагает как готовые окружения для последующей самостоятельной установки моделей, так и готовое решение по аренде инференса конкретной модели на базе vLLM (Прим.ред.: virtual Large Language Model — виртуальная большая языковая модель, открытый алгоритм для вывода больших языковых моделей. Изначально разработан для высокой производительности в рабочей среде) в режиме самообслуживания. По запросу мы также готовы предоставить гибкие частные варианты подобных установок на любых доступных графических ускорителях, включая развертывание на территории заказчика по модели «аппаратное обеспечение как услуга» (HaaS).

CNews: Какие типовые бизнес-задачи сегодня решаются с помощью инференса на собственных мощностях?

Евгений Мартынов: Можно выделить несколько распространенных вариантов использования. Первый — это внутренние корпоративные помощники или базы знаний, к которым подключается контент через механизм объединения большой языковой модели с базой данных (RAG, Retrieval-Augmented Generation). Второй — генерация программного кода, что обеспечивает быстрый и измеримый эффект. Третий — обработка документов: разбор входящей переписки, составление кратких изложений, мониторинг изменений в законах. Кроме того, стоит упомянуть чат-боты, аналитические задачи и подходы, основанные на данных (data-driven), где в рабочий процесс (pipeline) встроены модели, способные рассуждать и принимать решения. В завершение списка назову инструменты для нормализации и проверки данных.

При этом мы замечаем, что бизнесу все чаще требуются не разрозненные сценарии, а единая платформа, где искусственный интеллект встроен в повседневные операции. Поэтому, к примеру, в «Рег.облаке» мы разрабатываем ИИ-ассистента, который функционирует поверх корпоративной инфраструктуры и позволяет задействовать возможности генеративных моделей сразу в различных бизнес-сервисах — от системы управления взаимоотношениями с клиентами (CRM) и службы поддержки до инструментов визуализации данных (BI) и внутренних баз знаний.

Такой помощник помогает не только обрабатывать документы или создавать тексты и код, но и, например, подготавливать аналитические отчеты, оценивать риски, ускорять обработку запросов клиентов. Ключевой момент — он развертывается в защищенной среде компании, с контролем доступа к данным, и может применять как встроенные, так и внешние модели, включая решения с открытым исходным кодом (open-source).

CNews: Как технически организована интеграция?

Евгений Мартынов: Базовый уровень — это сам инференс, выполняемый на графических ускорителях. Следующий слой — оркестрация и интеграция, часто с помощью инструментов, не требующих написания кода (no-code). Они позволяют выстраивать работу, обогащать модели контентом, связывать разные источники и реализовывать интеграции. Над этим находятся интерфейсы: чат-боты, мессенджеры, веб-интерфейс (Web UI). И отдельным «срезом» идут агентные и мультиагентные сценарии, которые станут трендом в 2026 году.

CNews: Доверие к собственной инфраструктуре и контроль над данными — одна из причин перехода на локальный инференс. Какие риски возникают при использовании публичных API?

Евгений Мартынов: Первая угроза — это сохранность личных сведений. Нет уверенности, что информация, переданная через интернет, не окажется задействована в обучении алгоритмов или не станет достоянием общественности позже. Подобные случаи, увы, встречаются часто. К примеру, в марте 2023 года в ChatGPT произошла утечка данных платежных карт и записей переписок. А в Microsoft Copilot был зафиксирован инцидент, когда конфиденциальная переписка отображалась некорректно. Хотя тогда данные не покинули сеть, они стали видны посторонним участникам облачной среды. Вторая угроза — соблюдение нормативных требований. Обрабатывать персональные данные нужно на территории России, следуя предписаниям регулирующих органов. Зарубежные API этим стандартам не отвечают. Плюс существуют санкционные риски: западные платформы могут внезапно прекратить предоставление услуг. Даже внутри страны возможны блокировки по решению властей. Для организаций, которым необходима бесперебойная работа 24/7, практически нет другого выхода, кроме обращения к российским поставщикам и создания собственной инфраструктуры.

Сегодня российские провайдеры в своих ИИ-продуктах особенно акцентируют внимание на защите данных. Мы, например, наблюдаем стабильный спрос на полностью закрытые сценарии, поэтому запустили приватного ИИ-ассистента для работы с секретной информацией. Он развертывается внутри инфраструктуры заказчика — либо на локальных мощностях (on-premise), либо в изолированной зоне дата-центра — что предотвращает утечку данных во внешние системы. Фактически компания получает все возможности генеративного ИИ, но при этом полностью управляет инфраструктурой, доступом и данными.

CNews: Для каких сфер необходимость контроля и перехода на собственные системы является особенно важной?

Евгений Мартынов: Наиболее очевидная область — государственный сектор и предприятия с участием государства. Затем идет финансовая сфера, где действуют нормативы Центробанка. После этого — медицина и организации, имеющие дело с врачебной тайной и персональными данными высшего уровня. И, безусловно, промышленность, энергетика, оборонно-промышленный комплекс и критически важная инфраструктура. Однако стоит подчеркнуть, что защита конфиденциальных сведений актуальна для всех российских компаний в целом. Чувствительную информацию нужно обрабатывать и хранить на законной и сертифицированной инфраструктуре, чтобы избежать серьезных последствий в будущем.

CNews: Как организации решают, что выгоднее — платить за токены или арендовать мощности? В каких ситуациях оплата за токены оказывается более предпочтительной?

Евгений Мартынов: Если исключить случаи, когда выбор предопределен нормативными требованиями, то решение опирается на степень прогнозируемости нагрузки. Для минимально жизнеспособного продукта (MVP) или экспериментальных проектов, где пока неясно, будет ли востребовано решение и какой объем токенов понадобится, разумнее стартовать с модели оплаты за токены. Это позволит смоделировать рабочую нагрузку, определить необходимую производительность и только после этого переходить к аренде. Когда у компании наблюдается устойчивый поток запросов либо множество проектов, генерирующих значительный объем токенов, аренда становится экономически более оправданной. Важно постоянно отслеживать ситуацию и сопоставлять: какое количество токенов вы могли бы получить за фиксированную стоимость аренды сервера.

CNews: Как часто предприятия применяют гибридный подход: проводят прототипирование через программный интерфейс приложения (API), а для продуктивной эксплуатации используют собственную инфраструктуру?

Евгений Мартынов: На международном рынке такая схема уже стала общепринятой. В России же предложений с оплатой за токены пока немного, и гибридный подход чаще обусловлен не экономическими соображениями, а требованиями регуляторов, вопросами надежности и доступности. Многие организации тестируют гипотезы в гибридном режиме, а затем переносят решение в доверенный контур.

CNews: Если резюмировать: какие доводы вы бы привели ИТ-директору крупной компании, который до сих пор сомневается, разворачивать ли собственный контур инференса или воспользоваться готовыми сервисами?

Евгений Мартынов: Готовые сервисы представляют собой превосходный инструмент для запуска, проверки гипотез и экспериментов. Однако если компания работает с персональными данными и обязана соблюдать требования регулятора, а в перспективе хочет избежать утечек и связанных с ними последствий, то при переходе от этапа проверки гипотез необходимо обратить внимание на инструменты, развертываемые внутри контура компании или в доверенной сертифицированной инфраструктуре с прозрачным соглашением об уровне предоставляемых услуг (SLA), не зависящим от трансграничных каналов. В качестве примера таких возможностей мы уже запустили в «Рег.облаке» собственные инференс-сервисы на базе виртуальных больших языковых моделей (vLLM) в публичном облаке и объединили все ключевые ИИ-механики (оркестрацию, мониторинг, управление моделями и доступом) в единую платформу. Это направление стало для нас отдельным приоритетом развития, и мы последовательно расширяем его функциональность и варианты применения.

CNews: Какие перемены на рынке графических ускорителей и инфраструктуры вы ожидаете в ближайшие 1–2 года?

Евгений Мартынов: В нашей стране начнет внедряться система расчетов за токены — это глобальный тренд, к которому мы присоединяемся. Не нужно бояться смешанных вариантов использования. В перспективе любые тестирования идей и предварительные этапы проектов можно будет осуществлять за токены у облачных операторов. «Рег.облако» уже занимается разработкой подобного механизма. Аренда по-прежнему будет выгодна для многих типов нагрузок. Параллельно станет расти разнообразие: на рынке появятся не только видеокарты Nvidia, но и продукты Intel, AMD, а затем и специализированные нейрочипы. Это процесс не одного 2026 года, но направление уже очевидно. Традиционные облачные методы будут меняться: от базовой инфраструктуры к готовым решениям с отслеживанием и единым интерфейсом. В итоге мы придем к сервисам типа «программное обеспечение как услуга» (SaaS), например, к агентам для написания кода или управления системами, которые работают сразу после установки. Для их функционирования потребуются качественные большие языковые модели и производительные графические ускорители.

■ Рекламаerid:2W5zFHKZxYZРекламодатель: ООО «РЕГ.РУ»ИНН/ОГРН: 7733568767/1067746613494Сайт: https://www.reg.ru/

Подписаться на новости