Новости Software

Китайские гиганты бросили вызов: Alibaba, ByteDance и Kuaishou показали прорывные ИИ-модели для роботов и видео

Пока американский рынок искусственного интеллекта на прошлой неделе анализировал влияние продуктов от Anthropic и Altruist на программирование и финансовые услуги, ведущие китайские технологические компании представили ИИ-модели, демонстрирующие прогресс в области робототехники и создания видео. Alibaba, ByteDance (компания-владелец TikTok) и платформа для коротких роликов Kuaishou анонсировали новые алгоритмы, что служит подтверждением: китайские разработчики идут в ногу со своими американскими аналогами.

 Источник изображения: Gemini

Источник изображения: Gemini

Презентация новых алгоритмов от китайских IT-гигантов состоялась вскоре после заявления главы подразделения ИИ Google DeepMind Демиса Хассабиса о том, что китайские модели отстают от западных всего на несколько месяцев. Однако инструменты, представленные на минувшей неделе, вполне могут рассматриваться как прямые конкуренты таким системам для генерации видео, как Sora от OpenAI, а также моделям для робототехники от Nvidia и Google.

Исследовательское подразделение DAMO компании Alibaba представило модель RynnBrain, созданную для помощи роботам в понимании физического мира и распознавании объектов. В демонстрационном видео Alibaba показала робота с захватами вместо рук, который собирал апельсины и складывал их в корзину. Также была продемонстрирована сцена, где робот достаёт из холодильника пакет молока.

Для того чтобы научиться распознавать обычные предметы и взаимодействовать с ними, ИИ-моделям требуется масштабное обучение. Это означает, что такая простая для человека задача, как сбор фруктов, представляет для робототехники значительную сложность. С выпуском RynnBrain Alibaba вступает в конкуренцию с такими компаниями, как Nvidia и Google, которые также разрабатывают собственные ИИ-модели для этой сферы.

«Одним из её [модели] ключевых нововведений является встроенное восприятие времени и пространства. Вместо простой реакции на сиюминутные сигналы, робот способен запоминать, когда и где происходили события, отслеживать ход выполнения задачи и действовать последовательно на протяжении нескольких этапов. Это делает его работу более надёжной и предсказуемой в сложных реальных условиях», — отмечает исследовательница из Hugging Face Адина Якефу. Она добавила, что «более масштабная цель» Alibaba заключается в «создании фундаментального интеллектуального уровня для воплощённых систем».

На прошлой неделе ByteDance анонсировала Seedance 2.0 — систему искусственного интеллекта для создания видеороликов, способную генерировать правдоподобные видео по краткому текстовому запросу. Кроме того, технология может обрабатывать уже существующие видео и изображения. Презентационные материалы, сгенерированные Seedance 2.0, демонстрируют высокую степень реалистичности.

 Источник изображения: Sony

Источник изображения: Sony

Как отметила Адина Якефу, модель Seedance 2.0 достигла существенного прогресса в сравнении с ранними итерациями в аспектах «контроля, быстродействия и общей производительности». «На текущий момент Seedance 2.0 — одна из наиболее гармоничных моделей для синтеза видео, с которыми мне довелось работать. Она произвела впечатление, предоставив качественный результат с первого запроса, даже при его минимальной сложности. Визуальная часть, звук и монтаж сочетаются настолько органично, что итоговая работа выглядит законченной, а не пробной», — дополнила она.

Несмотря на положительные отзывы пользователей, у Seedance 2.0 выявились определённые сложности. По данным китайских медиа, разработчики временно отключили опцию синтеза голоса по загруженной фотографии. Это решение последовало после того, как один из местных блогеров указал на этическую проблему создания голосовых копий без разрешения людей, чьи изображения используются. В ByteDance пока воздерживаются от комментариев по этому поводу.

Ещё одним нововведением стала модель Kling 3.0 от Kuaishou, предназначенная для генерации видео и выступающая конкурентом разработке ByteDance. В анонсе указано, что Kling 3.0 «демонстрирует значительные улучшения в целостности видеоряда, фотографической реалистичности, увеличении максимальной длительности ролика до 15 секунд, а также обладает встроенной функцией создания звуковой дорожки на различных языках, диалектах и с разными акцентами».

В данный момент доступ к Kling 3.0 имеют только пользователи с платной подпиской, однако Kuaishou планирует в скором времени открыть технологию для более широкой аудитории. Успех линейки ИИ-моделей Kling положительно повлиял на биржевую стоимость компании, акции которой выросли более чем на 50% за прошедший год.

Среди других значимых анонсов стоит выделить выход алгоритма GLM-5 от Zhipu AI (известной в Гонконге как Knowledge Atlas Technology). Это открытая языковая модель с расширенными функциями для программирования и разработки ИИ-агентов. Компания заявила, что её новейшая модель по результатам отраслевых тестов приближается к уровню Anthropic Claude Opus 4.5, а в отдельных проверках превосходит Google Gemini 3 Pro. Эта презентация также спровоцировала заметный рост котировок акций Zhipu AI.

Акции MiniMax продемонстрировали резкий рост в завершение торговой недели. Это произошло вслед за релизом компанией обновлённой открытой ИИ-модели M2.5, снабжённой усовершенствованными инструментами для ИИ-агентов. Данная система позволяет эффективно автоматизировать широкий спектр операций.

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории