Китай вновь подтвердил свои лидирующие позиции в сфере искусственного интеллекта. В то время как глобальный рынок знаком с разрозненными ИИ-ассистентами и отдельными функциями в приложениях, компании ZTE и ByteDance представили смартфон, где ИИ-агент встроен непосредственно в операционную систему. Этот агент управляет всеми возможностями устройства с человеческой гибкостью.
Источник изображений: x.com/TaylorOgan
Прототип устройства ZTE Nubia M153 функционирует на адаптированной версии Android с интегрированным агентом ByteDance Doubao. Doubao — это популярная в Китае платформа моделей ИИ общего назначения, применяемых в чат-ботах и рабочих инструментах. В данном смартфоне это не просто помощник — агент получает полный контроль: анализирует интерфейс, устанавливает и запускает программы, взаимодействует с их функциями, печатает текст, совершает вызовы и выполняет сложные многошаговые операции.
Владельцу устройства даже не обязательно знать, какие программы нужны для решения задачи — ИИ управляет смартфоном подобно человеку, а не ограниченному приложению. Например, агент смог найти для пользователя человека, готового занять очередь: он самостоятельно нашёл и установил нужное локальное приложение, поставил задачу, заполнил необходимые поля формы и вывел финальный экран для подтверждения. Пользователь изначально не знал, какое приложение для этого требуется и как его настроить. ИИ-агент справился со всем самостоятельно.
Прототип ZTE Nubia M153 работает на современном процессоре Qualcomm Snapdragon 8 Elite Gen 5 с 16 ГБ оперативной памяти. Анализ интерфейса и базовое управление обрабатываются локально с помощью ИИ на устройстве, а семантический анализ и сложные операции выполняются в облаке. Такое распределение нагрузки обеспечивает высокую скорость работы и защиту конфиденциальных данных, таких как пароли и платёжная информация.
Приложениями на базе модели ByteDance Doubao в Китае уже пользуются более 175 миллионов человек. Она построена на разреженной архитектуре «смеси экспертов» и является мультимодальной, то есть способна обрабатывать как текст, так и изображения. В одном из демонстрационных примеров ИИ в смартфоне распознал на фотографии станцию замены аккумуляторов для электромобилей NIO и подробно объяснил принцип её работы.
Ещё более ярким примером послужило оформление гостиничного номера: пользователь сфотографировал вход в отель и высказал желание его забронировать. Облачная модель Doubao проанализировала запрос: идентифицировала отель, поняла, что нужен номер на текущую дату, и уточнила правила размещения с питомцами. Нейросеть Nebula-GUI от ZTE с 7 миллиардами параметров выполнила практические действия: открыла приложение для бронирования, ввела даты, подобрала лучшие по цене варианты, проверила условия для животных и сообщила о них пользователю. Бесшовное взаимодействие обеспечивает двухуровневая архитектура: Doubao формирует план, а Nebula-GUI его реализует.
Другой показательный кейс — вызов беспилотного такси. Doubao, получив координаты со спутника, просканировала локальные сервисы заказа поездок, чтобы найти оператора, работающего на данном маршруте. Nebula-GUI запустила приложение Baidu Apollo, указала точки отправления и прибытия, а затем подтвердила заказ. Позже, уже во время поездки, пользователь попросил скорректировать место назначения — ИИ определил активный заказ в Apollo, перешёл на соответствующий экран, изменил конечный адрес и утвердил его как в приложении на телефоне, так и в системе самого автомобиля. Когда же пользователь не вспомнил номер телефона, привязанный к аккаунту, ИИ нашёл эти сведения и озвучил последние четыре цифры, необходимые для доступа в салон.
Завершающей масштабной демонстрацией стал заказ еды — в частности, двух напитков через сервис Meituan с доставкой дронами. ИИ оформил заказ до ближайшего автоматизированного пункта выдачи, а когда система Meituan совершила подтверждающий звонок, Doubao ответила от лица пользователя и провела диалог с ботом Meituan. Два искусственных интеллекта успешно согласовали детали без какого-либо человеческого вмешательства. Параллельно пользователь, прогуливаясь, использовал смартфон как инструмент анализа окружения, задавая вопросы о встречающихся заведениях и людях.
Таким образом, прототип смартфона обрёл способность полностью управлять своим графическим интерфейсом, опираясь на мощную мультимодальную модель с логическим мышлением. Теперь человеку не требуется разбираться в тонкостях работы приложений — достаточно просто сообщить устройству, какой результат нужен. Ни один производитель смартфонов ранее не представлял подобных возможностей. Пока неясно, поступит ли такое устройство в продажу, однако прототип наглядно показал, как смартфоны с ИИ-агентами способны преобразить повседневную жизнь.
Глава хедж-фонда Snow Bull Capital Тейлор Орган (Taylor Ogan), продемонстрировавший работу устройства, остался под большим впечатлением и назвал его появление потенциальным новым «моментом DeepSeek», имея в виду, что новинка может всколыхнуть индустрию подобно тому, как это сделала нашумевшая китайская ИИ-модель.