Компания OpenAI анонсировала новую версию модели для генерации изображений — ChatGPT Images 2.0. Эта разработка стала первой среди массовых ИИ-решений, способной корректно воспроизводить текст на картинках. Если два года назад диффузионные модели ИИ не могли составить меню мексиканского ресторана без придуманных слов вроде «enchuita» или «burrto», то теперь новая версия создаёт изображения с надписями, которые можно использовать без доработок.
Ещё в 2024 году диффузионные ИИ-модели систематически искажали текст. Как пояснил Асмелаш Тека Хадгу (Asmelash Teka Hadgu), основатель и генеральный директор Lesan AI, такие модели восстанавливают изображение из шума и усваивают паттерны, охватывающие основную часть пикселей, тогда как текст занимает лишь крошечную долю площади.
Слева — меню, созданное ChatGPT Images 2.0: все надписи читаемы, ни одного выдуманного слова. Справа — три варианта от Microsoft Designer на базе DALL-E 3: «Enchidas», «Tamrielo», «Churiros», «Margartas» и десятки других искажений. Источник изображений: ChatGPT Images 2.0, Microsoft Designer (DALL-E 3) / techcrunch.com
С тех пор исследователи испробовали другие подходы — в частности, авторегрессионные модели, которые предсказывают содержимое изображения и работают по принципу, схожему с большими языковыми моделями (LLM).
OpenAI не раскрыла, какая архитектура лежит в основе Images 2.0. Компания лишь отметила, что новинка способна «рассуждать» — искать данные в интернете, создавать несколько изображений по одному запросу и перепроверять итоги. Благодаря этому Images 2.0 формирует маркетинговые материалы разных размеров и даже комиксы. У ИИ-модели также улучшена работа с нелатинскими шрифтами — японским, корейским, хинди и бенгальским. Однако знания Images 2.0 ограничены декабрём 2025 года, что может повлиять на точность генерации по запросам о недавних событиях.
Источник изображения: ChatGPT Images 2.0 / openai.com
«Images 2.0 поднимает точность и проработку деталей на невиданную ранее высоту. Эта модель способна продумывать сложные сцены и успешно реализовывать их: следовать указаниям, удерживать заданные элементы и создавать объекты, которые обычно вызывают затруднения у других генераторов, — мелкие надписи, значки, части интерфейса, насыщенные композиции и строгие стилистические рамки, — при этом достигая разрешения до 2K», — отмечается в заявлении компании. Процесс генерации требует больше времени, чем обычный текстовый запрос в ChatGPT, однако даже многостраничный комикс создается всего за несколько минут.
Источник изображения: ChatGPT Images 2.0 / openai.com
Images 2.0 станет доступен всем пользователям ChatGPT и Codex. Владельцы платных подписок получат возможность создавать более детализированные изображения. Кроме того, OpenAI предоставит программный интерфейс (API) gpt-image-2, где цена будет варьироваться в зависимости от качества и разрешения итоговых картинок.