Xiaomi выпустила OmniVoice: нейросеть, которая говорит на сотнях языков и копирует любой голос

Новости Software

Xiaomi выпустила OmniVoice: нейросеть, которая говорит на сотнях языков и копирует любой голос

10-05-2026 09:40
0

Компания Xiaomi представила свою открытую модель искусственного интеллекта OmniVoice, которая предназначена для синтеза речи из текста. Помимо озвучивания на сотнях языков, система способна клонировать голоса и создавать речь по индивидуальным настройкам.

Источник изображения: Xiaomi

Как заявляют разработчики, OmniVoice показывает отличные результаты на китайском и английском языках, успешно соперничая с существующими коммерческими решениями и даже превосходя их в определённых задачах. Ключевое преимущество модели — поддержка языков с ограниченными данными: она способна генерировать речь «практически на любом языке», даже если для обучения было доступно лишь небольшое количество материала. В Xiaomi также подчеркнули, что это первая в индустрии модель для клонирования голоса, охватывающая несколько сотен языков.

В ходе многоязычных тестов OmniVoice обошла несколько коммерческих систем на 24 языках по показателям сходства и чёткости речи, причём обучение проводилось на открытых наборах данных. При тестировании на 102 языках разборчивость речи модели была близка к человеческой, а в некоторых случаях даже превышала её. Высокое качество сохранялось даже тогда, когда объём обучающих данных для конкретного языка составлял менее 10 часов.

Источник изображения: Ali Khadem / unsplash.com

По сравнению с современными системами синтеза речи OmniVoice отличается гораздо более простой архитектурой: вместо подключения множества модулей и этапов прогнозирования здесь используется единая двунаправленная сеть-трансформер для прямого преобразования текста в речь. Отпадает необходимость в отдельном моделировании текста, сложных гибридных структурах и многоуровневых системах прогнозирования токенов. Упрощённая архитектура обеспечивает высокую скорость работы: модель можно обучить всего за один день на 100 000 часах данных, а при инференсе (запуске) она работает до 40 раз быстрее реального времени с использованием фреймворка PyTorch, что позволяет легко развёртывать её в потребительских приложениях и сервисах.

Высокий уровень производительности OmniVoice, как сообщили в Xiaomi, был достигнут благодаря двум подходам. Первый из них — использование «метода случайного сокрытия акустических кодов» при обучении модели, что повысило эффективность тренировки и расширило её общий функционал. Второй подход заключался в подключении крупной языковой модели на этапе предварительного обучения, что способствовало улучшению точности произношения и чёткости речи.

OmniVoice обладает рядом практических возможностей. Модель способна создавать голос на основе заданных пользователем характеристик, включая возраст, пол, высоту тона, акцент, диалект и стиль речи; без использования эталонного образца можно воспроизводить шёпот и другие особые речевые стили. Кроме того, она умеет устранять шумы из аудиозаписей и выделять чистые голосовые характеристики, что позволяет копировать голос даже в тех случаях, когда исходный файл был записан в неидеальных условиях. Также предусмотрены инструменты для управления интонацией, генерации вздохов и смеха, что придаёт речи более естественное звучание. Наконец, есть возможность вручную корректировать сложные произносительные аспекты, такие как многозначные китайские иероглифы или англоязычные имена собственные.

Xiaomi выпустила OmniVoice: нейросеть, которая говорит на сотнях языков и копирует любой голос

Поделиться:

Секретный режим в Resident Evil Requiem: российский датамайнер нашел то, что скрывала Capcom

Индия передумала: Apple и Samsung избавят от обязательного «госприложения» на смартфонах

0 Комментариев

Оставить комментарий

Категории

Похожие новости

Финтех в России: почему не хватает зрелых решений?

DDoS-атаки в 4 Тбит/с и ботнет, выросший в 10 раз: что скрывает отчет Curator за первый квартал

В России не исчезнут ноутбуки Acer и Asus: Минпромторг объяснил последствия исключения из параллельного импорта

Популярные новости

Популярные теги

Технологии

Xiaomi выпустила OmniVoice: нейросеть, которая говорит на сотнях языков и копирует любой голос

Поделиться:

0 Комментариев

Оставить комментарий

Категории

Похожие новости

Популярные новости

Популярные теги