Компания Xiaomi представила свою открытую модель искусственного интеллекта OmniVoice, которая предназначена для синтеза речи из текста. Помимо озвучивания на сотнях языков, система способна клонировать голоса и создавать речь по индивидуальным настройкам.
Источник изображения: Xiaomi
Как заявляют разработчики, OmniVoice показывает отличные результаты на китайском и английском языках, успешно соперничая с существующими коммерческими решениями и даже превосходя их в определённых задачах. Ключевое преимущество модели — поддержка языков с ограниченными данными: она способна генерировать речь «практически на любом языке», даже если для обучения было доступно лишь небольшое количество материала. В Xiaomi также подчеркнули, что это первая в индустрии модель для клонирования голоса, охватывающая несколько сотен языков.
В ходе многоязычных тестов OmniVoice обошла несколько коммерческих систем на 24 языках по показателям сходства и чёткости речи, причём обучение проводилось на открытых наборах данных. При тестировании на 102 языках разборчивость речи модели была близка к человеческой, а в некоторых случаях даже превышала её. Высокое качество сохранялось даже тогда, когда объём обучающих данных для конкретного языка составлял менее 10 часов.
Источник изображения: Ali Khadem / unsplash.com
По сравнению с современными системами синтеза речи OmniVoice отличается гораздо более простой архитектурой: вместо подключения множества модулей и этапов прогнозирования здесь используется единая двунаправленная сеть-трансформер для прямого преобразования текста в речь. Отпадает необходимость в отдельном моделировании текста, сложных гибридных структурах и многоуровневых системах прогнозирования токенов. Упрощённая архитектура обеспечивает высокую скорость работы: модель можно обучить всего за один день на 100 000 часах данных, а при инференсе (запуске) она работает до 40 раз быстрее реального времени с использованием фреймворка PyTorch, что позволяет легко развёртывать её в потребительских приложениях и сервисах.
Высокий уровень производительности OmniVoice, как сообщили в Xiaomi, был достигнут благодаря двум подходам. Первый из них — использование «метода случайного сокрытия акустических кодов» при обучении модели, что повысило эффективность тренировки и расширило её общий функционал. Второй подход заключался в подключении крупной языковой модели на этапе предварительного обучения, что способствовало улучшению точности произношения и чёткости речи.
OmniVoice обладает рядом практических возможностей. Модель способна создавать голос на основе заданных пользователем характеристик, включая возраст, пол, высоту тона, акцент, диалект и стиль речи; без использования эталонного образца можно воспроизводить шёпот и другие особые речевые стили. Кроме того, она умеет устранять шумы из аудиозаписей и выделять чистые голосовые характеристики, что позволяет копировать голос даже в тех случаях, когда исходный файл был записан в неидеальных условиях. Также предусмотрены инструменты для управления интонацией, генерации вздохов и смеха, что придаёт речи более естественное звучание. Наконец, есть возможность вручную корректировать сложные произносительные аспекты, такие как многозначные китайские иероглифы или англоязычные имена собственные.