Ключевые выводы
- Компании стремятся найти способы сделать компьютерную речь более реалистичной.
- NVIDIA недавно представила инструменты, которые могут улавливать звук естественной речи, позволяя вам обучать ИИ своим собственным голосом.
- Интонация, эмоциональность и музыкальность - вот характеристики, которых до сих пор не хватает компьютерным голосам, говорит один эксперт.
Созданная компьютером речь вскоре может звучать намного более человечно.
Производитель комплектующих для компьютеров NVIDIA недавно представила инструменты, которые могут улавливать звук естественной речи, позволяя вам обучать ИИ с помощью вашего голоса. Программное обеспечение также может произносить слова одного говорящего, используя голос другого человека. Это часть стремления сделать компьютерную речь более реалистичной.
«Усовершенствованная технология голосового ИИ позволяет пользователям говорить естественно, объединяя множество запросов в одно предложение и избавляя от необходимости постоянно повторять детали исходного запроса», - Майкл Загорсек, главный операционный директор компании по распознаванию речи SoundHound., сказал Lifewire в интервью по электронной почте.
«Добавление нескольких языков, которое теперь доступно на большинстве платформ голосового ИИ, делает цифровых голосовых помощников доступными в большем количестве регионов и для большего числа групп населения», - добавил он.
Robospeech Rising
Amazon Alexa и Apple Siri звучат намного лучше, чем компьютерная речь даже десятилетней давности, но в ближайшее время их нельзя будет спутать с настоящими человеческими голосами.
Чтобы искусственная речь звучала более естественно, исследовательская группа NVIDIA по преобразованию текста в речь разработала модель RAD-TTS. Система позволяет людям обучать модели преобразования текста в речь (TTS) своим голосом, включая темп, тональность, тембр и другие факторы.
Компания использовала свою новую модель для создания более разговорного голосового повествования для серии видеороликов I Am AI.
С помощью этого интерфейса наш видеопродюсер мог записывать, как он читает видеосценарий, а затем использовать модель ИИ для преобразования своей речи в голос женского рассказчика. Используя это базовое повествование, продюсер мог затем управлять ИИ как актер озвучивания - настройка синтезированной речи, чтобы подчеркнуть определенные слова, и изменение темпа повествования, чтобы лучше передать тон видео», - написала NVIDIA на своем веб-сайте.
Сложнее, чем кажется
Придание компьютерной речи естественного звучания – непростая задача, говорят эксперты.
«Вам нужно записать сотни часов чьего-то голоса, чтобы создать его компьютерную версию», - сказал Lifewire Назим Рагимов, генеральный директор компании-разработчика программного обеспечения для преобразования текста в речь Kukarella. "И запись должна быть качественной, сделанной на профессиональной студии. Чем больше часов качественной речи загружено и обработано, тем лучше результат."
Преобразование текста в речь можно использовать в играх, чтобы помочь людям с нарушениями речи или помочь пользователям переводить языки своим собственным голосом.
По словам Рагимова, Интонация, эмоциональность и музыкальность - это то, чего компьютерным голосам до сих пор не хватает.
Если ИИ сможет добавить эти недостающие звенья, сгенерированная компьютером речь будет «неотличима от голосов реальных актеров», добавил он. «Это работа в процессе. Другие голоса смогут конкурировать с радиоведущими. Вскоре вы увидите голоса, которые могут петь и читать аудиокниги».
Речевые технологии становятся все более популярными в самых разных сферах бизнеса.
«Автомобильная промышленность недавно внедрила голосовой ИИ как способ сделать вождение более безопасным и подключенным к сети», - сказал Загорсек.
"С тех пор голосовые помощники становятся все более распространенными, поскольку бренды ищут способы улучшить качество обслуживания клиентов и удовлетворить спрос на более простые, безопасные, удобные, эффективные и гигиеничные методы взаимодействия со своими продуктами и услугами".
Обычно голосовой ИИ преобразует запросы в ответы в двухэтапном процессе, который начинается с преобразования речи в текст с помощью автоматического распознавания речи (ASR) и последующего ввода этого текста в модель понимания естественного языка (NLU).
Подход SoundHound объединяет эти два шага в один процесс для отслеживания речи в реальном времени. Компания утверждает, что эта техника позволяет голосовым помощникам понимать смысл пользовательских запросов еще до того, как человек закончит говорить.
Будущие достижения в области компьютерной речи, в том числе доступность различных вариантов подключения, от встроенных (не требуется подключение к облаку) до гибридных (встроенные плюс облачные) и только облачных, «предоставят больше выбора компаниям из разных отраслей». с точки зрения стоимости, конфиденциальности и доступности вычислительной мощности», - сказал Загореск.
NVIDIA заявила, что ее новостные модели искусственного интеллекта выходят за рамки озвучивания.
«Преобразование текста в речь можно использовать в играх, чтобы помочь людям с нарушениями речи или помочь пользователям переводить с одного языка на другой», - написала компания. «Он может даже воссоздать выступления культовых певцов, сочетая не только мелодию песни, но и эмоциональное выражение вокала».