Разговоры с компьютером могут стать более реалистичными

👤 Автор Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:59.
🖍 Последнее изменение 2025-01-24 12:22.

Ключевые выводы

Meta использует ИИ для создания программ, которые могут выражать эмоции в речи.
Команда компании по искусственному интеллекту заявила, что добилась успехов в моделировании выразительных вокализаций, таких как смех, зевота, плач и «спонтанная болтовня» в режиме реального времени.
ИИ также используется для улучшения распознавания речи.

Возможно, вскоре вы сможете вести более естественный чат со своим компьютером благодаря мощи искусственного интеллекта (ИИ).

Meta заявила, что добилась значительного прогресса в своих усилиях по созданию более реалистичных речевых систем, генерируемых искусственным интеллектом. Команда искусственного интеллекта компании заявила, что добилась успехов в моделировании выразительных вокализаций, таких как смех, зевота и плач, в дополнение к «спонтанной болтовне» в режиме реального времени.

«В любом разговоре люди обмениваются невербальными сигналами, такими как интонации, эмоциональное выражение, паузы, акценты, ритмы - все это важно для человеческого взаимодействия», - написала команда в недавнем сообщении в блоге.. «Но сегодняшние системы искусственного интеллекта не могут уловить эти богатые, выразительные сигналы, потому что они учатся только на письменном тексте, который фиксирует то, что мы говорим, но не то, как мы это говорим».

Умная речь

В сообщении в блоге команда Meta AI сообщила, что работает над преодолением ограничений традиционных систем искусственного интеллекта, которые не могут понимать невербальные сигналы в речи, такие как интонации, эмоциональные выражения, паузы, акценты и ритмы.. Системы сдерживаются, потому что они могут учиться только из письменного текста.

Но работа Meta отличается от предыдущих, потому что ее модели искусственного интеллекта могут использовать модели обработки естественного языка, чтобы охватить всю природу разговорной речи. Мета-исследователи говорят, что новые модели могут позволить системам ИИ передавать чувства, которые они хотят передать, например скуку или иронию.

"В ближайшем будущем мы сосредоточимся на применении бестекстовых методов для создания полезных последующих приложений, не требующих ни ресурсоемких текстовых меток, ни систем автоматического распознавания речи (ASR), таких как ответы на вопросы (например, "Как дела? погода?»), - написала команда в своем блоге. «Мы считаем, что просодия в речи может помочь лучше разобрать предложение, что, в свою очередь, облегчает понимание намерения и повышает эффективность ответа на вопрос».

ИИ обеспечивает понимание

Мало того, что компьютеры стали лучше передавать смысл, ИИ также используется для улучшения распознавания речи.

Компьютерщики работают над компьютерным распознаванием речи по крайней мере с 1952 года, когда трое исследователей из Bell Labs создали систему, способную распознавать отдельные цифры, сообщил технический директор AI Dynamics Райан Монсурейт в электронном письме Спасательный трос. К 1990-м годам системы распознавания речи были коммерчески доступны, но по-прежнему имели достаточно высокий уровень ошибок, чтобы препятствовать использованию за пределами очень специфических областей применения, таких как здравоохранение..

«Теперь, когда модели глубокого обучения позволили ансамблевым моделям (например, от Microsoft) достичь сверхчеловеческой производительности при распознавании речи, у нас есть технология, позволяющая независимо от говорящего общаться с компьютерами в масштабе», - сказал Монсурейт. «Следующий этап будет заключаться в снижении стоимости, чтобы каждый, кто использует Siri или ИИ-помощников Google, имел доступ к этому уровню распознавания речи».

ИИ полезен для распознавания речи, потому что со временем он может улучшаться благодаря обучению, сказал в интервью Lifewire Ариэль Утник, директор по доходам и генеральный менеджер голосовой компании Verbit.ai, работающей с искусственным интеллектом. Например, Verbit утверждает, что ее собственная технология искусственного интеллекта обнаруживает и отфильтровывает фоновый шум и эхо, а также транскрибирует говорящих независимо от акцента, чтобы создавать подробные профессиональные стенограммы и подписи к живому и записанному видео и аудио.

Но Утник сказал, что точность большинства современных платформ распознавания речи составляет всего 75-80%.

«ИИ никогда полностью не заменит людей, поскольку личное рассмотрение расшифровщиками, корректорами и редакторами необходимо для обеспечения высокого качества и максимальной точности окончательной расшифровки», - добавил он..

Улучшенное распознавание голоса также может быть использовано для предотвращения хакеров, заявил в электронном письме Санджай Гупта, вице-президент по глобальному развитию продуктов и корпоративного развития компании Mitek Systems, занимающейся распознаванием голоса. Исследования показывают, что в течение двух лет 20 процентов всех успешных атак с захватом учетных записей будут использовать искусственное усиление голоса, добавил он.

«Это означает, что по мере того, как технология дипфейка становится все более изощренной, нам необходимо одновременно создавать передовые средства безопасности, которые могут бороться с этой тактикой наряду с дипфейками изображений и видео», - сказал Гупта. «Для борьбы с подделкой голоса требуется технология определения живости, способная различать живой голос и записанную, синтетическую или сгенерированную компьютером версию голоса».

Исправление от 05.04.2022: Исправлено написание имени Ryan Monsurate в пункте 9.

Рекомендуемые:

Разговоры с компьютером могут стать более реалистичными

Оглавление:

Ключевые выводы

Умная речь

ИИ обеспечивает понимание

Рекомендуемые:

Как нейрочипы могут связать ваш мозг с компьютером

Почему следующий iPad mini может стать вашим идеальным карманным компьютером

Как потоковое видео может стать еще более нестабильным

20 способов, которыми Siri может помочь вам стать более продуктивным

Жесты могут изменить то, как вы пользуетесь компьютером

Как исправить, если Spotify не может воспроизвести текущую песню

Почему приложения для фитнеса и привычек должны быть добрее

Выражение лица может сделать виртуальную реальность более доступной и захватывающей

50 лучших селфи-титров 2022 года

Дроны могут помочь фермерам выращивать больше еды

Как отключить Pandora

Команды поиска Google: полный список

Как заставить Alexa воспроизводить Amazon Music

Как удалить часто посещаемые сайты на вашем iPhone

Как удалить Windows 10

Используйте безопасный режим для диагностики проблем с запуском Microsoft Word

Знайте и управляйте своими параметрами представления значков в Finder

Обзор Sonos Play:1: маленькая мощная колонка для потоковой передачи

The Beatles: Список песен рок-группы

Что такое антивирус и что он делает?