Скоро вы можете не знать, что разговариваете с компьютером

2025 Автор: Abigail Brown | [email protected]. Последнее изменение: 2025-01-24 12:22

Ключевые выводы

Быстро приближается день, когда вы не сможете отличить сгенерированную компьютером речь от реальной.
Google недавно представила LaMDA, модель, которая может обеспечить более естественное общение.
Создание человеческой речи также требует огромной вычислительной мощности.

Сейчас легко сказать, когда вы разговариваете с компьютером, но это может скоро измениться благодаря недавним достижениям в области искусственного интеллекта.

Google недавно представила LaMDA, экспериментальную модель, которая, по утверждению компании, может повысить возможности ее помощников по разговорному искусственному интеллекту и сделать общение более естественным. LaMDA стремится в конечном итоге нормально разговаривать практически обо всем без какой-либо предварительной подготовки.

Это один из растущего числа проектов ИИ, который может заставить вас задуматься, разговариваете ли вы с человеком.

«По моим оценкам, в течение следующих 12 месяцев пользователи начнут знакомиться с этими новыми, более эмоциональными голосами и привыкать к ним», - Джеймс Каплан, генеральный директор MeetKai, виртуального голосового помощника с искусственным интеллектом и поиском. двигатель, сказал в интервью по электронной почте.

"Как только это произойдет, сегодняшняя синтезированная речь будет звучать для пользователей так же, как сегодня звучит для нас речь начала 2000-х."

Голосовые помощники с характером

Google LaMDA построен на Transformer, архитектуре нейронной сети, разработанной Google Research. В отличие от других языковых моделей, Google LaMDA был обучен реальному диалогу.

Часть проблемы с созданием естественно звучащей речи ИИ заключается в открытом характере разговоров, написал Эли Коллинз из Google в своем блоге.

"Разговор с другом о телешоу может перерасти в дискуссию о стране, где снималось шоу, прежде чем перейти к дебатам о лучшей региональной кухне этой страны", - добавил он.

Вещи развиваются быстро с роботизированной речью. Эрик Розенблюм, управляющий партнер Tsingyuan Ventures, которая инвестирует в разговорный ИИ, сказал, что некоторые из наиболее фундаментальных проблем компьютерной речи практически решены.

Например, уровень точности в понимании речи уже чрезвычайно высок в таких сервисах, как транскрипция, сделанная программным обеспечением Otter.ai, или медицинские заметки, сделанные DeepScribe.

"Однако следующий рубеж намного сложнее", добавил он.

Сохранение понимания контекста, что является проблемой, выходящей далеко за рамки обработки естественного языка и эмпатии, например, компьютеры, взаимодействующие с людьми, должны понимать разочарование, гнев, нетерпение и т. д. Над обоими этими вопросами ведется работа, но оба они весьма далеки от удовлетворительных».

Нейронные сети - это ключ

Чтобы создавать реалистичные голоса, компании используют такие технологии, как глубокие нейронные сети, форму машинного обучения, которая классифицирует данные по слоям, Мэтт Малдун, президент Северной Америки ReadSpeaker, компании, которая разрабатывает программное обеспечение для преобразования текста в речь, сказал в интервью по электронной почте.

«Эти слои уточняют сигнал, сортируя его по более сложным классификациям», - добавил он. «В результате получается синтетическая речь, которая звучит сверхъестественно как человеческая».

Другой разрабатываемой технологией является Prosody Transfer, которая включает в себя объединение звука одного голоса, преобразующего текст в речь, со стилем речи другого, сказал Малдун. Существует также трансферное обучение, которое уменьшает количество обучающих данных, необходимых для создания нового нейронного преобразования текста в речь.

Каплан сказал, что для воспроизведения речи, похожей на человеческую, также требуется огромное количество вычислительной мощности. Компании разрабатывают чипы нейронных ускорителей, которые представляют собой специальные модули, работающие в сочетании с обычными процессорами.

«Следующим этапом будет внедрение этих чипов в меньшее оборудование, поскольку в настоящее время это уже сделано для камер, когда требуется ИИ для зрения», - добавил он. «Не пройдет много времени, прежде чем такие вычислительные возможности станут доступны в самих наушниках».

Одна из проблем при разработке речи, управляемой искусственным интеллектом, заключается в том, что все говорят по-разному, поэтому компьютеры, как правило, с трудом понимают нас.

«Подумайте об акцентах Джорджии, Бостона или Северной Дакоты, а также о том, является ли английский вашим основным языком», - написала в электронном письме Моника Дема, работающая над аналитикой голосового поиска в MDinc. «Глобально, делать это для всех регионов Германии, Китая и Индии дорого, но это не значит, что это невозможно или невозможно».

Рекомендуемые:

Скоро вы можете не знать, что разговариваете с компьютером

Оглавление:

Ключевые выводы

Голосовые помощники с характером

Нейронные сети - это ключ

Рекомендуемые:

Вы не можете получить Sling TV на PS4; Вот что вы можете получить

10 Что можно сделать со старым компьютером

Можете ли вы изменить имя Siri? Нет, но вот что вы можете сделать

Mixer.com: что это такое и что вам нужно знать

Можете ли вы получить вирус на Mac? Что тебе нужно знать

Как снять защиту паролем с PDF

Castlevania: Symphony of the Night Прохождение

Что такое Roll-Up TV?

Привлечет ли PS5 людей к обновлению?

Как исправить неработающую мышь?

5 лучших телефонных адаптеров (ATA) 2022 года

Преимущества iPad перед ноутбуком или настольным компьютером

Почему аккумуляторы смартфонов все еще отстой

2 лучших зарядных кабеля для Android 2022 года

Почему скоро вы сможете увидеть больше подкастов на Spotify

Как использовать Zello, приложение Push-to-Talk

Что такое подпись диска и зачем она нужна?

SOS Online Backup Review

Обзор антивируса BullGuard

Что такое Twitter & Как это работает?