Скоро вы можете не знать, что разговариваете с компьютером

Оглавление:

Скоро вы можете не знать, что разговариваете с компьютером
Скоро вы можете не знать, что разговариваете с компьютером
Anonim

Ключевые выводы

  • Быстро приближается день, когда вы не сможете отличить сгенерированную компьютером речь от реальной.
  • Google недавно представила LaMDA, модель, которая может обеспечить более естественное общение.
  • Создание человеческой речи также требует огромной вычислительной мощности.
Image
Image

Сейчас легко сказать, когда вы разговариваете с компьютером, но это может скоро измениться благодаря недавним достижениям в области искусственного интеллекта.

Google недавно представила LaMDA, экспериментальную модель, которая, по утверждению компании, может повысить возможности ее помощников по разговорному искусственному интеллекту и сделать общение более естественным. LaMDA стремится в конечном итоге нормально разговаривать практически обо всем без какой-либо предварительной подготовки.

Это один из растущего числа проектов ИИ, который может заставить вас задуматься, разговариваете ли вы с человеком.

«По моим оценкам, в течение следующих 12 месяцев пользователи начнут знакомиться с этими новыми, более эмоциональными голосами и привыкать к ним», - Джеймс Каплан, генеральный директор MeetKai, виртуального голосового помощника с искусственным интеллектом и поиском. двигатель, сказал в интервью по электронной почте.

"Как только это произойдет, сегодняшняя синтезированная речь будет звучать для пользователей так же, как сегодня звучит для нас речь начала 2000-х."

Голосовые помощники с характером

Google LaMDA построен на Transformer, архитектуре нейронной сети, разработанной Google Research. В отличие от других языковых моделей, Google LaMDA был обучен реальному диалогу.

Часть проблемы с созданием естественно звучащей речи ИИ заключается в открытом характере разговоров, написал Эли Коллинз из Google в своем блоге.

Image
Image

"Разговор с другом о телешоу может перерасти в дискуссию о стране, где снималось шоу, прежде чем перейти к дебатам о лучшей региональной кухне этой страны", - добавил он.

Вещи развиваются быстро с роботизированной речью. Эрик Розенблюм, управляющий партнер Tsingyuan Ventures, которая инвестирует в разговорный ИИ, сказал, что некоторые из наиболее фундаментальных проблем компьютерной речи практически решены.

Например, уровень точности в понимании речи уже чрезвычайно высок в таких сервисах, как транскрипция, сделанная программным обеспечением Otter.ai, или медицинские заметки, сделанные DeepScribe.

"Однако следующий рубеж намного сложнее", добавил он.

Сохранение понимания контекста, что является проблемой, выходящей далеко за рамки обработки естественного языка и эмпатии, например, компьютеры, взаимодействующие с людьми, должны понимать разочарование, гнев, нетерпение и т. д. Над обоими этими вопросами ведется работа, но оба они весьма далеки от удовлетворительных».

Нейронные сети - это ключ

Чтобы создавать реалистичные голоса, компании используют такие технологии, как глубокие нейронные сети, форму машинного обучения, которая классифицирует данные по слоям, Мэтт Малдун, президент Северной Америки ReadSpeaker, компании, которая разрабатывает программное обеспечение для преобразования текста в речь, сказал в интервью по электронной почте.

«Эти слои уточняют сигнал, сортируя его по более сложным классификациям», - добавил он. «В результате получается синтетическая речь, которая звучит сверхъестественно как человеческая».

Другой разрабатываемой технологией является Prosody Transfer, которая включает в себя объединение звука одного голоса, преобразующего текст в речь, со стилем речи другого, сказал Малдун. Существует также трансферное обучение, которое уменьшает количество обучающих данных, необходимых для создания нового нейронного преобразования текста в речь.

Каплан сказал, что для воспроизведения речи, похожей на человеческую, также требуется огромное количество вычислительной мощности. Компании разрабатывают чипы нейронных ускорителей, которые представляют собой специальные модули, работающие в сочетании с обычными процессорами.

«Следующим этапом будет внедрение этих чипов в меньшее оборудование, поскольку в настоящее время это уже сделано для камер, когда требуется ИИ для зрения», - добавил он. «Не пройдет много времени, прежде чем такие вычислительные возможности станут доступны в самих наушниках».

Одна из проблем при разработке речи, управляемой искусственным интеллектом, заключается в том, что все говорят по-разному, поэтому компьютеры, как правило, с трудом понимают нас.

«Подумайте об акцентах Джорджии, Бостона или Северной Дакоты, а также о том, является ли английский вашим основным языком», - написала в электронном письме Моника Дема, работающая над аналитикой голосового поиска в MDinc. «Глобально, делать это для всех регионов Германии, Китая и Индии дорого, но это не значит, что это невозможно или невозможно».

Рекомендуемые: