ИИ теперь может понимать ваши видео, просматривая их

Оглавление:

ИИ теперь может понимать ваши видео, просматривая их
ИИ теперь может понимать ваши видео, просматривая их
Anonim

Ключевые выводы

  • Исследователи говорят, что могут научить ИИ маркировать видео, просматривая и слушая.
  • Система искусственного интеллекта учится представлять данные, чтобы фиксировать концепции, общие для визуальных и звуковых данных.
  • Это часть усилий, направленных на то, чтобы научить ИИ понимать концепции, которые люди без труда изучают, но которые трудно понять компьютерам.

Image
Image

Новая система искусственного интеллекта (ИИ) может смотреть и слушать ваши видео и маркировать происходящее.

Исследователи Массачусетского технологического института разработали методику, которая учит ИИ фиксировать действия, общие для видео и аудио. Например, их метод может понять, что акт детского плача в видео связан с произнесенным словом «плач» в звуковом клипе. Это часть усилий, направленных на то, чтобы научить ИИ понимать концепции, которые люди легко усваивают, но которые компьютерам трудно понять.

«Распространенная парадигма обучения, контролируемое обучение, хорошо работает, когда у вас есть хорошо описанные и полные наборы данных», - сказал Lifewire эксперт по искусственному интеллекту Фил Уиндер в интервью по электронной почте. «К сожалению, наборы данных редко бывают полными, потому что реальный мир имеет плохую привычку представлять новые ситуации».

Умный ИИ

Компьютеры с трудом разбираются в повседневных сценариях, потому что им нужно обрабатывать данные, а не звук и изображения, как людям. Когда машина «видит» фотографию, она должна кодировать эту фотографию в данные, которые она может использовать для выполнения такой задачи, как классификация изображений. ИИ может увязнуть, когда входные данные поступают в нескольких форматах, таких как видео, аудиоклипы и изображения.

"Главная проблема здесь заключается в том, как машина может согласовать эти различные модальности? Нам, людям, это легко", - сказал Александр Лю, исследователь из Массачусетского технологического института и первый автор статьи по этому вопросу, в выпуск новостей. «Мы видим машину, а затем слышим звук проезжающей мимо машины, и мы знаем, что это одно и то же. Но для машинного обучения все не так просто».

Команда Лю разработала метод искусственного интеллекта, который, по их словам, учится представлять данные для захвата концепций, общих для визуальных и звуковых данных. Используя эти знания, их модель машинного обучения может определить, где в видео происходит конкретное действие, и пометить его.

Новая модель берет необработанные данные, такие как видео и соответствующие им текстовые подписи, и кодирует их, извлекая признаки или наблюдения за объектами и действиями в видео. Затем он отображает эти точки данных в сетке, известной как пространство встраивания. Модель группирует похожие данные вместе как отдельные точки в сетке; каждая из этих точек данных или векторов представлена отдельным словом.

Например, видеоклип жонглирующего человека может быть сопоставлен с вектором, помеченным как «жонглирование».

Исследователи разработали модель таким образом, что она может использовать только 1000 слов для маркировки векторов. Модель может решить, какие действия или концепции она хочет закодировать в один вектор, но она может использовать только 1000 векторов. Модель выбирает слова, которые, по ее мнению, лучше всего представляют данные.

"Если есть видео о свиньях, модель может назначить слово "свинья" одному из 1000 векторов. Затем, если модель услышит, как кто-то произносит слово "свинья" в аудиоклипе, он все равно должен использовать тот же вектор для кодирования этого», - объяснил Лю.

Ваши видео, декодированные

Улучшенные системы маркировки, подобные той, что разработана Массачусетским технологическим институтом, могут помочь уменьшить предвзятость в области ИИ, заявила в интервью Lifewire по электронной почте Мариан Бесзедес, руководитель отдела исследований и разработок биометрической компании Innovatrics. Бесзедес предположил, что индустрия данных может рассматривать системы ИИ с точки зрения производственного процесса.

«Системы принимают необработанные данные в качестве входных данных (сырье), предварительно обрабатывают их, принимают, принимают решения или прогнозы и выводят аналитику (готовая продукция)», - сказал Бесзедес. «Мы называем этот технологический поток «фабрикой данных», и, как и другие производственные процессы, он должен подвергаться контролю качества. Индустрия данных должна рассматривать предвзятость ИИ как проблему качества.

«С точки зрения потребителя, неправильно маркированные данные затрудняют, например, онлайн-поиск определенных изображений/видео», - добавил Бесзедес. «При правильно разработанном ИИ вы можете делать маркировку автоматически, гораздо быстрее и нейтральнее, чем при ручной маркировке».

Image
Image

Но у модели Массачусетского технологического института есть некоторые ограничения. Во-первых, их исследование сосредоточено на данных из двух источников одновременно, но в реальном мире люди одновременно сталкиваются со многими типами информации, сказал Лю

«И мы знаем, что 1000 слов работают с таким набором данных, но мы не знаем, можно ли это обобщить до реальной проблемы», - добавил Лю.

Исследователи Массачусетского технологического института говорят, что их новая методика превосходит многие аналогичные модели. Если ИИ можно научить понимать видео, вы, возможно, в конечном итоге сможете пропустить просмотр отпускных видеороликов вашего друга и вместо этого получать отчет, сгенерированный компьютером.

Рекомендуемые: