ИИ теперь может понимать ваши видео, просматривая их

👤 Автор Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:59.
🖍 Последнее изменение 2025-01-24 12:22.

Ключевые выводы

Исследователи говорят, что могут научить ИИ маркировать видео, просматривая и слушая.
Система искусственного интеллекта учится представлять данные, чтобы фиксировать концепции, общие для визуальных и звуковых данных.
Это часть усилий, направленных на то, чтобы научить ИИ понимать концепции, которые люди без труда изучают, но которые трудно понять компьютерам.

Новая система искусственного интеллекта (ИИ) может смотреть и слушать ваши видео и маркировать происходящее.

Исследователи Массачусетского технологического института разработали методику, которая учит ИИ фиксировать действия, общие для видео и аудио. Например, их метод может понять, что акт детского плача в видео связан с произнесенным словом «плач» в звуковом клипе. Это часть усилий, направленных на то, чтобы научить ИИ понимать концепции, которые люди легко усваивают, но которые компьютерам трудно понять.

«Распространенная парадигма обучения, контролируемое обучение, хорошо работает, когда у вас есть хорошо описанные и полные наборы данных», - сказал Lifewire эксперт по искусственному интеллекту Фил Уиндер в интервью по электронной почте. «К сожалению, наборы данных редко бывают полными, потому что реальный мир имеет плохую привычку представлять новые ситуации».

Умный ИИ

Компьютеры с трудом разбираются в повседневных сценариях, потому что им нужно обрабатывать данные, а не звук и изображения, как людям. Когда машина «видит» фотографию, она должна кодировать эту фотографию в данные, которые она может использовать для выполнения такой задачи, как классификация изображений. ИИ может увязнуть, когда входные данные поступают в нескольких форматах, таких как видео, аудиоклипы и изображения.

"Главная проблема здесь заключается в том, как машина может согласовать эти различные модальности? Нам, людям, это легко", - сказал Александр Лю, исследователь из Массачусетского технологического института и первый автор статьи по этому вопросу, в выпуск новостей. «Мы видим машину, а затем слышим звук проезжающей мимо машины, и мы знаем, что это одно и то же. Но для машинного обучения все не так просто».

Команда Лю разработала метод искусственного интеллекта, который, по их словам, учится представлять данные для захвата концепций, общих для визуальных и звуковых данных. Используя эти знания, их модель машинного обучения может определить, где в видео происходит конкретное действие, и пометить его.

Новая модель берет необработанные данные, такие как видео и соответствующие им текстовые подписи, и кодирует их, извлекая признаки или наблюдения за объектами и действиями в видео. Затем он отображает эти точки данных в сетке, известной как пространство встраивания. Модель группирует похожие данные вместе как отдельные точки в сетке; каждая из этих точек данных или векторов представлена отдельным словом.

Например, видеоклип жонглирующего человека может быть сопоставлен с вектором, помеченным как «жонглирование».

Исследователи разработали модель таким образом, что она может использовать только 1000 слов для маркировки векторов. Модель может решить, какие действия или концепции она хочет закодировать в один вектор, но она может использовать только 1000 векторов. Модель выбирает слова, которые, по ее мнению, лучше всего представляют данные.

"Если есть видео о свиньях, модель может назначить слово "свинья" одному из 1000 векторов. Затем, если модель услышит, как кто-то произносит слово "свинья" в аудиоклипе, он все равно должен использовать тот же вектор для кодирования этого», - объяснил Лю.

Ваши видео, декодированные

Улучшенные системы маркировки, подобные той, что разработана Массачусетским технологическим институтом, могут помочь уменьшить предвзятость в области ИИ, заявила в интервью Lifewire по электронной почте Мариан Бесзедес, руководитель отдела исследований и разработок биометрической компании Innovatrics. Бесзедес предположил, что индустрия данных может рассматривать системы ИИ с точки зрения производственного процесса.

«Системы принимают необработанные данные в качестве входных данных (сырье), предварительно обрабатывают их, принимают, принимают решения или прогнозы и выводят аналитику (готовая продукция)», - сказал Бесзедес. «Мы называем этот технологический поток «фабрикой данных», и, как и другие производственные процессы, он должен подвергаться контролю качества. Индустрия данных должна рассматривать предвзятость ИИ как проблему качества.

«С точки зрения потребителя, неправильно маркированные данные затрудняют, например, онлайн-поиск определенных изображений/видео», - добавил Бесзедес. «При правильно разработанном ИИ вы можете делать маркировку автоматически, гораздо быстрее и нейтральнее, чем при ручной маркировке».

Но у модели Массачусетского технологического института есть некоторые ограничения. Во-первых, их исследование сосредоточено на данных из двух источников одновременно, но в реальном мире люди одновременно сталкиваются со многими типами информации, сказал Лю

«И мы знаем, что 1000 слов работают с таким набором данных, но мы не знаем, можно ли это обобщить до реальной проблемы», - добавил Лю.

Исследователи Массачусетского технологического института говорят, что их новая методика превосходит многие аналогичные модели. Если ИИ можно научить понимать видео, вы, возможно, в конечном итоге сможете пропустить просмотр отпускных видеороликов вашего друга и вместо этого получать отчет, сгенерированный компьютером.

Рекомендуемые:

OtterBox теперь будет заряжать ваши устройства в дополнение к их безопасности

OtterBox только что выпустила несколько автономных зарядных устройств, зарядных устройств MagSafe 3-в-1 и кабелей USB-C

Приложение для обеспечения конфиденциальности видео «не может опубликовать это» означает хорошо, но может быть использовано не по назначению

Can't Post Это приложение, разработанное, чтобы дать людям нефизический способ отговорить людей от съемок, но приложение также может быть использовано не по назначению, чтобы раздражать людей

ИИ теперь может понимать ваши видео, просматривая их

Оглавление:

Ключевые выводы

Умный ИИ

Ваши видео, декодированные

Рекомендуемые:

OtterBox теперь будет заряжать ваши устройства в дополнение к их безопасности

Приложение для обеспечения конфиденциальности видео «не может опубликовать это» означает хорошо, но может быть использовано не по назначению

Роботы становятся более социальными, чтобы лучше понимать вас

Новая технология может позволить гаджетам понимать ваши разговоры

Safari теперь будет шифровать ваши закладки iCloud

Как настроить Silicondust HDHomeRun Prime Cablecard Tuner

Бесплатное программное обеспечение для проверки ошибок на CD и DVD

Как использовать пресеты инструментов Photoshop

Как подключить Chromebook к Wi-Fi

Как настроить электронную почту на телефоне Android

Как получить отчет об аккумуляторе Windows 11

Как искать на iPad приложения, музыку или фильмы

Как заменить переключатели на механической клавиатуре

Как изменить фон рабочего стола в Windows 11

Как отключить режим вождения на iPhone

Файл IPSW (Что это такое & Как его открыть)

Кодер искусственного интеллекта DeepMind пока не заменит человека

4 лучших домашних аудиосистемы 2022 года

EXO (что это такое и как его открыть)

Как исправить ошибки, связанные с отсутствием файла Binkw32.dll