Coursera Learner working on a presentation with Coursera logo and

AI Очки + Мультимодальный ИИ: Новая отраслевая граница

Coursera Learner working on a presentation with Coursera logo and

Недавние технические демонстрации от OpenAI и Google подчеркивают, почему умные очки – идеальная платформа для чат-ботов на основе искусственного интеллекта. OpenAI продемонстрировала свою модель мультимодального искусственного интеллекта GPT-4o, за которой последовала демонстрация проекта Astra от Google, который впоследствии интегрируется в Gemini Google. Эти технологии используют видео- и аудиовходы для вызова сложных ответов чат-бота на основе искусственного интеллекта.

Демонстрация OpenAI кажется более продвинутой или смелой по сравнению с демонстрацией Google, с обещаниями общедоступности в течение нескольких недель, по сравнению с более неопределенным графиком Google “позднее в этом году”. OpenAI также утверждает, что их новая модель вдвое быстрее и вдвое дешевле, чем GPT-4 Turbo, в то время как Google не предоставил сравнений производительности или стоимости для Astra.

Ранее Meta популяризировала термин “мультимодальный” через функции в своих очках Ray-Ban Meta. Эти очки позволяют пользователям командовать Meta сделать снимок и описать то, что он видит. Однако зависимость Ray-Ban Meta от статических изображений уступает возможностям видео, продемонстрированным OpenAI и Google.

Влияние видео в мультимодальном ИИ

Мультимодальный ИИ интегрирует текст, аудио, фото и видео, обеспечивая более человекоподобное взаимодействие. Например, во время конференции Google I/O проект Astra и новая модель OpenAI могли анализировать и интерпретировать то, что отображалось на экране компьютера в реальном времени. Другая демонстрация показала, как GPT-4o использовал камеру смартфона, чтобы описать окружение на основе комментариев и вопросов другого лица.

Эта технология отражает человеческие способности, позволяя ИИ отвечать на вопросы об объектах и людях в физическом мире. Рекламодатели особенно заинтересованы в использовании видео в мультимодальном ИИ для оценки эмоционального воздействия рекламы, как отмечает Лори Салливан в MediaPost.

Будущее мультимодального ИИ указывает на AI-очки

Демонстрации от OpenAI и Google указывают на будущее, где мультимодальный ИИ с видео позволяет нам естественно взаимодействовать с окружающей средой через чат-ботов на основе ИИ. Однако использование смартфонов для показа ИИ того, что мы хотим увидеть, неудобно. Логическим развитием является переход к AI-очкам с видео.

Заметным моментом в демонстрации Google была прототипная пара AI-очков, которые перехватили сеанс чата с смартфона. Этот переход сделал взаимодействие более естественным, так как пользователь мог смотреть на объекты, а не указывать на них телефоном.

Несмотря на этот прогресс, маловероятно, что готовые к использованию потребительские AI-очки, например, гипотетические “Pixel Glasses”, будут доступны в ближайшее время. Предыдущие исследования Google по трансляционным очкам, которые, по-видимому, были отложены, теперь кажутся ранним прототипом функций Astra. Трансляционные очки демонстрировали перевод жестового языка в реальном времени, намекая на улучшенные возможности мультимодального ИИ с видео.

Недавние разработки, включая патент, предоставленный Google на интеграцию лазерных проекторов в AI-очки, указывают на постоянное развитие технологии AI-очков. Компании, такие как Luxottica или Avegant, могут сотрудничать с фирмами по искусственному интеллекту для производства брендовых AI-очков, что потенциально может привести к продуктам, таким как Очки OpenAI, Очки Perplexity или даже Очки Hugging Face.

Перед нами огромная отрасль AI-очков, которая, вероятно, появится в следующем году. Интеграция видео в мультимодальный ИИ подчеркивает потенциальный масштаб этого рынка.

Языки

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.