Coursera Learner working on a presentation with Coursera logo and

Lentes de IA + IA Multimodal: Una Nueva Frontera Industrial

Coursera Learner working on a presentation with Coursera logo and

Las recientes demostraciones tecnológicas de OpenAI y Google resaltan por qué las gafas inteligentes son la plataforma ideal para los chatbots de IA. OpenAI mostró su modelo de IA multimodal GPT-4o, seguido por la demostración de Google del Proyecto Astra, que más tarde se integrará en Gemini de Google. Estas tecnologías utilizan entradas de video y audio para generar respuestas sofisticadas de chatbots de IA.

La demostración de OpenAI parece más avanzada o más audaz que la de Google, con promesas de disponibilidad pública dentro de semanas, en comparación con la línea de tiempo más vaga de “más tarde este año” de Google. OpenAI también afirma que su nuevo modelo es el doble de rápido y la mitad del costo del GPT-4 Turbo, mientras que Google no proporcionó comparaciones de rendimiento o costos para Astra.

Anteriormente, Meta popularizó el término “multimodal” a través de características en sus gafas Ray-Ban Meta. Estas gafas permiten a los usuarios ordenarle a Meta que tome una foto y describa lo que ve. Sin embargo, la dependencia de Ray-Ban Meta en imágenes fijas es insuficiente en comparación con las capacidades de video demostradas por OpenAI y Google.

El Impacto del Video en la IA Multimodal

La IA multimodal integra texto, audio, fotos y video, lo que permite una interacción más parecida a la humana. Por ejemplo, durante la conferencia Google I/O, el Proyecto Astra y el nuevo modelo de OpenAI pudieron analizar e interpretar lo que se mostraba en una pantalla de computadora en tiempo real. Otra demostración mostró a GPT-4o utilizando la cámara de un teléfono inteligente para describir el entorno basado en los comentarios y preguntas de otra instancia.

Esta tecnología refleja la capacidad humana, permitiendo que la IA responda preguntas sobre objetos y personas en el mundo físico. Los anunciantes están particularmente interesados en utilizar el video en la IA multimodal para medir el impacto emocional de los anuncios, como señaló Laurie Sullivan en MediaPost.

El Futuro de la IA Multimodal Apunta a las Gafas de IA

Las demostraciones de OpenAI y Google indican un futuro donde la IA multimodal con video nos permite interactuar de manera natural con nuestro entorno a través de chatbots de IA. Sin embargo, usar teléfonos inteligentes para mostrar a la IA lo que queremos que vea es engorroso. La evolución lógica se dirige hacia las gafas de IA habilitadas para video.

Un momento destacado en la demostración de Google involucró a un par de gafas de IA prototipo que tomaron el control de una sesión de chat desde un teléfono inteligente. Esta transición hizo que la interacción fuera más natural, ya que el usuario podía mirar objetos en lugar de señalar un teléfono hacia ellos.

A pesar de este progreso, es poco probable que las gafas de IA listas para el consumidor, como las hipotéticas “Pixel Glasses”, estén disponibles pronto. La investigación previa de Google sobre gafas de traducción, que parecía haber sido archivada, ahora parece haber sido un prototipo temprano para las características de Astra. Las gafas de traducción mostraron traducción de lenguaje de señas en tiempo real, lo que sugiere capacidades de IA multimodal mejoradas por video.

Los desarrollos recientes, incluida una patente otorgada a Google para integrar proyectores láser en gafas de IA, sugieren avances continuos en la tecnología de gafas de IA. Empresas como Luxottica o Avegant podrían asociarse con empresas de IA para producir gafas de IA de marca, lo que podría llevar a productos como OpenAI Glasses, Perplexity Glasses o incluso Hugging Face Glasses.

Una enorme industria de gafas de IA está en el horizonte, con probabilidades de emerger el próximo año. La integración de video en la IA multimodal subraya la escala potencial de este mercado.

Languages

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.