Coursera Learner working on a presentation with Coursera logo and

Óculos de IA + IA Multimodal: Uma Nova Fronteira na Indústria

Coursera Learner working on a presentation with Coursera logo and

As recentes demonstrações de tecnologia da OpenAI e do Google destacam por que os óculos inteligentes são a plataforma ideal para chatbots de IA. A OpenAI apresentou seu modelo de IA multimodal GPT-4o, seguido pela demonstração do Projeto Astra do Google, que posteriormente será integrado ao Gemini do Google. Essas tecnologias utilizam entradas de vídeo e áudio para gerar respostas sofisticadas de chatbots de IA.

A demonstração da OpenAI parece mais avançada ou ousada do que a do Google, com promessas de disponibilidade pública dentro de algumas semanas, em comparação com a linha do tempo mais vaga do Google de “ainda este ano”. A OpenAI também afirma que seu novo modelo é duas vezes mais rápido e metade do custo do GPT-4 Turbo, enquanto o Google não forneceu comparações de desempenho ou custo para o Astra.

Anteriormente, a Meta popularizou o termo “multimodal” através de recursos em seus óculos Ray-Ban Meta. Esses óculos permitem que os usuários ordenem que o Meta tire uma foto e descreva o que vê. No entanto, a dependência do Ray-Ban Meta em imagens estáticas é insuficiente em comparação com as capacidades de vídeo demonstradas pela OpenAI e pelo Google.

O Impacto do Vídeo na IA Multimodal

A IA multimodal integra texto, áudio, fotos e vídeo, permitindo uma interação mais semelhante à humana. Por exemplo, durante a Google I/O, o Projeto Astra e o novo modelo da OpenAI puderam analisar e interpretar o que estava sendo exibido em uma tela de computador em tempo real. Outra demonstração mostrou o GPT-4o usando a câmera de um smartphone para descrever o ambiente com base nos comentários e perguntas de outra instância.

Essa tecnologia espelha a capacidade humana, permitindo que a IA responda a perguntas sobre objetos e pessoas no mundo físico. Os anunciantes estão particularmente interessados em usar vídeo na IA multimodal para avaliar o impacto emocional dos anúncios, como observado por Laurie Sullivan no MediaPost.

O Futuro da IA Multimodal Aponta para Óculos de IA

As demonstrações da OpenAI e do Google indicam um futuro onde a IA multimodal com vídeo nos permite interagir naturalmente com nosso ambiente através de chatbots de IA. No entanto, usar smartphones para mostrar à IA o que queremos que ela veja é complicado. A evolução lógica é em direção aos óculos de IA habilitados para vídeo.

Um momento notável na demonstração do Google envolveu um par de óculos de IA protótipo assumindo uma sessão de chat de um smartphone. Essa transição tornou a interação mais natural, pois o usuário poderia olhar para objetos em vez de apontar um telefone para eles.

Apesar desse progresso, é improvável que óculos de IA prontos para o consumidor, como os hipotéticos “Pixel Glasses”, estejam disponíveis em breve. Pesquisas anteriores do Google sobre óculos de tradução, que pareciam ter sido arquivadas, agora parecem ter sido um protótipo inicial das características do Astra. Os óculos de tradução mostraram tradução em tempo real da linguagem de sinais, sugerindo capacidades de IA multimodal aprimoradas por vídeo.

Desenvolvimentos recentes, incluindo uma patente concedida ao Google para integrar projetores a laser em óculos de IA, sugerem avanços contínuos na tecnologia de óculos de IA. Empresas como Luxottica ou Avegant poderiam se associar a empresas de IA para produzir óculos de IA de marca, potencialmente levando a produtos como OpenAI Glasses, Perplexity Glasses ou até Hugging Face Glasses.

Uma enorme indústria de óculos de IA está no horizonte, provavelmente surgindo no próximo ano. A integração de vídeo na IA multimodal destaca a escala potencial desse mercado.

línguas

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.