Coursera Learner working on a presentation with Coursera logo and

Occhiali IA + IA Multimodale: Una Nuova Frontiera Industriale

Coursera Learner working on a presentation with Coursera logo and

Le recenti dimostrazioni tecnologiche di OpenAI e Google mettono in evidenza perché gli occhiali intelligenti sono la piattaforma ideale per i chatbot di intelligenza artificiale. OpenAI ha presentato il suo modello di IA multimodale GPT-4o, seguito dalla dimostrazione del progetto Astra di Google, che successivamente si integrerà nel Gemini di Google. Queste tecnologie utilizzano input video e audio per generare risposte sofisticate di chatbot di IA.

La dimostrazione di OpenAI sembra più avanzata o audace rispetto a quella di Google, con promesse di disponibilità pubblica entro settimane, rispetto alla linea temporale più vaga di “più avanti quest’anno” di Google. OpenAI afferma anche che il suo nuovo modello è due volte più veloce e costa la metà del GPT-4 Turbo, mentre Google non ha fornito confronti di prestazioni o costi per Astra.

In precedenza, Meta ha reso popolare il termine “multimodale” attraverso le caratteristiche dei suoi occhiali Ray-Ban Meta. Questi occhiali consentono agli utenti di comandare a Meta di scattare una foto e descrivere ciò che vede. Tuttavia, la dipendenza del Ray-Ban Meta dalle immagini fisse è insufficiente rispetto alle capacità video dimostrate da OpenAI e Google.

L’impatto del video nella IA multimodale

La IA multimodale integra testo, audio, foto e video, consentendo un’interazione più simile a quella umana. Ad esempio, durante la Google I/O, il progetto Astra e il nuovo modello di OpenAI potevano analizzare e interpretare ciò che veniva visualizzato su uno schermo del computer in tempo reale. Un’altra dimostrazione ha mostrato il GPT-4o utilizzando la fotocamera di uno smartphone per descrivere l’ambiente in base ai commenti e alle domande di un’altra istanza.

Questa tecnologia riflette la capacità umana, consentendo all’IA di rispondere a domande su oggetti e persone nel mondo fisico. Gli inserzionisti sono particolarmente interessati a utilizzare il video nella IA multimodale per valutare l’impatto emotivo degli annunci, come notato da Laurie Sullivan in MediaPost.

Il futuro della IA multimodale punta agli occhiali IA

Le dimostrazioni di OpenAI e Google indicano un futuro in cui la IA multimodale con video ci consente di interagire in modo naturale con il nostro ambiente attraverso chatbot di IA. Tuttavia, usare gli smartphone per mostrare all’IA ciò che vogliamo che veda è complicato. L’evoluzione logica è verso gli occhiali IA abilitati al video.

Un momento notevole nella dimostrazione di Google ha coinvolto una coppia di prototipi di occhiali IA che hanno preso il controllo di una sessione di chat da uno smartphone. Questa transizione ha reso l’interazione più naturale, poiché l’utente poteva guardare gli oggetti invece di puntare un telefono verso di essi.

Nonostante questo progresso, è improbabile che gli occhiali IA pronti per i consumatori, come gli ipotetici “Pixel Glasses”, siano disponibili presto. La precedente ricerca di Google sugli occhiali di traduzione, che sembrava essere stata archiviata, sembra ora essere stata un prototipo iniziale delle caratteristiche di Astra. Gli occhiali di traduzione hanno mostrato la traduzione in tempo reale della lingua dei segni, suggerendo capacità di IA multimodale potenziate dal video.

Gli sviluppi recenti, tra cui un brevetto concesso a Google per l’integrazione di proiettori laser negli occhiali IA, suggeriscono progressi continui nella tecnologia degli occhiali IA. Aziende come Luxottica o Avegant potrebbero collaborare con aziende di IA per produrre occhiali IA di marca, portando potenzialmente a prodotti come OpenAI Glasses, Perplexity Glasses o persino Hugging Face Glasses.

Un’ampia industria di occhiali IA è all’orizzonte, probabilmente destinata a emergere l’anno prossimo. L’integrazione del video nella IA multimodale sottolinea la scala potenziale di questo mercato.

lingue

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.