Coursera Learner working on a presentation with Coursera logo and

Lunettes IA + IA multimodale : une nouvelle frontière industrielle

Coursera Learner working on a presentation with Coursera logo and

Les démonstrations technologiques récentes d’OpenAI et de Google mettent en lumière pourquoi les lunettes intelligentes sont la plateforme idéale pour les chatbots IA. OpenAI a présenté son modèle IA multimodal GPT-4o, suivi de la démonstration de Google du projet Astra, qui sera intégré ultérieurement dans le Gemini de Google. Ces technologies utilisent des entrées vidéo et audio pour susciter des réponses sophistiquées de chatbots IA.

La démonstration d’OpenAI semble plus avancée ou plus audacieuse que celle de Google, avec des promesses de disponibilité publique dans quelques semaines, comparé à l’échéance plus vague de “plus tard dans l’année” de Google. OpenAI affirme également que son nouveau modèle est deux fois plus rapide et moitié moins cher que le GPT-4 Turbo, alors que Google n’a pas fourni de comparaisons de performances ou de coûts pour Astra.

Précédemment, Meta a popularisé le terme “multimodal” à travers les fonctionnalités de ses lunettes Ray-Ban Meta. Ces lunettes permettent aux utilisateurs de commander à Meta de prendre une photo et de décrire ce qu’elle voit. Cependant, la dépendance des Ray-Ban Meta aux images fixes est insuffisante par rapport aux capacités vidéo démontrées par OpenAI et Google.

L’impact de la vidéo dans l’IA multimodale

L’IA multimodale intègre du texte, de l’audio, des photos et de la vidéo, permettant une interaction plus humaine. Par exemple, lors de la conférence Google I/O, le projet Astra et le nouveau modèle d’OpenAI pouvaient analyser et interpréter ce qui était affiché sur un écran d’ordinateur en temps réel. Une autre démonstration a montré GPT-4o utilisant une caméra de smartphone pour décrire l’environnement en fonction des commentaires et des questions d’une autre instance.

Cette technologie reflète les capacités humaines, permettant à l’IA de répondre à des questions sur des objets et des personnes dans le monde physique. Les annonceurs sont particulièrement intéressés par l’utilisation de la vidéo dans l’IA multimodale pour évaluer l’impact émotionnel des publicités, comme le note Laurie Sullivan dans MediaPost.

L’avenir de l’IA multimodale pointe vers les lunettes IA

Les démonstrations d’OpenAI et de Google indiquent un avenir où l’IA multimodale avec vidéo nous permettra d’interagir naturellement avec notre environnement grâce à des chatbots IA. Cependant, l’utilisation de smartphones pour montrer à l’IA ce que nous voulons qu’elle voie est fastidieuse. L’évolution logique va vers des lunettes IA activées par la vidéo.

Un moment notable dans la démo de Google impliquait une paire de lunettes IA prototype prenant le relais d’une session de chat à partir d’un smartphone. Cette transition rendait l’interaction plus naturelle, l’utilisateur pouvant regarder les objets au lieu de pointer un téléphone vers eux.

Malgré ces progrès, il est peu probable que des lunettes IA prêtes pour les consommateurs, comme les hypothétiques “Pixel Glasses”, soient disponibles bientôt. La précédente recherche de Google sur les lunettes de traduction, qui semblait avoir été abandonnée, semble maintenant avoir été un prototype précoce des fonctionnalités d’Astra. Les lunettes de traduction ont présenté une traduction en langue des signes en temps réel, laissant présager des capacités d’IA multimodale améliorées par la vidéo.

Les développements récents, y compris un brevet accordé à Google pour l’intégration de projecteurs laser dans des lunettes IA, suggèrent des avancées continues dans la technologie des lunettes IA. Des entreprises comme Luxottica ou Avegant pourraient s’associer avec des entreprises d’IA pour produire des lunettes IA de marque, conduisant potentiellement à des produits comme les OpenAI Glasses, les Perplexity Glasses, voire les Hugging Face Glasses.

Une énorme industrie des lunettes IA se profile à l’horizon, susceptible d’émerger l’année prochaine. L’intégration de la vidéo dans l’IA multimodale souligne l’ampleur potentielle de ce marché.

Langages

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.