Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

AI-brillen + Multimodale AI: Een Nieuwe Industriële Frontier

Recente technologiedemonstraties door OpenAI en Google benadrukken waarom slimme brillen het ideale platform zijn voor AI-chatbots. OpenAI presenteerde zijn GPT-4o multimodale AI-model, gevolgd door de demonstratie van Project Astra door Google, dat later zal worden geïntegreerd in Google’s Gemini. Deze technologieën gebruiken video- en audio-invoer om geavanceerde AI-chatbotreacties te stimuleren.

De demonstratie van OpenAI lijkt geavanceerder of gedurfder dan die van Google, met beloften van openbare beschikbaarheid binnen enkele weken, in vergelijking met de meer vage tijdslijn van “later dit jaar” van Google. OpenAI beweert ook dat zijn nieuwe model twee keer zo snel is en de helft van de kosten van GPT-4 Turbo, terwijl Google geen prestatie- of kostvergelijkingen voor Astra heeft verstrekt.

Eerder populariseerde Meta de term “multimodaal” via functies in zijn Ray-Ban Meta-brillen. Deze brillen stellen gebruikers in staat om Meta opdracht te geven een foto te nemen en te beschrijven wat het ziet. De afhankelijkheid van de Ray-Ban Meta van stilstaande beelden valt echter in het niet vergeleken met de videomogelijkheden die zijn gedemonstreerd door OpenAI en Google.

De Impact van Video in Multimodale AI

Multimodale AI integreert tekst, audio, foto’s en video, waardoor een meer menselijke interactie mogelijk is. Tijdens Google I/O konden Project Astra en het nieuwe model van OpenAI bijvoorbeeld analyseren en interpreteren wat er in realtime op een computerscherm werd weergegeven. Een andere demonstratie toonde GPT-4o die een smartphonecamera gebruikte om de omgeving te beschrijven op basis van opmerkingen en vragen van een andere gebruiker.

Deze technologie weerspiegelt menselijke mogelijkheden, waardoor AI vragen kan beantwoorden over objecten en mensen in de fysieke wereld. Adverteerders zijn met name geïnteresseerd in het gebruik van video in multimodale AI om de emotionele impact van advertenties te meten, zoals opgemerkt door Laurie Sullivan in MediaPost.

De Toekomst van Multimodale AI Wijst naar AI-brillen

De demo’s van OpenAI en Google duiden op een toekomst waarin multimodale AI met video ons in staat stelt om op natuurlijke wijze te communiceren met onze omgeving via AI-chatbots. Het gebruik van smartphones om AI te laten zien wat we willen dat het ziet, is echter omslachtig. De logische evolutie gaat richting AI-brillen met video.

Een opmerkelijk moment in de demonstratie van Google betrof een prototypepaar AI-brillen dat een chatsessie overnam van een smartphone. Deze overgang maakte de interactie natuurlijker, omdat de gebruiker naar objecten kon kijken in plaats van een telefoon naar ze te wijzen.

Ondanks deze vooruitgang is het onwaarschijnlijk dat consumentenklare AI-brillen, zoals het hypothetische “Pixel Glasses,” binnenkort beschikbaar zullen zijn. Het eerdere onderzoek van Google naar vertaalbrillen, dat leek te zijn opgeborgen, lijkt nu een vroeg prototype te zijn geweest voor de functies van Astra. De vertaalbrillen toonden realtime vertaling van gebarentaal, wat wijst op multimodale AI-mogelijkheden met verbeterde video.

Recente ontwikkelingen, waaronder een octrooi dat aan Google is verleend voor het integreren van laserprojectoren in AI-brillen, suggereren voortdurende vooruitgang in de technologie van AI-brillen. Bedrijven als Luxottica of Avegant zouden kunnen samenwerken met AI-bedrijven om merkgebonden AI-brillen te produceren, met mogelijk producten als OpenAI-brillen, Perplexity-brillen of zelfs Hugging Face-brillen.

Een enorme AI-brillenindustrie staat op het punt te ontstaan en zal waarschijnlijk volgend jaar verschijnen. De integratie van video in multimodale AI benadrukt het potentiële bereik van deze markt.

Talen

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.