Coursera Learner working on a presentation with Coursera logo and

AI Glasses + Multimodal AI: Nowa granica przemysłu

Coursera Learner working on a presentation with Coursera logo and

Najnowsze prezentacje technologiczne firmy OpenAI i Google podkreślają, dlaczego inteligentne okulary są idealną platformą dla czatbotów opartych na sztucznej inteligencji. OpenAI zaprezentował swój model multimodalnej sztucznej inteligencji GPT-4o, a następnie Google przedstawił demonstrację projektu Astra, który w przyszłości zostanie zintegrowany z systemem Gemini firmy Google. Te technologie wykorzystują wejścia wideo i audio, aby pobudzić zaawansowane odpowiedzi czatbota opartego na sztucznej inteligencji.

Prezentacja OpenAI wydaje się bardziej zaawansowana lub odważna niż prezentacja Google’a, z obietnicami publicznej dostępności w ciągu kilku tygodni, w porównaniu z bardziej niejasnym harmonogramem “późniejszego tego roku” firmy Google. OpenAI twierdzi również, że ich nowy model jest dwa razy szybszy i kosztuje połowę mniej niż GPT-4 Turbo, podczas gdy Google nie dostarczyło porównań wydajności ani kosztów dla Astry.

Wcześniej Meta popularyzowała termin „multimodalny” poprzez funkcje w swoich okularach Ray-Ban Meta. Te okulary pozwalają użytkownikom nakazać Metze zrobienie zdjęcia i opisanie tego, co widzi. Jednak poleganie przez Ray-Ban Meta na statycznych obrazach jest niewystarczające w porównaniu z możliwościami wideo demonstrowanymi przez OpenAI i Google.

Wpływ wideo w multimodalnej sztucznej inteligencji

Multimodalna sztuczna inteligencja integruje tekst, audio, zdjęcia i wideo, umożliwiając bardziej ludzką interakcję. Na przykład podczas konferencji Google I/O projekt Astra i nowy model OpenAI mogły analizować i interpretować to, co było wyświetlane na ekranie komputera w czasie rzeczywistym. Inna prezentacja pokazywała, jak GPT-4o korzystał z aparatu telefonu komórkowego, aby opisać otoczenie na podstawie komentarzy i pytań innej osoby.

Ta technologia odzwierciedla ludzkie zdolności, pozwalając sztucznej inteligencji odpowiadać na pytania dotyczące obiektów i ludzi w świecie fizycznym. Reklamodawcy szczególnie interesują się wykorzystaniem wideo w multimodalnej sztucznej inteligencji do oceny emocjonalnego wpływu reklam, jak zauważa Laurie Sullivan w MediaPost.

Przyszłość multimodalnej sztucznej inteligencji wskazuje na AI Glasses

Prezentacje OpenAI i Google wskazują na przyszłość, w której multimodalna sztuczna inteligencja z wideo pozwoli nam naturalnie komunikować się ze środowiskiem za pomocą czatbotów opartych na sztucznej inteligencji. Jednak korzystanie ze smartfonów do pokazywania sztucznej inteligencji tego, co chcemy zobaczyć, jest uciążliwe. Logicznym rozwojem jest przejście do okularów z wideo.

Chwilą warta uwagi w demonstracji Google’a było prototypowe zestawienie okularów z sztuczną inteligencją przejmującego sesję czatowania z smartfona. Ta zmiana sprawiła, że interakcja była bardziej naturalna, ponieważ użytkownik mógł patrzeć na przedmioty, zamiast wskazywać na nie telefonem.

Mimo postępu, mało prawdopodobne jest, że gotowe do użycia konsumenckie okulary z sztuczną inteligencją, takie jak hipotetyczne “Pixel Glasses”, będą dostępne wkrótce. Wcześniejsze badania Google’a nad okularami do tłumaczenia, które wydawały się być odłożone na półkę, teraz wydają się być wczesnym prototypem cech Astry. Okulary do tłumaczenia pokazały tłumaczenie migowe w czasie rzeczywistym, sugerując ulepszone możliwości multimodalnej sztucznej inteligencji z wideo.

Najnowsze postępy, w tym patent przyznany Google’owi na zintegrowanie projektorów laserowych do okularów z sztuczną inteligencją, sugerują ciągłe postępy w technologii okularów z sztuczną inteligencją. Firmy takie jak Luxottica czy Avegant mogą współpracować z firmami zajmującymi się sztuczną inteligencją, aby produkować markowe okulary z sztuczną inteligencją, co może prowadzić do produktów takich jak Okulary OpenAI, Okulary Perplexity czy nawet Okulary Hugging Face.

Przed nami ogromny przemysł okularów z sztuczną inteligencją, który prawdopodobnie pojawi się w przyszłym roku. Integracja wideo w multimodalną sztuczną inteligencję podkreśla potencjalną skalę tego rynku.

Języki

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.