Coursera Learner working on a presentation with Coursera logo and

Künstliche Intelligenz (KI)-Brillen + Multimodale KI: Eine neue Branchenfront

Coursera Learner working on a presentation with Coursera logo and

Neueste Technikdemos von OpenAI und Google verdeutlichen, warum intelligente Brillen die ideale Plattform für KI-Chatbots sind. OpenAI präsentierte sein multimodales KI-Modell GPT-4o, gefolgt von Googles Demonstration von Projekt Astra, das später in Googles Gemini integriert werden soll. Diese Technologien nutzen Video- und Audioeingaben, um anspruchsvolle KI-Chatbot-Antworten auszulösen.

Die Demonstration von OpenAI scheint fortschrittlicher oder kühner zu sein als die von Google, mit Versprechungen einer öffentlichen Verfügbarkeit innerhalb von Wochen im Vergleich zu Googles vageren Zeitplan “später in diesem Jahr”. OpenAI behauptet auch, dass sein neues Modell doppelt so schnell und halb so teuer ist wie GPT-4 Turbo, während Google keine Leistungs- oder Kostendaten für Astra bereitgestellt hat.

Zuvor popularisierte Meta den Begriff “multimodal” durch Funktionen in seinen Ray-Ban Meta-Brillen. Diese Brillen ermöglichen es Benutzern, Meta zu befehlen, ein Bild zu machen und zu beschreiben, was es sieht. Die Abhängigkeit der Ray-Ban Meta von Standbildern ist jedoch im Vergleich zu den Video-Fähigkeiten, die von OpenAI und Google demonstriert wurden, begrenzt.

Die Auswirkungen von Video in der multimodalen KI

Multimodale KI integriert Text, Audio, Fotos und Video und ermöglicht eine menschenähnlichere Interaktion. Zum Beispiel konnten während der Google I/O Project Astra und OpenAIs neues Modell analysieren und interpretieren, was in Echtzeit auf einem Computerbildschirm angezeigt wurde. Eine weitere Demo zeigte GPT-4o, wie es mithilfe einer Smartphone-Kamera Umgebungen basierend auf Kommentaren und Fragen einer anderen Instanz beschreibt.

Diese Technologie spiegelt menschliche Fähigkeiten wider und ermöglicht es KI, Fragen zu Objekten und Personen in der physischen Welt zu beantworten. Insbesondere Werbetreibende interessieren sich dafür, Video in multimodaler KI zu verwenden, um die emotionale Wirkung von Anzeigen zu messen, wie Laurie Sullivan in MediaPost feststellt.

Die Zukunft der multimodalen KI deutet auf KI-Brillen hin

Die Demos von OpenAI und Google deuten auf eine Zukunft hin, in der multimodale KI mit Video es uns ermöglicht, auf natürliche Weise mit unserer Umgebung durch KI-Chatbots zu interagieren. Die Verwendung von Smartphones, um der KI zu zeigen, was wir sehen wollen, ist jedoch umständlich. Die logische Entwicklung geht hin zu videoaktivierten KI-Brillen.

Ein bemerkenswerter Moment in Googles Demo war, als ein Prototyppaar von KI-Brillen eine Chat-Sitzung von einem Smartphone übernahm. Dieser Übergang machte die Interaktion natürlicher, da der Benutzer Objekte betrachten konnte, anstatt ein Telefon auf sie zu richten.

Trotz dieses Fortschritts ist es unwahrscheinlich, dass für Verbraucher geeignete KI-Brillen wie hypothetische “Pixel-Brillen” bald verfügbar sein werden. Googles frühere Forschung zu Übersetzungsbrillen, die anscheinend auf Eis gelegt wurden, scheint nun ein früher Prototyp für die Funktionen von Astra gewesen zu sein. Die Übersetzungsbrillen zeigten eine Echtzeitübersetzung von Gebärdensprache und deuteten auf Video-verbesserte multimodale KI-Fähigkeiten hin.

Aktuelle Entwicklungen, einschließlich eines von Google gewährten Patents zur Integration von Laserprojektoren in KI-Brillen, deuten auf kontinuierliche Fortschritte in der KI-Brillentechnologie hin. Unternehmen wie Luxottica oder Avegant könnten mit KI-Firmen zusammenarbeiten, um Marken-KI-Brillen herzustellen, was möglicherweise zu Produkten wie OpenAI-Brillen, Perplexity-Brillen oder sogar Hugging Face-Brillen führen könnte.

Eine massive KI-Brillenindustrie steht bevor und wird voraussichtlich nächstes Jahr entstehen. Die Integration von Video in multimodale KI unterstreicht das potenzielle Ausmaß dieses Marktes.

Languages

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.