Coursera Learner working on a presentation with Coursera logo and

Was ist Generative KI?

Coursera Learner working on a presentation with Coursera logo and

Generative KI ermöglicht es Benutzern, schnell neue Inhalte auf der Grundlage verschiedener Eingaben zu erstellen. Diese Eingaben und Ausgaben können Texte, Bilder, Geräusche, Animationen, 3D-Modelle oder andere Datenarten umfassen.

Bild, das verschiedene Formen von durch KI-Modellen erzeugten Inhalten darstellt.

Wie funktioniert Generative KI?

Generative KI-Modelle verwenden neuronale Netze, um Muster und Strukturen in vorhandenen Daten zu identifizieren und neue, originelle Inhalte zu generieren.

Ein Durchbruch bei generativen KI-Modellen ist die Fähigkeit, verschiedene Lernansätze zu nutzen, einschließlich unüberwachtem oder halbüberwachtem Lernen für das Training. Dies ermöglicht es Organisationen, eine große Menge unbeschrifteter Daten schnell und einfach zu nutzen, um Grundlagenmodelle zu erstellen. Grundlagenmodelle können als Basis für KI-Systeme verwendet werden, die mehrere Aufgaben ausführen können.

Diagramm, das das Konzept der Grundlagenmodelle veranschaulicht.

Beispiele für Grundlagenmodelle sind GPT-3 und Stable Diffusion. Beliebte Anwendungen wie ChatGPT, das auf GPT-3 basiert, ermöglichen es Benutzern beispielsweise, einen Aufsatz basierend auf einer kurzen Texteingabe zu erstellen. Andererseits ermöglicht Stable Diffusion Benutzern, fotorealistische Bilder auf Basis einer Texteingabe zu erzeugen.

Wie bewertet man Generative KI-Modelle?

Die drei Hauptanforderungen an ein erfolgreiches generatives KI-Modell sind:

  • Qualität: Hohe Qualität der generierten Ausgaben ist entscheidend, insbesondere für Anwendungen, die direkt mit Benutzern interagieren. Zum Beispiel ist bei der Sprachgenerierung eine schlechte Sprachqualität schwer zu verstehen. Ebenso sollten bei der Bilderzeugung die gewünschten Ausgaben visuell nicht von natürlichen Bildern zu unterscheiden sein.
  • Vielfalt: Ein gutes generatives Modell erfasst die Minderheitsmodi in seiner Datenverteilung, ohne die Qualität der Generierung zu beeinträchtigen. Dies hilft, unerwünschte Verzerrungen in den gelernten Modellen zu reduzieren.
  • Geschwindigkeit: Viele interaktive Anwendungen erfordern eine schnelle Generierung, wie z.B. die Echtzeit-Bearbeitung von Bildern, um die Nutzung in Arbeitsabläufen zur Inhaltserstellung zu ermöglichen.

Abbildung 1: Die drei Anforderungen an ein erfolgreiches generatives KI-Modell.

Wie entwickelt man Generative KI-Modelle?

Es gibt verschiedene Arten von generativen Modellen, und die Kombination ihrer positiven Eigenschaften ermöglicht es, noch leistungsfähigere Modelle zu erstellen. Im Folgenden eine Übersicht:

Diffusionsmodelle

Auch bekannt als denoising diffusion probabilistic models (DDPMs), sind Diffusionsmodelle generative Modelle, die Vektoren im latenten Raum durch einen zweistufigen Prozess während des Trainings bestimmen. Die beiden Schritte sind Vorwärtsdiffusion und Rückwärtsdiffusion. Der Vorwärtsdiffusionsprozess fügt den Trainingsdaten langsam zufälliges Rauschen hinzu, während der Rückwärtsprozess das Rauschen umkehrt, um die Datensamples zu rekonstruieren. Neue Daten können generiert werden, indem der umgekehrte Entrauschungsprozess von vollständig zufälligem Rauschen aus gestartet wird.

Abbildung 2: Der Diffusions- und Entrauschungsprozess.

Ein Diffusionsmodell kann länger zum Trainieren benötigen als ein variational autoencoder (VAE)-Modell, aber dank dieses zweistufigen Prozesses können Hunderte, wenn nicht unendlich viele Schichten trainiert werden. Das bedeutet, dass Diffusionsmodelle im Allgemeinen die qualitativ hochwertigsten Ausgaben bieten, wenn generative KI-Modelle erstellt werden. Zusätzlich werden Diffusionsmodelle auch als Grundlagenmodelle kategorisiert, da sie groß angelegt sind, qualitativ hochwertige Ausgaben bieten, flexibel sind und für allgemeine Anwendungsfälle am besten geeignet sind. Aufgrund des umgekehrten Samplingprozesses ist das Ausführen von Grundlagenmodellen jedoch ein langsamer, langwieriger Prozess.

Erfahren Sie mehr über die Mathematik der Diffusionsmodelle in diesem Blogbeitrag.

Variationale Autoencoder (VAEs)

VAEs bestehen aus zwei neuronalen Netzen, die typischerweise als Encoder und Decoder bezeichnet werden. Bei einer Eingabe wandelt ein Encoder sie in eine kleinere, dichtere Darstellung der Daten um. Diese komprimierte Darstellung bewahrt die Informationen, die für einen Decoder erforderlich sind, um die ursprünglichen Eingabedaten zu rekonstruieren, während irrelevante Informationen verworfen werden. Der Encoder und der Decoder arbeiten zusammen, um eine effiziente und einfache latente Datenrepräsentation zu lernen. Dies ermöglicht es dem Benutzer, neue latente Repräsentationen einfach zu sampeln, die durch den Decoder zur Erzeugung neuer Daten gemappt werden können. Während VAEs Ausgaben wie Bilder schneller generieren können, sind die von ihnen generierten Bilder nicht so detailliert wie die von Diffusionsmodellen.

Generative Adversarial Networks (GANs)

Entdeckt im Jahr 2014, galten GANs als die am häufigsten verwendete Methodik der drei, bevor der jüngste Erfolg der Diffusionsmodelle eintrat. GANs setzen zwei neuronale Netze gegeneinander: einen Generator, der neue Beispiele generiert, und einen Diskriminator, der lernt, den generierten Inhalt als entweder real (aus der Domäne) oder gefälscht (generiert) zu unterscheiden. Die beiden Modelle werden zusammen trainiert und werden schlauer, da der Generator besseren Inhalt produziert und der Diskriminator besser darin wird, den generierten Inhalt zu erkennen. Dieses Verfahren wiederholt sich und zwingt beide dazu, sich nach jeder Iteration kontinuierlich zu verbessern, bis der generierte Inhalt nicht mehr vom bestehenden Inhalt zu unterscheiden ist.

Obwohl GANs qualitativ hochwertige Samples liefern und schnell Ausgaben generieren können, ist die Stichprobenvielfalt schwach, was GANs besser für domänenspezifische Datengeneration geeignet macht.

Transformer-Netzwerke

Ein weiterer Faktor bei der Entwicklung generativer Modelle ist die darunter liegende Architektur. Eine der beliebtesten ist das Transformer-Netzwerk. Ähnlich wie rekurrente neuronale Netze sind Transformer so konzipiert, dass sie sequentielle Eingabedaten nicht-sequentiell verarbeiten. Zwei Mechanismen machen Transformer besonders geeignet für textbasierte generative KI-Anwendungen: Selbstaufmerksamkeit und Positionskodierungen. Beide Technologien helfen, Zeit zu repräsentieren und dem Algorithmus zu ermöglichen, sich darauf zu konzentrieren, wie Wörter über große Entfernungen miteinander in Beziehung stehen.

Eine Selbstaufmerksamkeitsschicht weist jedem Teil einer Eingabe ein Gewicht zu. Das Gewicht gibt die Bedeutung dieser Eingabe im Kontext des Rests der Eingabe an. Die Positionskodierung ist eine Darstellung der Reihenfolge, in der Eingabewörter vorkommen.

Ein Transformer besteht aus mehreren Transformer-Blöcken, auch als Schichten bekannt. Zum Beispiel hat ein Transformer Selbstaufmerksamkeitsschichten, Feed-Forward-Schichten und Normalisierungsschichten, die zusammenarbeiten, um Ströme von tokenisierten Daten zu entschlüsseln und vorherzusagen, die Texte, Proteinsequenzen oder sogar Bildausschnitte umfassen könnten.

Was sind die Anwendungsfälle von Generativer KI?

Generative KI ist ein leistungsfähiges Werkzeug zur Rationalisierung des Arbeitsablaufs von Kreativen, Ingenieuren, Forschern, Wissenschaftlern und mehr. Die Anwendungsfälle und Möglichkeiten erstrecken sich über alle Branchen und Einzelpersonen. Generative KI-Modelle können Eingaben wie Text, Bild, Audio, Video und Code aufnehmen und neuen Inhalt in eine der genannten Modalitäten generieren. Zum Beispiel kann sie Texteingaben in ein Bild umwandeln, ein Bild in ein Lied verwandeln oder ein Video in Text umwandeln.

Hier sind die beliebtesten generativen KI-Anwendungen:

  • Sprache: Text steht im Mittelpunkt vieler generativer KI-Modelle und wird als die am weitesten fortgeschrittene Domäne betrachtet. Große Sprachmodelle werden für eine Vielzahl von Aufgaben genutzt, einschließlich der Erstellung von Aufsätzen, der Codeentwicklung, der Übersetzung und sogar des Verständnisses genetischer Sequenzen.
  • Audio: Musik, Audio und Sprache sind ebenfalls aufstrebende Felder innerhalb der generativen KI. Beispiele umfassen Modelle, die in der Lage sind, Songs und Audioausschnitte mit Texteingaben zu entwickeln, Objekte in Videos zu erkennen und begleitende Geräusche für verschiedene Videoaufnahmen zu erstellen und sogar benutzerdefinierte Musik zu komponieren.
  • Visuell: Einer der beliebtesten Anwendungsbereiche der generativen KI liegt im Bereich der Bilder. Dies umfasst die Erstellung von 3D-Bildern, Avataren, Videos, Grafiken und anderen Illustrationen. Generative KI-Modelle können Grafiken erzeugen, die neue chemische Verbindungen und Moleküle zeigen, die bei der Arzneimittelentdeckung helfen, realistische Bilder für virtuelle oder erweiterte Realität erstellen, 3D-Modelle für Videospiele produzieren, Logos entwerfen, bestehende Bilder verbessern oder bearbeiten und vieles mehr.
  • Synthetische Daten: Synthetische Daten sind extrem nützlich, um KI-Modelle zu trainieren, wenn Daten nicht existieren, eingeschränkt sind oder einfach nicht in der Lage sind, Randfälle mit höchster Genauigkeit zu adressieren. Die Entwicklung synthetischer Daten durch generative Modelle ist vielleicht eine der wirkungsvollsten Lösungen zur Überwindung der Datenherausforderungen vieler Unternehmen. Sie erstreckt sich über alle Modalitäten und Anwendungsfälle und ist durch einen Prozess namens Label Efficient Learning möglich.

    Was sind die Herausforderungen der generativen KI?

    Als sich entwickelnder Raum befinden sich generative Modelle noch in einem frühen Stadium und bieten in mehreren Bereichen Raum für Wachstum:

    Umfang der Recheninfrastruktur: Generative KI-Modelle können Milliarden von Parametern aufweisen und erfordern für das Training schnelle und effiziente Datenpipelines. Für die Pflege und Entwicklung generativer Modelle sind erhebliche Kapitalinvestitionen, technisches Fachwissen und eine umfangreiche Recheninfrastruktur erforderlich. Beispielsweise könnten für das Training von Diffusionsmodellen Millionen oder Milliarden von Bildern erforderlich sein, was eine enorme Rechenleistung und Hunderte von GPUs erfordern würde.
    Sampling-Geschwindigkeit: Aufgrund der Größe generativer Modelle kann es zu Latenz bei der Zeit kommen, die zum Generieren einer Instanz benötigt wird. Insbesondere bei interaktiven Anwendungsfällen wie Chatbots, KI-Sprachassistenten oder Kundendienstanwendungen müssen Gespräche sofort und präzise erfolgen.
    Mangel an qualitativ hochwertigen Daten: Generative KI-Modelle erfordern für den Betrieb hochwertige, unvoreingenommene Daten. In einigen Bereichen fehlen ausreichende Daten, um ein Modell zu trainieren, und die Entwicklung hochwertiger 3D-Assets ist teuer.
    Datenlizenzen: Viele Unternehmen haben Schwierigkeiten, eine kommerzielle Lizenz für die Nutzung vorhandener Datensätze zu erhalten oder maßgeschneiderte Datensätze zum Trainieren generativer Modelle zu erstellen. Dieser Prozess ist von entscheidender Bedeutung, um Probleme mit der Verletzung geistigen Eigentums zu vermeiden.

     

    Was sind die Vorteile der generativen KI?

    Generative KI bietet zahlreiche Vorteile in verschiedenen Bereichen. Zu den wichtigsten Vorteilen gehören:

    Erstellung neuer, origineller Inhalte: Generative KI-Algorithmen können neue und einzigartige Inhalte wie Bilder, Videos und Texte erzeugen, die nicht von von Menschen erstellten Inhalten zu unterscheiden sind. Dies ist besonders wertvoll für Anwendungen in den Bereichen Unterhaltung, Werbung und kreative Künste.
    Steigerung der Effizienz und Genauigkeit: Generative KI kann die Leistung bestehender KI-Systeme verbessern, einschließlich der Verarbeitung natürlicher Sprache und Computer Vision. Diese Algorithmen können beispielsweise synthetische Daten generieren, um andere KI-Modelle zu trainieren und zu bewerten und so deren Genauigkeit und Effizienz zu verbessern.
    Datenexploration und -analyse: Generative KI ermöglicht es Unternehmen und Forschern, komplexe Datensätze auf innovative Weise zu erkunden und zu analysieren. Diese Funktion hilft dabei, versteckte Muster und Trends aufzudecken, die in Rohdaten möglicherweise nicht sichtbar sind.
    Automatisierung und Beschleunigung: Durch die Automatisierung und Beschleunigung verschiedener Aufgaben und Prozesse spart generative KI Zeit und Ressourcen für Unternehmen und Organisationen und macht den Betrieb effizienter.

    Insgesamt birgt generative KI das Potenzial, eine Vielzahl von Branchen und Anwendungen zu revolutionieren. Aufgrund seiner weitreichenden Wirkung und Vielseitigkeit ist es ein entscheidender Bereich der KI-Forschung und -Entwicklung.

Languages

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.