Unzureichende Trainingsdaten sind wohl das schwierigste Problem bei der Verarbeitung natürlicher Sprache, besser bekannt als NLP. Für diejenigen, die sich nicht auskennen, ist NLP ein unglaublich vielfältiges Gebiet mit verschiedenen unterschiedlichen Aufgaben. In den meisten Fällen bestehen aufgabenspezifische Datensätze aus Hunderten oder Tausenden von Trainingsbeispielen (von Menschen beschriftet).

Abgesehen davon profitieren moderne Modelle zur Verarbeitung natürlicher Sprache beim tiefen Lernen von beträchtlichen Datenmengen. Sie erfordern Millionen, wenn nicht Milliarden von Trainingsbeispielen mit Anmerkungen. Forscher haben hart gearbeitet und eine Lösung erfunden, um diese Datenlücke zu schließen. Sie entwickelten verschiedene Techniken zum Trainieren von GPL-Modellen (General-Purpose Language) unter Verwendung von tonnenweise kommentiertem Text, auch Pre-Training genannt.

Programmierer können dann die vortrainierten Modelle auf NLP-Aufgaben mit kleinen Daten wie Stimmungsanalysen und Fragenbeantwortung feinabstimmen, was zu unglaublichen Genauigkeitsverbesserungen führt, die deutlich besser sind als die von Anfang an trainierten Datensätze.

Was ist BERT?

BERT, die Abkürzung für Bidirectional Encoder Representations from Transformers, hat massive Wellen in der Landschaft des maschinellen Lernens geschlagen. Eine Gruppe von Forschern, die an der Google KI-Sprache arbeiten, veröffentlichte kürzlich BERT. BERT erregt Aufsehen wegen seiner unglaublich genauen Ergebnisse bei verschiedenen natürlichsprachlichen Programmieraufgaben wie MNLI (natürlichsprachliche Inferenz), Squad V1.1 (Beantwortung von Fragen) und einigen anderen.

Die Implementierung der Transformer-Schulung ist ein wichtiger Grund dafür, dass die Gemeinschaft für maschinelles Lernen das BERT als eine wesentliche technische Innovation betrachtet. Die Sprachmodellierung des BERT verspricht, das maschinelle Lernen zu neuen Höhen zu führen. Es steht im Gegensatz zu den früheren Bemühungen, die sich auf Textsequenzen konzentrierten, die von rechts nach links oder von links nach rechts trainiert wurden.

Die Ergebnisse deuten darauf hin, dass bidirektional trainierte Sprachmodelle im Vergleich zu einrichtungsbasierten Sprachmodellen ein tiefgreifendes Verständnis von Fluss und Sprachkontext haben. Bert AI-Forscher diskutieren eine weitgehend neuartige Technik namens MLM (Masked LM.) Die Methode gewährleistet ein bidirektionales Training in den Modellen, die vorher nicht trainiert werden konnten.

Wie das BERT arbeitet

Das BERT nutzt Transformer ausgiebig. Es handelt sich um einen Aufmerksamkeitsmechanismus, der in der Lage ist, Kontexte zwischen den Wörtern eines Textes und sogar den Unterwörtern für diejenigen, die es nicht wissen, zu lernen. In seiner reinsten Form besteht ein Transformer aus zwei verschiedenen Mechanismen: einem Codierer und einem Decodierer. Ersterer liest die Eingabe, während letzterer die Vorhersage der Aufgabe erstellt.
Überraschenderweise benötigt das BERT nur den Kodierungsmechanismus, da sein Hauptziel darin besteht, ein effizientes Sprachmodell zu erstellen. Ein detailliertes Papier der Google-Forscher zeigt, wie der Transformer funktioniert.

Im Gegensatz zu Richtungsmodellen, die die Eingabe des Textes in einer Sequenz (von rechts nach links oder von links nach rechts) erfassen, unterscheiden sich die Transformer-Kodierer erheblich. Warum? Weil sie eine Sequenz auf einmal lesen können, daher der Begriff bidirektional. Einige würden jedoch argumentieren, dass ungerichtete Kodierer eine genauere Anpassung ermöglichen würden. Durch die Verwendung dieser Eigenschaft lernt das Modell den Kontext eines Wortes entsprechend seiner Umgebung.

Obwohl es beim Training von Modellen viele Herausforderungen gibt, ist die Bestimmung eines Vorhersageziels wohl die größte Schwierigkeit. Wie bereits erwähnt, sagen die meisten Modelle Wörter sequentiell voraus. Natürlich ist dieser Ansatz schon seit geraumer Zeit nützlich, aber er hat seine Grenzen. Warum? Weil er Lernkontexte einschränkt. Das BERT überwindet diese Herausforderung, indem es die folgenden Trainingsstrategien anwendet:

Maskiertes LM alias MLM

Vor der Eingabe von Wortfolgen in BERT ersetzt ein als [MASK] bekanntes Token fünfzehn Prozent der Anweisungen jeder Zeichenfolge. Das Modell versucht dann, den ursprünglichen Wert des maskierten Wortes entsprechend dem Kontext vorherzusagen, der durch nicht maskierte Begriffe gegeben ist. Technisch gesehen erfordern die Vorhersagen des Ausgabeworts:

  • Implementierung einer Klassifizierungsschicht über dem Encoder-Ausgang
  • Verwendung der Einbettungsmatrix zur Multiplikation von Ausgabevektoren und deren Umwandlung in die Vokabeldimension der Sprache
  • Berechnung der Wahrscheinlichkeit jedes Wortes im Vokabular durch Verwendung von Softmax

Denken Sie daran, dass die Verlustfunktion des BERT nur die maskierten Wertprognosen berücksichtigt und die nicht maskierten Wortprognosen ignoriert. Folglich vereinigt sich das Modell langsamer als gewöhnliche Richtungsmodelle, ein Attribut, das aufgrund des übermäßigen Kontextbewusstseins auftritt.
Sie müssen bei der Implementierung von BERT ausführlicher sein, da es nicht jedes maskierte Wort ersetzt.

Vorhersage des nächsten Satzes alias NSP

Das Modell im Trainingsverfahren des BERT erhält verschiedene Paare von Eingabesätzen. Es lernt zu prognostizieren, ob der zweite Satz in der Zeichenfolge der folgende Satz ist. Fünfzig Prozent der Trainingsinputs sind ein Paar, wobei der zweite Satz oft der nachfolgende Satz im ersten Dokument ist. Auf der anderen Seite enthalten die restlichen fünfzig Prozent zufällige Wörter als zweite Sätze. Es wird angenommen, dass sich zufällige Sätze vom ersten Satz lösen.

Um dem Modell zu helfen, den Unterschied zwischen zwei Sätzen während des Trainings zu bestimmen, geschieht dies, bevor man in das Modell einsteigt:

  • Ein CLS-Token wird am Anfang des ersten Satzes und das [SEP]-Token am Ende jedes Satzes eingegeben.
  • Eine Satzfolge, die die Hinzufügung von Satz A oder B zu jedem Token vorschlägt. Sie werden immense Ähnlichkeiten zwischen der Satzeinbettung und dem Vokabular zwei Einbettungen sehen
  • Es gibt eine zusätzliche Positionseinbettung zu jedem Token, um seine besondere Position anzuzeigen. Sie können die Idee und die Einbeziehung der positionellen Einbettung in diesem Transformatorpapier verstehen.

Wie man den zweiten Satz vorhersagen kann

Hier ist eine Liste von Schritten, die Sie durchführen müssen, wenn Sie sehen wollen, ob zwischen dem zweiten und dem ersten Satz ein Zusammenhang besteht:

  • Die gesamte Eingabesequenz durchläuft das Transformer-Modell
  • Das CLS-Ausgabe-Token wird unter Verwendung einer gewöhnlichen Klassifizierungsschicht in einen zwei mal eins geformten Vektor umgewandelt.
  • Verwendung von Softmax zur Berechnung der IsNextSequence-Wahrscheinlichkeit
    Bemerkenswert ist, dass Next Sentence Prediction, Masked LM und das BERT-Modell zusammen im BERT-Modell trainieren. Es hilft, die Gesamtverlustfunktion, die durch die beiden Strategien erzeugt wird, zu minimieren.

Verwendung des BERT

Sie können das BERT für verschiedene Sprachaufgaben nutzen. Außerdem benötigt das Kernmodell nur eine winzige Schicht

  • Die Durchführung von Stimmungsanalysen und anderen Klassifizierungsaufgaben ähnelt der Gruppierung nach dem Nächsten Satz. Fügen Sie eine Klassifizierungsschicht über der Transformer-Ausgabe hinzu, um das CLS-Token zu erhalten
  • Sie können ein BERT verwenden, um ein Q- und A-Modell zu trainieren, indem Sie zwei weitere Vektoren implementieren, die den Anfang und das Ende der Antwort markieren
  • Sie können das BERT auch verwenden, um ein Erkennungsmodell für benannte Entitäten zu trainieren, indem Sie den Ausgangsvektor jedes Tokens in eine Klassifizierungsschicht eingeben, um das Erkennungsetikett für benannte Entitäten vorherzusagen.

Das BERT nutzte diese Technik, um bei verschiedenen komplizierten natürlichsprachlichen Aufgaben außergewöhnliche Ergebnisse zu erzielen.