BERT verstehen

Unzureichende Trainingsdaten sind wohl das schwierigste Problem bei der Verarbeitung natürlicher Sprache, besser bekannt als NLP. Für diejenigen, die sich nicht auskennen, ist NLP ein unglaublich vielfältiges Gebiet mit verschiedenen unterschiedlichen Aufgaben. In den meisten Fällen bestehen aufgabenspezifische Datensätze aus Hunderten oder Tausenden von Trainingsbeispielen (von Menschen beschriftet).
Abgesehen davon profitieren moderne Modelle zur Verarbeitung natürlicher Sprache beim tiefen Lernen von beträchtlichen Datenmengen. Sie erfordern Millionen, wenn nicht Milliarden von Trainingsbeispielen mit Anmerkungen. Forscher haben hart gearbeitet und eine Lösung erfunden, um diese Datenlücke zu schließen. Sie entwickelten verschiedene Techniken zum Trainieren von GPL-Modellen (General-Purpose Language) unter Verwendung von tonnenweise kommentiertem Text, auch Pre-Training genannt.
Programmierer können dann die vortrainierten Modelle auf NLP-Aufgaben mit kleinen Daten wie Stimmungsanalysen und Fragenbeantwortung feinabstimmen, was zu unglaublichen Genauigkeitsverbesserungen führt, die deutlich besser sind als die von Anfang an trainierten Datensätze.
BERT, die Abkürzung für Bidirectional Encoder Representations from Transformers, hat massive Wellen in der Landschaft des maschinellen Lernens geschlagen. Eine Gruppe von Forschern, die an der Google KI-Sprache arbeiten, veröffentlichte kürzlich BERT. BERT erregt Aufsehen wegen seiner unglaublich genauen Ergebnisse bei verschiedenen natürlichsprachlichen Programmieraufgaben wie MNLI (natürlichsprachliche Inferenz), Squad V1.1 (Beantwortung von Fragen) und einigen anderen.
Die Implementierung der Transformer-Schulung ist ein wichtiger Grund dafür, dass die Gemeinschaft für maschinelles Lernen das BERT als eine wesentliche technische Innovation betrachtet. Die Sprachmodellierung des BERT verspricht, das maschinelle Lernen zu neuen Höhen zu führen. Es steht im Gegensatz zu den früheren Bemühungen, die sich auf Textsequenzen konzentrierten, die von rechts nach links oder von links nach rechts trainiert wurden.
Die Ergebnisse deuten darauf hin, dass bidirektional trainierte Sprachmodelle im Vergleich zu einrichtungsbasierten Sprachmodellen ein tiefgreifendes Verständnis von Fluss und Sprachkontext haben. Bert AI-Forscher diskutieren eine weitgehend neuartige Technik namens MLM (Masked LM.) Die Methode gewährleistet ein bidirektionales Training in den Modellen, die vorher nicht trainiert werden konnten.
Das BERT nutzt Transformer ausgiebig. Es handelt sich um einen Aufmerksamkeitsmechanismus, der in der Lage ist, Kontexte zwischen den Wörtern eines Textes und sogar den Unterwörtern für diejenigen, die es nicht wissen, zu lernen. In seiner reinsten Form besteht ein Transformer aus zwei verschiedenen Mechanismen: einem Codierer und einem Decodierer. Ersterer liest die Eingabe, während letzterer die Vorhersage der Aufgabe erstellt.
Überraschenderweise benötigt das BERT nur den Kodierungsmechanismus, da sein Hauptziel darin besteht, ein effizientes Sprachmodell zu erstellen. Ein detailliertes Papier der Google-Forscher zeigt, wie der Transformer funktioniert.
Im Gegensatz zu Richtungsmodellen, die die Eingabe des Textes in einer Sequenz (von rechts nach links oder von links nach rechts) erfassen, unterscheiden sich die Transformer-Kodierer erheblich. Warum? Weil sie eine Sequenz auf einmal lesen können, daher der Begriff bidirektional. Einige würden jedoch argumentieren, dass ungerichtete Kodierer eine genauere Anpassung ermöglichen würden. Durch die Verwendung dieser Eigenschaft lernt das Modell den Kontext eines Wortes entsprechend seiner Umgebung.
Obwohl es beim Training von Modellen viele Herausforderungen gibt, ist die Bestimmung eines Vorhersageziels wohl die größte Schwierigkeit. Wie bereits erwähnt, sagen die meisten Modelle Wörter sequentiell voraus. Natürlich ist dieser Ansatz schon seit geraumer Zeit nützlich, aber er hat seine Grenzen. Warum? Weil er Lernkontexte einschränkt. Das BERT überwindet diese Herausforderung, indem es die folgenden Trainingsstrategien anwendet:
Vor der Eingabe von Wortfolgen in BERT ersetzt ein als [MASK] bekanntes Token fünfzehn Prozent der Anweisungen jeder Zeichenfolge. Das Modell versucht dann, den ursprünglichen Wert des maskierten Wortes entsprechend dem Kontext vorherzusagen, der durch nicht maskierte Begriffe gegeben ist. Technisch gesehen erfordern die Vorhersagen des Ausgabeworts:
Denken Sie daran, dass die Verlustfunktion des BERT nur die maskierten Wertprognosen berücksichtigt und die nicht maskierten Wortprognosen ignoriert. Folglich vereinigt sich das Modell langsamer als gewöhnliche Richtungsmodelle, ein Attribut, das aufgrund des übermäßigen Kontextbewusstseins auftritt.
Sie müssen bei der Implementierung von BERT ausführlicher sein, da es nicht jedes maskierte Wort ersetzt.
Das Modell im Trainingsverfahren des BERT erhält verschiedene Paare von Eingabesätzen. Es lernt zu prognostizieren, ob der zweite Satz in der Zeichenfolge der folgende Satz ist. Fünfzig Prozent der Trainingsinputs sind ein Paar, wobei der zweite Satz oft der nachfolgende Satz im ersten Dokument ist. Auf der anderen Seite enthalten die restlichen fünfzig Prozent zufällige Wörter als zweite Sätze. Es wird angenommen, dass sich zufällige Sätze vom ersten Satz lösen.
Um dem Modell zu helfen, den Unterschied zwischen zwei Sätzen während des Trainings zu bestimmen, geschieht dies, bevor man in das Modell einsteigt:
Hier ist eine Liste von Schritten, die Sie durchführen müssen, wenn Sie sehen wollen, ob zwischen dem zweiten und dem ersten Satz ein Zusammenhang besteht:
Sie können das BERT für verschiedene Sprachaufgaben nutzen. Außerdem benötigt das Kernmodell nur eine winzige Schicht
Das BERT nutzte diese Technik, um bei verschiedenen komplizierten natürlichsprachlichen Aufgaben außergewöhnliche Ergebnisse zu erzielen.