Niewystarczające dane dotyczące szkoleń to prawdopodobnie najtrudniejszy problem, przed którym stoi przetwarzanie języka naturalnego, lepiej znanego jako NLP. Dla tych, którzy nie wiedzą, NLP jest niewiarygodnie zróżnicowaną dziedziną zawierającą różne, odrębne zadania. W większości przypadków zestawy danych specyficznych dla danego zadania składają się z setek lub tysięcy przykładów szkoleń (oznaczonych symbolem człowieka).

W związku z tym, nowoczesne modele głębokiej nauki języka naturalnego korzystają ze znacznych ilości danych. Wymagają one milionów, jeśli nie miliardów, przykładów szkoleń z adnotacjami. Naukowcy ciężko pracowali, wymyślając rozwiązanie, które pozwoli wypełnić tę lukę w danych. Opracowali różne techniki szkolenia modeli GPL (języka ogólnego zastosowania) wykorzystujących tony i tony tekstu z adnotacjami, zwane także szkoleniami wstępnymi.

Programiści mogą następnie dopracować wstępnie wyszkolone modele do zadań NLP przy pomocy niewielkich danych, takich jak analiza uczuć i odpowiadanie na pytania, co skutkuje niewiarygodną poprawą dokładności, która od początku jest znacznie lepsza niż w przypadku zestawów danych szkoleniowych.

Czym jest BERT?

BERT, skrót od Bidirectional Encoder Representations from Transformers (Dwukierunkowe reprezentacje enkoderów z transformatorów), tworzy ogromne fale w krajobrazie nauki maszynowej. Grupa naukowców pracujących w Google AI language opublikowała niedawno BERT. BERT wywołuje poruszenie ze względu na swoje niewiarygodnie dokładne wyniki w różnych zadaniach programowania języka naturalnego, takich jak MNLI (wnioskowanie w języku naturalnym), Squad V1.1 (odpowiadanie na pytania) i kilka innych.

Wdrożenie szkoleń z zakresu Transformatorów jest istotnym powodem, dla którego społeczność ucząca się maszyn uważa BERT za istotną innowację techniczną. Modelowanie językowe BERT obiecuje przenieść naukę maszynową na nowe wyżyny. Jest to przeciwieństwo wcześniejszych wysiłków, które koncentrowały się na sekwencjach tekstowych rozpoczynających się od szkolenia z prawej do lewej strony lub od lewej do prawej.

Wyniki wskazują, że dwukierunkowo szkolone modele językowe mają głębokie zrozumienie przepływu i kontekstu językowego w porównaniu z jednokierunkowymi modelami językowymi. Badacze Bert AI omawiają szeroko zakrojoną nowatorską technikę zwaną MLM (Masked LM.) Metoda ta zapewnia dwukierunkowe szkolenie w modelach, których wcześniej nie można było trenować.

Jak działa BERT

BERT intensywnie wykorzystuje Transformer. Jest to mechanizm uwagi zdolny do uczenia się kontekstów pomiędzy słowami tekstu a nawet podsłowami dla tych, którzy nie wiedzą. W najczystszej postaci Transformer składa się z dwóch odrębnych mechanizmów: enkodera i dekodera. Pierwszy z nich odczytuje dane wejściowe, a drugi tworzy prognozę zadania.
Co zaskakujące, BERT wymaga jedynie mechanizmu kodowania, ponieważ jego głównym celem jest stworzenie efektywnego modelu językowego. Szczegółowy artykuł badaczy Google’a podkreśla, jak działa Transformer.

W przeciwieństwie do modeli kierunkowych, które obejmują wprowadzanie tekstu w sekwencji (od prawej do lewej lub od lewej do prawej), kodery Transformera są bardzo różne. Dlaczego? Ponieważ potrafią odczytać sekwencję za jednym zamachem, stąd termin “dwukierunkowy”. Chociaż, niektórzy twierdziliby, że nie-kierunkowy byłby bardziej dokładny. Użycie tej cechy pozwala modelowi poznać kontekst słowa zgodnie z jego otoczeniem.

Podczas gdy w przypadku modeli treningowych istnieje wiele wyzwań, określenie celu predykcji jest prawdopodobnie największym problemem. Jak wspomniano wcześniej, większość modeli przewiduje słowa kolejno. Oczywiście, jest to przydatne od dłuższego czasu, ale takie podejście ma swoje ograniczenia. Dlaczego? Ponieważ ogranicza ono konteksty uczenia się. BERT przezwycięża to wyzwanie, wykorzystując następujące strategie szkoleniowe:

Maskowane LM aka MLM

Przed wprowadzeniem sekwencji słów w BERT, token znany jako [MASKA] zastępuje piętnaście procent instrukcji każdego z ciągów. Następnie model próbuje przewidzieć oryginalną wartość zamaskowanego słowa zgodnie z kontekstem podanym przez niemaskowane wyrażenia. Technicznie rzecz biorąc, przewidywania słowa wyjściowego wymagają:

  • Zaimplementowania warstwy klasyfikacyjnej nad wyjściem enkodera
  • Użycie matrycy osadzającej do zwielokrotnienia wektorów wyjściowych i przekształcenia ich na wymiar słownikowy języka
  • Obliczanie prawdopodobieństwa każdego słowa w słownictwie przy użyciu softmaxa

Pamiętaj, że funkcja strat BERT bierze pod uwagę tylko prognozy wartości zamaskowanych i ignoruje prognozy słów niezmaskowanych. W konsekwencji model łączy się wolniej niż zwykłe modele kierunkowe, co jest atrybutem, który występuje z powodu hiperświadomości kontekstowej.
Podczas implementacji BERT trzeba być bardziej szczegółowym, ponieważ nie zastępuje on każdego zamaskowanego słowa.

Następne Przewidywanie Zdań aka NSP (Next Sentence Prediction)

Model w procedurze szkoleniowej BERT otrzymuje różne pary zdań wejściowych. Uczy się przewidywać, czy drugie zdanie w ciągu jest następnym zdaniem. Pięćdziesiąt procent danych wejściowych do treningu to para, w której drugie zdanie jest często kolejnym w pierwszym dokumencie. Z drugiej strony, pozostałe pięćdziesiąt procent zawiera losowo wybrane słowa jako drugie zdanie. Zgodnie z założeniami, losowe zdania oddzielają się od pierwszego.

Aby pomóc modelowi w określeniu różnicy między dwoma zdaniami podczas treningu, właśnie to dzieje się przed przejściem do modelu:

  • Żeton CLS pojawia się na początku pierwszego zdania, a żeton [SEP] na końcu każdego zdania.
  • Sekwencja zdań sugerująca dodanie zdania A lub B do każdego żetonu. Zobaczysz ogromne podobieństwa między osadzeniem zdania a słownictwem dwa osadzenia
  • Do każdego żetonu dodane jest osadzenie pozycji w celu wskazania jego konkretnej pozycji. Możesz zrozumieć ideę i włączenie osadzenia pozycyjnego w tym papierze transformatora.

Jak przewidzieć drugie zdanie

Poniżej znajduje się lista kroków do wykonania, jeśli chcesz sprawdzić, czy istnieje związek pomiędzy drugim i pierwszym zdaniem:

  • Ogólna sekwencja wejściowa przechodzi przez model Transformera
  • Wyjściowy token CLS przekształca się w wektor o dwóch na jeden kształt, wykorzystując zwykłą warstwę klasyfikacyjną
  • Użycie softmaxa do obliczenia prawdopodobieństwa IsNextSequence
    Warto zauważyć, że Next Sentence Prediction, Masked LM i model BERT trenują razem w modelu BERT. Pomaga to zminimalizować ogólną funkcję straty stworzoną przez te dwie strategie.

Użycie BERT

Możesz wykorzystać BERT do różnych zadań językowych. Co więcej, model podstawowy będzie wymagał jedynie malutkiej warstwy

  • Przeprowadzanie analizy nastrojów i inne zadania klasyfikacyjne są podobne do grupowania według Następnego Zdania. Dodaj warstwę klasyfikacyjną na wyjściu Transformatora, aby uzyskać token CLS
  • Możesz użyć BERT do treningu modelu Q i A poprzez wdrożenie dwóch kolejnych wektorów oznaczających początek i koniec odpowiedzi.
  • Możesz również wykorzystać BERT do treningu modelu rozpoznawania nazw podmiotów poprzez wprowadzenie wektora wyjściowego każdego z tokenów do warstwy klasyfikacyjnej w celu przewidzenia etykiety rozpoznawania nazw podmiotów.

Czas BERT wykorzystał tę technikę do osiągnięcia nadzwyczajnych wyników w różnych skomplikowanych zadaniach języka naturalnego.