L’insufficienza di dati sulla formazione è probabilmente il problema più difficile da affrontare per l’elaborazione del linguaggio naturale, meglio noto come PLN. Per chi non lo sapesse, la PNL è un campo incredibilmente vario che contiene vari compiti distinti. Nella maggior parte dei casi, le serie di dati specifici dei compiti sono costituite da centinaia o migliaia di esempi di formazione (a marchio umano).

Detto questo, i moderni modelli di elaborazione del linguaggio naturale per l’apprendimento approfondito del linguaggio naturale traggono vantaggio da una notevole quantità di dati. Essi richiedono milioni, se non miliardi, di esempi di formazione con annotazioni. I ricercatori hanno lavorato sodo, inventando una soluzione per colmare questa lacuna di dati. Hanno sviluppato varie tecniche per addestrare modelli GPL (general-purpose language) utilizzando tonnellate e tonnellate di testo annotato, chiamato anche pre-formazione.

I programmatori possono quindi mettere a punto i modelli pre-formati sui compiti della PNL con piccoli dati come l’analisi del sentimento e la risposta alle domande, ottenendo miglioramenti incredibilmente accurati che sono significativamente migliori dei set di dati di formazione fin dall’inizio.

Che cos’è il BERT?

BERT, abbreviazione di Bidirectional Encoder Representations from Transformers, sta creando enormi ondate nel panorama dell’apprendimento automatico. Un gruppo di ricercatori che lavorano in lingua Google AI ha pubblicato recentemente il BERT. Il BERT sta facendo scalpore per i suoi risultati incredibilmente accurati in varie attività di programmazione in linguaggio naturale come MNLI (natural language inference), Squad V1.1 (risposta alle domande), e molti altri.

L’implementazione dell’addestramento del Transformer è un motivo significativo per cui la comunità di machine learning considera il BERT un’innovazione tecnica essenziale. La modellazione linguistica del BERT promette di portare l’apprendimento della macchina a nuovi livelli. È l’opposto degli sforzi precedenti che si concentravano sulle sequenze di testo a partire dalla formazione da destra a sinistra o da sinistra a destra.

I risultati indicano che i modelli linguistici con formazione bidirezionale hanno una profonda comprensione del flusso e del contesto linguistico rispetto ai modelli linguistici basati su una sola direzione. I ricercatori di Bert AI discutono di una tecnica ampiamente innovativa chiamata MLM (Masked LM.) Il metodo assicura una formazione bidirezionale nei modelli che prima erano impossibili da formare.

Come funziona il BERT

BERT utilizza ampiamente Transformer. È un meccanismo di attenzione in grado di apprendere i contesti tra le parole di un testo e anche le sotto-parole per chi non lo sa. Nella sua forma più pura, un Transformer è costituito da due meccanismi distinti: un codificatore e un decodificatore. Il primo legge l’input, mentre il secondo crea la previsione del compito.
Sorprendentemente, il BERT richiede il meccanismo di codifica solo perché il suo obiettivo primario è quello di creare un modello di linguaggio efficiente. Un documento dettagliato dei ricercatori di Google evidenzia come funziona il Transformer.

Contrariamente ai modelli direzionali che comprendono l’input del testo in una sequenza (da destra a sinistra o da sinistra a destra), i codificatori Transformer sono molto diversi. Perché? Perché possono leggere una sequenza in una sola volta, da qui il termine bidirezionale. Anche se alcuni sostengono che il non bidirezionale sarebbe più preciso. L’uso di questa caratteristica permette al modello di imparare il contesto di una parola a seconda di ciò che lo circonda.

Mentre ci sono molte sfide quando si addestrano i modelli, la determinazione di un obiettivo di previsione è probabilmente la più grande seccatura. Come discusso in precedenza, la maggior parte dei modelli predice le parole in sequenza. Naturalmente, è stato utile per un bel po’ di tempo, ma questo approccio ha i suoi limiti. Perché? Perché limita i contesti di apprendimento. Il BERT supera questa sfida utilizzando le seguenti strategie di formazione:

LM mascherato alias MLM

Prima di inserire sequenze di parole in BERT, un token noto come [MASK] sostituisce il quindici per cento delle istruzioni di ogni stringa. Il modello cerca quindi di prevedere il valore originale della parola mascherata secondo il contesto dato dai termini non mascherati. Tecnicamente parlando, le previsioni della parola in uscita richiedono:

  • Implementare un livello di classificazione sopra l’uscita dell’encoder
  • Utilizzare la matrice di incorporazione per moltiplicare i vettori di output e convertirli nella dimensione del vocabolario della lingua
  • Calcolo della probabilità di ogni parola del vocabolario utilizzando softmax

Ricordate che la funzione di perdita del BERT considera solo le previsioni dei valori mascherati e ignora le previsioni delle parole non mascherate. Di conseguenza, il modello unisce modelli direzionali più lenti rispetto ai modelli direzionali ordinari, un attributo che si verifica a causa dell’iper-consapevolezza del contesto.
È necessario essere più elaborati quando si implementa il BERT, in quanto non sostituisce ogni parola mascherata.

Prossima frase Previsione della frase alias NSP

Il modello nella procedura di formazione del BERT riceve varie coppie di frasi di input. Impara a prevedere se la seconda frase della stringa è la seguente. Il cinquanta per cento degli input di formazione sono una coppia in cui la seconda frase è spesso la successiva del primo documento. D’altra parte, il rimanente cinquanta per cento contiene parole a caso come seconda frase. Secondo le ipotesi, le frasi casuali si staccano dalla prima.

Per aiutare il modello a determinare la differenza tra due frasi durante la formazione, questo è ciò che accade prima di entrare nel modello:

  • Un token CLS entra all’inizio della prima frase e il token [SEP] entra alla fine di ogni frase
  • Una sequenza di frasi che suggerisce l’aggiunta della frase A o B ad ogni gettone. Vedrete immense somiglianze tra l’incorporazione di una frase e il vocabolario due che incorporano
  • C’è un’aggiunta di incorporazione posizionale ad ogni gettone per indicare la sua particolare posizione. Potete capire l’idea e l’incorporazione dell’incorporazione posizionale in questa carta del trasformatore.

Come prevedere la seconda frase

Ecco una lista di passi da eseguire se si vuole vedere se c’è un collegamento tra la seconda e la prima frase:

  • L’intera sequenza di ingresso viene sottoposta al modello Transformer
  • Il token di uscita del CLS si trasforma in un vettore a forma di due per uno, utilizzando un normale livello di classificazione
  • Utilizzo di softmax per calcolare la probabilità di IsNextSequence
    Vale la pena di notare che Next Sentence Prediction, Masked LM, e il modello BERT formano insieme nel modello BERT. Questo aiuta a minimizzare la funzione di perdita complessiva creata dalle due strategie.

Utilizzo del BERT

È possibile utilizzare il BERT per diversi compiti linguistici. Inoltre, il modello di base richiederà solo un piccolo strato

  • L’esecuzione dell’analisi del sentimento e di altri compiti di classificazione sono simili al raggruppamento di Next Sentence. Aggiungere un livello di classificazione sopra l’uscita del Transformer per ottenere il token CLS
  • È possibile utilizzare un BERT per addestrare un modello Q e A implementando altri due vettori che segnano l’inizio e la fine della risposta
  • È anche possibile utilizzare il BERT per addestrare un modello di riconoscimento delle entità nominate alimentando il vettore di uscita di ogni token in un livello di classificazione per prevedere l’etichetta di riconoscimento delle entità nominate

Il tempo del BERT ha utilizzato questa tecnica per ottenere risultati straordinari su vari compiti complicati del linguaggio naturale.