Capire il BERT

L’insufficienza di dati sulla formazione è probabilmente il problema più difficile da affrontare per l’elaborazione del linguaggio naturale, meglio noto come PLN. Per chi non lo sapesse, la PNL è un campo incredibilmente vario che contiene vari compiti distinti. Nella maggior parte dei casi, le serie di dati specifici dei compiti sono costituite da centinaia o migliaia di esempi di formazione (a marchio umano).
Detto questo, i moderni modelli di elaborazione del linguaggio naturale per l’apprendimento approfondito del linguaggio naturale traggono vantaggio da una notevole quantità di dati. Essi richiedono milioni, se non miliardi, di esempi di formazione con annotazioni. I ricercatori hanno lavorato sodo, inventando una soluzione per colmare questa lacuna di dati. Hanno sviluppato varie tecniche per addestrare modelli GPL (general-purpose language) utilizzando tonnellate e tonnellate di testo annotato, chiamato anche pre-formazione.
I programmatori possono quindi mettere a punto i modelli pre-formati sui compiti della PNL con piccoli dati come l’analisi del sentimento e la risposta alle domande, ottenendo miglioramenti incredibilmente accurati che sono significativamente migliori dei set di dati di formazione fin dall’inizio.
BERT, abbreviazione di Bidirectional Encoder Representations from Transformers, sta creando enormi ondate nel panorama dell’apprendimento automatico. Un gruppo di ricercatori che lavorano in lingua Google AI ha pubblicato recentemente il BERT. Il BERT sta facendo scalpore per i suoi risultati incredibilmente accurati in varie attività di programmazione in linguaggio naturale come MNLI (natural language inference), Squad V1.1 (risposta alle domande), e molti altri.
L’implementazione dell’addestramento del Transformer è un motivo significativo per cui la comunità di machine learning considera il BERT un’innovazione tecnica essenziale. La modellazione linguistica del BERT promette di portare l’apprendimento della macchina a nuovi livelli. È l’opposto degli sforzi precedenti che si concentravano sulle sequenze di testo a partire dalla formazione da destra a sinistra o da sinistra a destra.
I risultati indicano che i modelli linguistici con formazione bidirezionale hanno una profonda comprensione del flusso e del contesto linguistico rispetto ai modelli linguistici basati su una sola direzione. I ricercatori di Bert AI discutono di una tecnica ampiamente innovativa chiamata MLM (Masked LM.) Il metodo assicura una formazione bidirezionale nei modelli che prima erano impossibili da formare.
BERT utilizza ampiamente Transformer. È un meccanismo di attenzione in grado di apprendere i contesti tra le parole di un testo e anche le sotto-parole per chi non lo sa. Nella sua forma più pura, un Transformer è costituito da due meccanismi distinti: un codificatore e un decodificatore. Il primo legge l’input, mentre il secondo crea la previsione del compito.
Sorprendentemente, il BERT richiede il meccanismo di codifica solo perché il suo obiettivo primario è quello di creare un modello di linguaggio efficiente. Un documento dettagliato dei ricercatori di Google evidenzia come funziona il Transformer.
Contrariamente ai modelli direzionali che comprendono l’input del testo in una sequenza (da destra a sinistra o da sinistra a destra), i codificatori Transformer sono molto diversi. Perché? Perché possono leggere una sequenza in una sola volta, da qui il termine bidirezionale. Anche se alcuni sostengono che il non bidirezionale sarebbe più preciso. L’uso di questa caratteristica permette al modello di imparare il contesto di una parola a seconda di ciò che lo circonda.
Mentre ci sono molte sfide quando si addestrano i modelli, la determinazione di un obiettivo di previsione è probabilmente la più grande seccatura. Come discusso in precedenza, la maggior parte dei modelli predice le parole in sequenza. Naturalmente, è stato utile per un bel po’ di tempo, ma questo approccio ha i suoi limiti. Perché? Perché limita i contesti di apprendimento. Il BERT supera questa sfida utilizzando le seguenti strategie di formazione:
Prima di inserire sequenze di parole in BERT, un token noto come [MASK] sostituisce il quindici per cento delle istruzioni di ogni stringa. Il modello cerca quindi di prevedere il valore originale della parola mascherata secondo il contesto dato dai termini non mascherati. Tecnicamente parlando, le previsioni della parola in uscita richiedono:
Ricordate che la funzione di perdita del BERT considera solo le previsioni dei valori mascherati e ignora le previsioni delle parole non mascherate. Di conseguenza, il modello unisce modelli direzionali più lenti rispetto ai modelli direzionali ordinari, un attributo che si verifica a causa dell’iper-consapevolezza del contesto.
È necessario essere più elaborati quando si implementa il BERT, in quanto non sostituisce ogni parola mascherata.
Il modello nella procedura di formazione del BERT riceve varie coppie di frasi di input. Impara a prevedere se la seconda frase della stringa è la seguente. Il cinquanta per cento degli input di formazione sono una coppia in cui la seconda frase è spesso la successiva del primo documento. D’altra parte, il rimanente cinquanta per cento contiene parole a caso come seconda frase. Secondo le ipotesi, le frasi casuali si staccano dalla prima.
Per aiutare il modello a determinare la differenza tra due frasi durante la formazione, questo è ciò che accade prima di entrare nel modello:
Ecco una lista di passi da eseguire se si vuole vedere se c’è un collegamento tra la seconda e la prima frase:
È possibile utilizzare il BERT per diversi compiti linguistici. Inoltre, il modello di base richiederà solo un piccolo strato
Il tempo del BERT ha utilizzato questa tecnica per ottenere risultati straordinari su vari compiti complicati del linguaggio naturale.