L’insuffisance des données relatives à la formation est sans doute le problème le plus difficile auquel est confronté le traitement du langage naturel, mieux connu sous le nom de PNL. Pour ceux qui ne le savent pas, la PNL est un domaine incroyablement diversifié qui comporte diverses tâches distinctes. Dans la plupart des cas, les ensembles de données spécifiques aux tâches consistent en des centaines ou des milliers d’exemples de formation (labellisés par l’homme.)

Cela dit, les modèles modernes de traitement du langage naturel pour l’apprentissage approfondi bénéficient d’une quantité importante de données. Ils nécessitent des millions, voire des milliards, d’exemples de formation avec annotations. Les chercheurs ont travaillé dur, inventant une solution pour combler ce manque de données. Ils ont développé diverses techniques pour former les modèles GPL (general-purpose language) en utilisant des tonnes et des tonnes de texte annoté, aussi appelé pré-formation.

Les programmeurs peuvent ensuite affiner les modèles préformés sur des tâches de PNL avec de petites données telles que l’analyse des sentiments et la réponse à des questions, ce qui permet d’obtenir des améliorations incroyables en termes de précision qui sont nettement supérieures aux ensembles de données de formation du début.

Qu’est-ce que BERT ?

BERT, abréviation de Bidirectional Encoder Representations from Transformers, a fait des vagues énormes dans le paysage de l’apprentissage machine. Un groupe de chercheurs travaillant sur le langage AI de Google a récemment publié BERT. BERT fait sensation en raison de ses résultats incroyablement précis dans diverses tâches de programmation en langage naturel telles que MNLI (inférence en langage naturel), Squad V1.1 (réponse aux questions), et plusieurs autres.

La mise en œuvre de la formation du transformateur est une raison importante pour laquelle la communauté de l’apprentissage machine considère BERT comme une innovation technique essentielle. La modélisation linguistique de BERT promet d’amener l’apprentissage machine à de nouveaux sommets. Elle est à l’opposé des efforts précédents qui se concentraient sur des séquences de texte en partant de la formation de droite à gauche ou de gauche à droite.

Les résultats indiquent que les modèles linguistiques formés de manière bidirectionnelle ont une compréhension approfondie du flux et du contexte linguistique par rapport aux modèles linguistiques basés sur une seule direction. Les chercheurs de Bert AI discutent d’une technique très novatrice appelée MLM (Masked LM.) La méthode assure une formation bidirectionnelle dans les modèles qui étaient impossibles à former auparavant.

Comment fonctionne le BERT

L’ORET utilise largement le transformateur. Il s’agit d’un mécanisme d’attention capable d’apprendre les contextes entre les mots d’un texte et même les sous-mots pour ceux qui ne savent pas. Dans sa forme la plus pure, un Transformer se compose de deux mécanismes distincts : un encodeur et un décodeur. Le premier lit l’entrée, tandis que le second crée la prédiction de la tâche.
Étonnamment, l’ORET n’a besoin que du mécanisme de codage car son objectif premier est de créer un modèle de langage efficace. Un article détaillé des chercheurs de Google met en lumière le fonctionnement du transformateur.

Contrairement aux modèles directionnels qui comprennent l’entrée du texte dans une séquence (de droite à gauche ou de gauche à droite), les encodeurs du Transformer sont très différents. Pourquoi ? Parce qu’ils peuvent lire une séquence d’un seul coup, d’où le terme bidirectionnel. Certains diront cependant qu’un code non directionnel serait plus précis. L’utilisation de cette caractéristique permet au modèle d’apprendre le contexte d’un mot en fonction de son environnement.

Bien que l’entraînement des modèles présente de nombreux défis, la détermination d’un objectif de prédiction est sans doute le plus gros problème. Comme nous l’avons vu plus haut, la plupart des modèles prédisent les mots de manière séquentielle. Bien sûr, cette méthode est utile depuis un certain temps, mais elle a ses limites. Pourquoi ? Parce qu’elle limite les contextes d’apprentissage. L’ORET surmonte ce défi en utilisant les stratégies de formation suivantes :

LM masqué alias MLM

Avant d’entrer des séquences de mots dans BERT, un jeton appelé [MASK] remplace quinze pour cent des instructions de chaque chaîne. Le modèle tente ensuite de prédire la valeur originale du mot masqué en fonction du contexte donné par les termes non masqués. Techniquement parlant, les prédictions du mot de sortie nécessitent :

  • Mettre en place une couche de classification au-dessus de la sortie du codeur
  • Utilisation de la matrice d’intégration pour multiplier les vecteurs de sortie et les convertir dans la dimension vocabulaire de la langue
  • Calculer la probabilité de chaque mot du vocabulaire en utilisant la méthode softmax

Rappelez-vous que la fonction de perte de BERT ne prend en compte que les prévisions de valeurs masquées et ignore les prévisions de mots non masqués. Par conséquent, le modèle réunit des modèles directionnels plus lents que les modèles directionnels ordinaires, un attribut qui se produit en raison de l’hyper-conscience du contexte.
Il faut être plus élaboré lors de la mise en œuvre de BERT car il ne remplace pas tous les mots masqués.

Prédiction de la prochaine phrase alias NSP

Le modèle dans la procédure de formation de l’ORET reçoit différentes paires de phrases d’entrée. Il apprend à prévoir si la deuxième phrase de la chaîne est la phrase suivante. Cinquante pour cent des entrées de formation sont une paire où la deuxième phrase est souvent la suivante dans le premier document. D’autre part, les cinquante pour cent restants contiennent des mots aléatoires comme deuxième phrase. Selon les hypothèses, les phrases aléatoires se détachent de la première.

Pour aider le modèle à déterminer la différence entre deux phrases pendant la formation, voici ce qui se passe avant d’entrer dans le modèle :

  • Un jeton CLS entre au début de la première phrase, et le jeton [SEP] entre à la fin de chaque phrase
  • Une séquence de phrases suggérant l’ajout de la phrase A ou B à chaque jeton. Vous constaterez d’immenses similitudes entre l’enchâssement de phrases et l’enchâssement de deux mots de vocabulaire
  • Chaque jeton est doté d’un encastrement supplémentaire pour indiquer sa position particulière. Vous pouvez comprendre l’idée et l’incorporation de l’encastrement positionnel dans ce papier transformateur.

Comment prédire la deuxième phrase

Voici une liste d’étapes à suivre si vous voulez voir s’il y a un lien entre la deuxième et la première phrase :

  • La séquence d’entrée globale subit le modèle de transformateur
  • Le jeton de sortie du CLS se transforme en un vecteur de forme deux par un, utilisant une couche de classification ordinaire
  • Utilisation de la softmax pour calculer la probabilité d’IsNextSequence
    Il est à noter que Next Sentence Prediction, Masked LM et le modèle BERT s’entraînent ensemble dans le modèle BERT. Il permet de minimiser la fonction de perte globale créée par les deux stratégies.

Utilisation du modèle BERT

Vous pouvez utiliser BERT pour diverses tâches linguistiques. De plus, le modèle de base ne nécessitera qu’une minuscule couche

  • L’analyse des sentiments et les autres tâches de classification sont similaires à celles du groupe Next Sentence. Ajouter une couche de classification sur la sortie du transformateur pour obtenir le jeton CLS
  • Vous pouvez utiliser un BERT pour former un modèle de questions-réponses en mettant en œuvre deux autres vecteurs marquant le début et la fin de la réponse
  • Vous pouvez également utiliser BERT pour former un modèle de reconnaissance d’entités nommées en introduisant le vecteur de sortie de chaque jeton dans une couche de classification afin de prédire l’étiquette de reconnaissance d’entités nommées

L’époque de l’ORET a utilisé cette technique pour obtenir des résultats extraordinaires sur diverses tâches compliquées en langage naturel.