La insuficiencia de datos de capacitación es posiblemente el problema más difícil que afronta el procesamiento del lenguaje natural, más conocido como PLN. Para los que no lo saben, la PLN es un campo increíblemente diverso que contiene varias tareas distintas. En la mayoría de los casos, los conjuntos de datos de tareas específicas consisten en cientos o miles de ejemplos de capacitación (etiquetados por el ser humano).

Dicho esto, los modelos modernos de procesamiento de lenguaje natural de aprendizaje profundo se benefician de cantidades significativas de datos. Requieren millones, si no miles de millones, de ejemplos de capacitación con anotaciones. Los investigadores han trabajado arduamente, inventando una solución para cerrar esta brecha de datos. Desarrollaron varias técnicas para entrenar modelos GPL (lenguaje de uso general) utilizando toneladas y toneladas de texto anotado, también llamado pre-entrenamiento.

Los programadores pueden entonces afinar los modelos pre-entrenados en tareas de PNL con pequeños datos como el análisis de sentimientos y la respuesta a preguntas, lo que resulta en mejoras de precisión increíblemente mejores que los conjuntos de datos de entrenamiento desde el principio.

¿Qué es el BERT?

El BERT, abreviatura de Bidirectional Encoder Representations from Transformers (Representaciones de Codificador Bidireccional de Transformadores), ha estado haciendo olas masivas en el paisaje del aprendizaje de las máquinas. Un grupo de investigadores que trabajan en el lenguaje de la Inteligencia Artificial de Google publicó el BERT recientemente. El BERT está causando un gran revuelo por sus resultados increíblemente precisos en varias tareas de programación en lenguaje natural como MNLI (inferencia en lenguaje natural), Escuadrón V1.1 (respuesta a preguntas), y varias otras.

La implementación del entrenamiento del Transformador es una razón significativa por la que la comunidad de aprendizaje de máquinas considera al BERT una innovación técnica esencial. El modelo de lenguaje del BERT promete llevar el aprendizaje automático a nuevas alturas. Es opuesto a los esfuerzos anteriores que se centraban en secuencias de texto que comenzaban con un entrenamiento de derecha a izquierda o de izquierda a derecha.

Los resultados indican que los modelos de lenguaje entrenados bidireccionalmente tienen una profunda comprensión del flujo y el contexto del lenguaje en comparación con los modelos de lenguaje basados en una sola dirección. Los investigadores de Bert AI discuten una técnica ampliamente novedosa llamada MLM (Masked LM.) El método asegura el entrenamiento bidireccional en los modelos que antes eran imposibles de entrenar.

¿Cómo funciona el BERT?

El BERT utiliza ampliamente el Transformer. Es un mecanismo de atención capaz de aprender contextos entre las palabras de un texto e incluso las subpalabras para aquellos que no lo saben. En su forma más pura, un Transformador consiste en dos mecanismos distintos: un codificador y un decodificador. El primero lee la entrada, mientras que el segundo crea la predicción de la tarea.
Sorprendentemente, el BERT sólo requiere el mecanismo de codificación ya que su objetivo principal es crear un modelo de lenguaje eficiente. Un detallado artículo de los investigadores de Google destaca cómo funciona el Transformador.

A diferencia de los modelos direccionales que comprenden la entrada del texto en una secuencia (de derecha a izquierda o de izquierda a derecha), los codificadores del Transformador son enormemente diferentes. ¿Por qué? Porque pueden leer una secuencia de una sola vez, de ahí el término bidireccional. Aunque, algunos argumentarían que no direccional sería un ajuste más preciso. El uso de esta característica permite al modelo aprender el contexto de una palabra según su entorno.

Aunque hay muchos desafíos cuando se entrenan modelos, determinar un objetivo de predicción es posiblemente la mayor dificultad. Como ya se ha dicho, la mayoría de los modelos predicen las palabras de forma secuencial. Por supuesto, ha sido útil durante bastante tiempo, pero este enfoque tiene sus limitaciones. ¿Por qué? Porque limita los contextos de aprendizaje. El BERT supera este desafío utilizando las siguientes estrategias de entrenamiento:

LM enmascarado alias MLM

Antes de introducir las secuencias de palabras en el BERT, una ficha conocida como [MÁSCARA] reemplaza el quince por ciento de las instrucciones de cada cadena. El modelo intenta entonces predecir el valor original de la palabra enmascarada según el contexto dado por los términos no enmascarados. Técnicamente hablando, las predicciones de la palabra de salida requieren:

  • Implementar una capa de clasificación por encima de la salida del codificador
  • Usando la matriz de incrustación para multiplicar los vectores de salida y convirtiéndolos en la dimensión de vocabulario del lenguaje
  • Calculando la probabilidad de cada palabra en el vocabulario utilizando softmax

Recuerda, la función de pérdida del BERT sólo considera las predicciones de valor enmascaradas e ignora las predicciones de palabras no enmascaradas. Consecuentemente, el modelo se une más lentamente que los modelos direccionales ordinarios, un atributo que ocurre debido a la hiperconciencia del contexto.
Hay que ser más elaborado cuando se implementa el BERT, ya que no reemplaza cada palabra enmascarada.

Predicción de la siguiente frase, también conocida como NSP

El modelo en el procedimiento de entrenamiento del BERT recibe varios pares de frases de entrada. Aprende a predecir si la segunda frase de la cadena es la siguiente. El cincuenta por ciento de las entradas de entrenamiento son un par donde la segunda frase es a menudo la siguiente en el primer documento. Por otro lado, el cincuenta por ciento restante contiene palabras al azar como segunda frase. De acuerdo con las suposiciones, las frases aleatorias se separan de la primera.

Para ayudar al modelo a determinar la diferencia entre dos frases durante el entrenamiento, esto es lo que sucede antes de entrar en el modelo:

  • Una ficha de CLS entra al principio de la primera frase, y la ficha [SEP] entra al final de cada frase
  • Una secuencia de frases que sugiere la adición de la frase A o B a cada ficha. Verá inmensas similitudes entre la incorporación de la frase y el vocabulario de dos incorporaciones
  • Hay una adición de incrustación posicional a cada ficha para indicar su posición particular. Puedes entender la idea e incorporación de la incrustación posicional en este papel transformador.

Cómo predecir la segunda frase

Aquí hay una lista de pasos a seguir si se quiere ver si hay una conexión entre la segunda y la primera frase:

  • La secuencia de entrada general se somete al modelo de Transformador
  • El token de salida del CLS se transforma en un vector con forma de dos por uno, utilizando una capa de clasificación ordinaria
  • Usando softmax para calcular la probabilidad de IsNextSequence
    Cabe destacar que la predicción de la próxima frase, el LM Enmascarado y el modelo BERT se entrenan juntos en el modelo BERT. Ayuda a minimizar la función de pérdida general creada por las dos estrategias.

Usando el BERT

Puedes utilizar el BERT para varias tareas de idiomas. Lo que es más, el modelo central sólo requerirá una pequeña capa

  • La realización de análisis de sentimientos y otras tareas de clasificación son similares a la agrupación de la siguiente frase. Añade una capa de clasificación sobre la salida del Transformador para obtener el token CLS
  • Puedes usar un BERT para entrenar un modelo de Q y A implementando dos vectores más que marcan el principio y el final de la respuesta
  • También puede utilizar la BERT para entrenar un modelo de Reconocimiento de Entidades Nombradas alimentando el vector de salida de cada ficha en una capa de clasificación para predecir la Etiqueta de Reconocimiento de Entidades Nombradas

El tiempo del BERT utilizó esta técnica para obtener resultados extraordinarios en varias tareas complicadas del lenguaje natural.