Entendiendo el BERT

La insuficiencia de datos de capacitación es posiblemente el problema más difícil que afronta el procesamiento del lenguaje natural, más conocido como PLN. Para los que no lo saben, la PLN es un campo increíblemente diverso que contiene varias tareas distintas. En la mayoría de los casos, los conjuntos de datos de tareas específicas consisten en cientos o miles de ejemplos de capacitación (etiquetados por el ser humano).
Dicho esto, los modelos modernos de procesamiento de lenguaje natural de aprendizaje profundo se benefician de cantidades significativas de datos. Requieren millones, si no miles de millones, de ejemplos de capacitación con anotaciones. Los investigadores han trabajado arduamente, inventando una solución para cerrar esta brecha de datos. Desarrollaron varias técnicas para entrenar modelos GPL (lenguaje de uso general) utilizando toneladas y toneladas de texto anotado, también llamado pre-entrenamiento.
Los programadores pueden entonces afinar los modelos pre-entrenados en tareas de PNL con pequeños datos como el análisis de sentimientos y la respuesta a preguntas, lo que resulta en mejoras de precisión increíblemente mejores que los conjuntos de datos de entrenamiento desde el principio.
El BERT, abreviatura de Bidirectional Encoder Representations from Transformers (Representaciones de Codificador Bidireccional de Transformadores), ha estado haciendo olas masivas en el paisaje del aprendizaje de las máquinas. Un grupo de investigadores que trabajan en el lenguaje de la Inteligencia Artificial de Google publicó el BERT recientemente. El BERT está causando un gran revuelo por sus resultados increíblemente precisos en varias tareas de programación en lenguaje natural como MNLI (inferencia en lenguaje natural), Escuadrón V1.1 (respuesta a preguntas), y varias otras.
La implementación del entrenamiento del Transformador es una razón significativa por la que la comunidad de aprendizaje de máquinas considera al BERT una innovación técnica esencial. El modelo de lenguaje del BERT promete llevar el aprendizaje automático a nuevas alturas. Es opuesto a los esfuerzos anteriores que se centraban en secuencias de texto que comenzaban con un entrenamiento de derecha a izquierda o de izquierda a derecha.
Los resultados indican que los modelos de lenguaje entrenados bidireccionalmente tienen una profunda comprensión del flujo y el contexto del lenguaje en comparación con los modelos de lenguaje basados en una sola dirección. Los investigadores de Bert AI discuten una técnica ampliamente novedosa llamada MLM (Masked LM.) El método asegura el entrenamiento bidireccional en los modelos que antes eran imposibles de entrenar.
El BERT utiliza ampliamente el Transformer. Es un mecanismo de atención capaz de aprender contextos entre las palabras de un texto e incluso las subpalabras para aquellos que no lo saben. En su forma más pura, un Transformador consiste en dos mecanismos distintos: un codificador y un decodificador. El primero lee la entrada, mientras que el segundo crea la predicción de la tarea.
Sorprendentemente, el BERT sólo requiere el mecanismo de codificación ya que su objetivo principal es crear un modelo de lenguaje eficiente. Un detallado artículo de los investigadores de Google destaca cómo funciona el Transformador.
A diferencia de los modelos direccionales que comprenden la entrada del texto en una secuencia (de derecha a izquierda o de izquierda a derecha), los codificadores del Transformador son enormemente diferentes. ¿Por qué? Porque pueden leer una secuencia de una sola vez, de ahí el término bidireccional. Aunque, algunos argumentarían que no direccional sería un ajuste más preciso. El uso de esta característica permite al modelo aprender el contexto de una palabra según su entorno.
Aunque hay muchos desafíos cuando se entrenan modelos, determinar un objetivo de predicción es posiblemente la mayor dificultad. Como ya se ha dicho, la mayoría de los modelos predicen las palabras de forma secuencial. Por supuesto, ha sido útil durante bastante tiempo, pero este enfoque tiene sus limitaciones. ¿Por qué? Porque limita los contextos de aprendizaje. El BERT supera este desafío utilizando las siguientes estrategias de entrenamiento:
Antes de introducir las secuencias de palabras en el BERT, una ficha conocida como [MÁSCARA] reemplaza el quince por ciento de las instrucciones de cada cadena. El modelo intenta entonces predecir el valor original de la palabra enmascarada según el contexto dado por los términos no enmascarados. Técnicamente hablando, las predicciones de la palabra de salida requieren:
Recuerda, la función de pérdida del BERT sólo considera las predicciones de valor enmascaradas e ignora las predicciones de palabras no enmascaradas. Consecuentemente, el modelo se une más lentamente que los modelos direccionales ordinarios, un atributo que ocurre debido a la hiperconciencia del contexto.
Hay que ser más elaborado cuando se implementa el BERT, ya que no reemplaza cada palabra enmascarada.
El modelo en el procedimiento de entrenamiento del BERT recibe varios pares de frases de entrada. Aprende a predecir si la segunda frase de la cadena es la siguiente. El cincuenta por ciento de las entradas de entrenamiento son un par donde la segunda frase es a menudo la siguiente en el primer documento. Por otro lado, el cincuenta por ciento restante contiene palabras al azar como segunda frase. De acuerdo con las suposiciones, las frases aleatorias se separan de la primera.
Para ayudar al modelo a determinar la diferencia entre dos frases durante el entrenamiento, esto es lo que sucede antes de entrar en el modelo:
Aquí hay una lista de pasos a seguir si se quiere ver si hay una conexión entre la segunda y la primera frase:
Puedes utilizar el BERT para varias tareas de idiomas. Lo que es más, el modelo central sólo requerirá una pequeña capa
El tiempo del BERT utilizó esta técnica para obtener resultados extraordinarios en varias tareas complicadas del lenguaje natural.