A insuficiência de dados de formação é sem dúvida a questão mais difícil enfrentada pelo processamento da linguagem natural, mais conhecida como PLN. Para aqueles que não sabem, a PLN é um campo incrivelmente diversificado, contendo várias tarefas distintas. Na maioria dos casos, os conjuntos de dados específicos de tarefa consistem em centenas ou milhares de exemplos de formação (marcada por humanos).

Dito isto, os modelos modernos de processamento de linguagem natural de aprendizagem profunda beneficiam de quantidades significativas de dados. Requerem milhões, se não milhares de milhões, de exemplos de formação com anotações. Os investigadores têm trabalhado arduamente, inventando uma solução para colmatar esta lacuna de dados. Desenvolveram várias técnicas para formar modelos GPL (general-purpose language) utilizando toneladas e toneladas de texto anotado, também chamado pré-treino.

Os programadores podem então afinar os modelos pré-formados em tarefas de PNL com pequenos dados, tais como análise de sentimentos e resposta a perguntas, resultando em melhorias incrivelmente precisas que são significativamente melhores do que os conjuntos de dados de formação desde o início.

O que é o BERT?

BERT, abreviatura de Bidirectional Encoder Representations from Transformers (Representações de Codificadores Bidireccionais de Transformadores), tem vindo a fazer ondas maciças no panorama da aprendizagem de máquinas. Um grupo de investigadores que trabalham na linguagem AI do Google publicou recentemente o BERT. O BERT está a causar agitação devido aos seus resultados incrivelmente precisos em várias tarefas de programação de linguagem natural, tais como MNLI (inferência de linguagem natural), Esquadrão V1.1 (resposta a perguntas), e várias outras.

A implementação da formação do Transformador é uma razão significativa pela qual a comunidade de aprendizagem de máquinas considera o BERT uma inovação técnica essencial. A modelação da linguagem do BERT promete levar a aprendizagem de máquinas a novas alturas. É o oposto dos esforços anteriores que se centravam em sequências de texto começando pela formação da direita para a esquerda ou da esquerda para a direita.

Os resultados indicam que os modelos linguísticos com formação bidireccional têm uma profunda compreensão do fluxo e do contexto linguístico em comparação com os modelos linguísticos baseados numa única direcção. Os investigadores da Bert AI discutem uma técnica extensivamente nova chamada MLM (Masked LM.) O método assegura a formação bidireccional nos modelos que antes eram impossíveis de treinar.

Como funciona o BERT

O BERT utiliza extensivamente o Transformer. É um mecanismo de atenção capaz de aprender contextos entre as palavras de um texto e mesmo as sub-palavras para aqueles que não sabem. Na sua forma mais pura, um Transformador consiste em dois mecanismos distintos: um codificador e um descodificador. O primeiro lê o input, enquanto que o segundo cria a previsão da tarefa.
Surpreendentemente, o BERT apenas requer o mecanismo de codificação, pois o seu objectivo principal é criar um modelo de linguagem eficiente. Um documento detalhado dos investigadores do Google destaca como funciona o Transformer.

Ao contrário dos modelos direccionais que compreendem a entrada do texto numa sequência (da direita para a esquerda ou da esquerda para a direita), os codificadores Transformer são vastamente diferentes. Porquê? Porque podem ler uma sequência de uma só vez, daí o termo bidireccional. Embora, alguns argumentariam que não-direccional seria um ajuste mais preciso. A utilização desta característica permite ao modelo aprender o contexto de uma palavra de acordo com o seu ambiente.

Embora haja muitos desafios quando se trata de modelos de treino, determinar um objectivo de previsão é sem dúvida o maior incómodo. Como discutido anteriormente, a maioria dos modelos prevê as palavras sequencialmente. É claro que tem sido útil durante bastante tempo, mas esta abordagem tem as suas limitações. Porquê? Porque limita os contextos de aprendizagem. O BERT supera este desafio, utilizando as seguintes estratégias de formação:

LM aka MLM mascarada

Antes de introduzir sequências de palavras no BERT, uma ficha conhecida como [MASK] substitui quinze por cento das instruções de cada corda. O modelo tenta então prever o valor original da palavra mascarada, de acordo com o contexto dado por termos não-marcados. Tecnicamente falando, as previsões da palavra de saída requerem:

  • Implementar uma camada de classificação acima da saída do codificador
  • Utilização da matriz de incorporação para multiplicar os vectores de saída e convertê-los na dimensão de vocabulário da língua
  • Cálculo da probabilidade de cada palavra no vocabulário, utilizando softmax

Lembre-se, a função de perda do BERT considera apenas as previsões de valores mascarados e ignora as previsões de palavras não mascaradas. Consequentemente, o modelo une modelos direccionais mais lentos do que os normais, um atributo que ocorre devido à hiper-consciencialização do contexto.
É preciso ser mais elaborado ao implementar o BERT, pois este não substitui todas as palavras mascaradas.

Próxima Predição da Sentença, também conhecida por NSP

O modelo no procedimento de formação do BERT recebe vários pares de frases de entrada. Aprende a prever se a segunda frase da cadeia é a frase seguinte. Cinquenta por cento das entradas de formação são um par em que a segunda frase é frequentemente a frase seguinte no primeiro documento. Por outro lado, os restantes cinquenta por cento contêm palavras aleatórias como segunda frase. De acordo com suposições, as frases aleatórias destacam-se da primeira.

Para ajudar o modelo a determinar a diferença entre duas frases durante o treino, é o que acontece antes de entrar no modelo:

  • Uma ficha CLS entra no início da primeira frase, e a ficha [SEP] entra no final de cada frase
  • Uma sequência de frases sugerindo a adição da frase A ou B a cada ficha. Verá imensas semelhanças entre a incorporação de frases e o vocabulário de duas incorporações
  • Há uma adição de encaixe posicional a cada ficha para indicar a sua posição particular. É possível compreender a ideia e incorporação de incorporação de incorporação posicional neste papel transformador.

Como Prever a Segunda Sentença

Aqui está uma lista de passos a executar se quiser ver se existe uma ligação entre a segunda e a primeira frase:

  • A sequência global de entrada é submetida ao modelo Transformer
  • A ficha de saída do CLS transforma-se num vector de dois por um, utilizando uma camada de classificação comum
  • Utilização de softmax para calcular a probabilidade IsNextSequence
    Vale a pena notar que a Next Sentence Prediction, Masked LM, e o modelo BERT formam juntos no modelo BERT. Ajuda a minimizar a função de perda global criada pelas duas estratégias.

Usando o BERT

Pode utilizar o BERT para várias tarefas linguísticas. Além disso, o modelo de núcleo apenas necessitará de uma camada minúscula

  • A realização de análises de sentimentos e outras tarefas de classificação são semelhantes ao agrupamento de Next Sentence. Adicionar uma camada de classificação sobre a saída do Transformador para obter o símbolo CLS
  • Pode utilizar um BERT para formar um modelo Q e A, implementando mais dois vectores que marcam o início e o fim da resposta
  • Também pode utilizar o BERT para formar um modelo de Reconhecimento de Entidade Nomeada, alimentando o vector de saída de cada ficha numa camada classificadora para prever o Selo de Reconhecimento de Entidade Nomeada

O tempo do BERT utilizou esta técnica para alcançar resultados extraordinários em várias tarefas linguísticas naturais complicadas.