Compreender o BERT

A insuficiência de dados de formação é sem dúvida a questão mais difícil enfrentada pelo processamento da linguagem natural, mais conhecida como PLN. Para aqueles que não sabem, a PLN é um campo incrivelmente diversificado, contendo várias tarefas distintas. Na maioria dos casos, os conjuntos de dados específicos de tarefa consistem em centenas ou milhares de exemplos de formação (marcada por humanos).
Dito isto, os modelos modernos de processamento de linguagem natural de aprendizagem profunda beneficiam de quantidades significativas de dados. Requerem milhões, se não milhares de milhões, de exemplos de formação com anotações. Os investigadores têm trabalhado arduamente, inventando uma solução para colmatar esta lacuna de dados. Desenvolveram várias técnicas para formar modelos GPL (general-purpose language) utilizando toneladas e toneladas de texto anotado, também chamado pré-treino.
Os programadores podem então afinar os modelos pré-formados em tarefas de PNL com pequenos dados, tais como análise de sentimentos e resposta a perguntas, resultando em melhorias incrivelmente precisas que são significativamente melhores do que os conjuntos de dados de formação desde o início.
BERT, abreviatura de Bidirectional Encoder Representations from Transformers (Representações de Codificadores Bidireccionais de Transformadores), tem vindo a fazer ondas maciças no panorama da aprendizagem de máquinas. Um grupo de investigadores que trabalham na linguagem AI do Google publicou recentemente o BERT. O BERT está a causar agitação devido aos seus resultados incrivelmente precisos em várias tarefas de programação de linguagem natural, tais como MNLI (inferência de linguagem natural), Esquadrão V1.1 (resposta a perguntas), e várias outras.
A implementação da formação do Transformador é uma razão significativa pela qual a comunidade de aprendizagem de máquinas considera o BERT uma inovação técnica essencial. A modelação da linguagem do BERT promete levar a aprendizagem de máquinas a novas alturas. É o oposto dos esforços anteriores que se centravam em sequências de texto começando pela formação da direita para a esquerda ou da esquerda para a direita.
Os resultados indicam que os modelos linguísticos com formação bidireccional têm uma profunda compreensão do fluxo e do contexto linguístico em comparação com os modelos linguísticos baseados numa única direcção. Os investigadores da Bert AI discutem uma técnica extensivamente nova chamada MLM (Masked LM.) O método assegura a formação bidireccional nos modelos que antes eram impossíveis de treinar.
O BERT utiliza extensivamente o Transformer. É um mecanismo de atenção capaz de aprender contextos entre as palavras de um texto e mesmo as sub-palavras para aqueles que não sabem. Na sua forma mais pura, um Transformador consiste em dois mecanismos distintos: um codificador e um descodificador. O primeiro lê o input, enquanto que o segundo cria a previsão da tarefa.
Surpreendentemente, o BERT apenas requer o mecanismo de codificação, pois o seu objectivo principal é criar um modelo de linguagem eficiente. Um documento detalhado dos investigadores do Google destaca como funciona o Transformer.
Ao contrário dos modelos direccionais que compreendem a entrada do texto numa sequência (da direita para a esquerda ou da esquerda para a direita), os codificadores Transformer são vastamente diferentes. Porquê? Porque podem ler uma sequência de uma só vez, daí o termo bidireccional. Embora, alguns argumentariam que não-direccional seria um ajuste mais preciso. A utilização desta característica permite ao modelo aprender o contexto de uma palavra de acordo com o seu ambiente.
Embora haja muitos desafios quando se trata de modelos de treino, determinar um objectivo de previsão é sem dúvida o maior incómodo. Como discutido anteriormente, a maioria dos modelos prevê as palavras sequencialmente. É claro que tem sido útil durante bastante tempo, mas esta abordagem tem as suas limitações. Porquê? Porque limita os contextos de aprendizagem. O BERT supera este desafio, utilizando as seguintes estratégias de formação:
Antes de introduzir sequências de palavras no BERT, uma ficha conhecida como [MASK] substitui quinze por cento das instruções de cada corda. O modelo tenta então prever o valor original da palavra mascarada, de acordo com o contexto dado por termos não-marcados. Tecnicamente falando, as previsões da palavra de saída requerem:
Lembre-se, a função de perda do BERT considera apenas as previsões de valores mascarados e ignora as previsões de palavras não mascaradas. Consequentemente, o modelo une modelos direccionais mais lentos do que os normais, um atributo que ocorre devido à hiper-consciencialização do contexto.
É preciso ser mais elaborado ao implementar o BERT, pois este não substitui todas as palavras mascaradas.
O modelo no procedimento de formação do BERT recebe vários pares de frases de entrada. Aprende a prever se a segunda frase da cadeia é a frase seguinte. Cinquenta por cento das entradas de formação são um par em que a segunda frase é frequentemente a frase seguinte no primeiro documento. Por outro lado, os restantes cinquenta por cento contêm palavras aleatórias como segunda frase. De acordo com suposições, as frases aleatórias destacam-se da primeira.
Para ajudar o modelo a determinar a diferença entre duas frases durante o treino, é o que acontece antes de entrar no modelo:
Aqui está uma lista de passos a executar se quiser ver se existe uma ligação entre a segunda e a primeira frase:
Pode utilizar o BERT para várias tarefas linguísticas. Além disso, o modelo de núcleo apenas necessitará de uma camada minúscula
O tempo do BERT utilizou esta técnica para alcançar resultados extraordinários em várias tarefas linguísticas naturais complicadas.