O aumento gradual é uma técnica popular entre os cientistas de dados devido à sua precisão e velocidade, particularmente dados complexos e de grande dimensão.

O que é o Impulsionamento

É preciso compreender o básico do reforço antes de aprender sobre o reforço do gradiente. É um método para transformar alunos fracos em alunos fortes. Na paisagem de dinamização, cada árvore encaixa na versão modificada do primeiro conjunto de dados. Pode explicar o algoritmo de reforço de gradiente estabelecendo o algoritmo Ada Boost. Começa por treinar árvores de decisão. Cada observação durante este procedimento tem um peso igual atribuído a ele.


Depois de analisar a primeira árvore, os cientistas de dados aumentam os pesos de cada observação que consideram complicada de classificar. Por outro lado, diminuem os pesos para aqueles em que a classificação não é um problema. Por conseguinte, notará que a segunda árvore cresce sobre os dados ponderados. A ideia original para isto é melhorar as previsões da primeira árvore.

Gradient Boosting Based Prediction Method for Patient Death in ...

Assim, o novo modelo que iremos utilizar é a árvore um mais a árvore dois. Em seguida, calcularemos os erros de classificação a partir do novo modelo de conjunto e desenvolveremos uma terceira árvore para prever os resíduos alterados. Repetiremos este procedimento para uma determinada quantidade de iterações. As próximas árvores ajudar-nos-ão a determinar cada observação onde as árvores anteriores falharam ou mostraram erros.

Portanto, as previsões do último modelo de conjunto serão as previsões globais ponderadas fornecidas pelos modelos de árvores anteriores. O reforço gradual proporciona formação a vários modelos em modos sequenciais, aditivos, e graduais. A principal diferença entre os algoritmos de reforço de gradiente e de reforço Ada é a forma como determinam as deficiências dos alunos fracos.

O modelo de impulso Ada determina as falhas através da utilização de pontos de dados ponderados. Notará algumas semelhanças no reforço de gradiente, uma vez que funciona tirando partido dos gradientes em funções de perda. Para quem não sabe, a função de perda indica a qualidade dos coeficientes de um modelo e se este se ajusta aos dados fundamentais.

Uma compreensão razoável desta função depende de vários factores como o que se deseja optimizar. Por exemplo, se estiver a utilizar a regressão para prever preços de venda, a função de perda seria baseada em erros entre preços previstos e preços autênticos.

Da mesma forma, se a classificação de incumprimento de crédito for o seu objectivo principal – a função de perda tornar-se-ia uma medida para classificar os empréstimos desfavoráveis. Uma motivação significativa para usar o aumento do gradiente é a sua capacidade de optimizar várias funções de custo especificadas pelos utilizadores. É muito melhor do que as funções de perda, uma vez que normalmente proporciona menos controlo e não se mistura com aplicações no mundo real.

Boosting e Ensemble

A adaptação individual dos modelos de aprendizagem da máquina aos dados é notavelmente simples. É até possível misturá-los num conjunto. O termo “ensemble” refere-se a uma combinação de modelos individuais criando um modelo mais forte e mais poderoso.

A maioria dos cientistas de dados recorre ao reforço da aprendizagem de máquinas para criar conjuntos. Começa por encaixar um modelo primário como a regressão linear ou de árvore com os dados. Subsequentemente, um segundo modelo concentra-se em fornecer previsões precisas para casos com modelos com mau desempenho. A mistura destes modelos é muitas vezes melhor do que um modelo singular. É necessário repetir várias vezes o processo de reforço. Cada modelo sucessivo tenta corrigir as falhas do conjunto de modelos anteriores.

Compreender o reforço de gradiente

O reforço de gradiente é um tipo de reforço de aprendizagem da máquina. Baseia-se fortemente na previsão de que o próximo modelo irá reduzir os erros de previsão quando misturado com os anteriores. A ideia principal é estabelecer resultados-alvo para este modelo futuro, a fim de minimizar os erros.

Então, como se calculam os alvos? O resultado de cada caso depende do número de mudanças trazidas pela previsão e dos seus efeitos sobre o erro de previsão.

  • Se a previsão tiver uma pequena alteração e causar uma queda significativa do erro, então o resultado esperado do alvo do caso terá um valor elevado. As previsões fornecidas por novos modelos podem reduzir os erros desde que estejam perto dos seus alvos.
  • Se não houver alterações de erro causadas por uma pequena alteração na previsão, então o próximo resultado do caso será zero. Não se pode minimizar o erro alterando a previsão.

O termo aumento do gradiente surgiu porque os resultados dos alvos de cada caso são baseados no erro do gradiente no que diz respeito às previsões. Cada modelo reduz os erros de previsão ao dar um passo na direcção correcta.

Como é útil o Gradient Boosting?

Como discutido anteriormente, o Gradient Boosting é uma técnica amplamente popular para a criação de modelos de previsão. Pode aplicá-la a numerosas funções relacionadas com o risco e melhorar a precisão preditiva do modelo. O Gradient boosting também ajuda a resolver várias questões de multicolinearidade onde existem correlações elevadas entre as variáveis preditoras.

Ficaria surpreendido se visse a quantidade de sucesso resultante das máquinas de reforço de gradiente. Numerosas aplicações de aprendizagem de máquinas têm vindo a utilizá-lo.

O que é que o Algoritmo de Reforço de Gradiente precisa para funcionar

Aqui está uma lista dos componentes essenciais exigidos pelos Algoritmos de Gradient Boosting:

Modelo Aditivo

Tentamos minimizar as perdas através da implementação de mais árvores de decisão. Podemos também diminuir as taxas de erro, minimizando os parâmetros. Em casos como estes, criamos o modelo para assegurar que não haja alterações à árvore existente, apesar da adição de outra.

Aluno Fraco

Alunos fracos são uma parte essencial do reforço do gradiente para fazer previsões. Utilizamos árvores de regressão para extrair valores autênticos. É essencial desenvolver árvores avidamente para chegar ao ponto de divisão mais favorável. É uma razão significativa pela qual o modelo se ajusta na sua maioria ao conjunto de dados específicos.

Função de Perda

Devemos optimizar as funções de perda para reduzir os erros relacionados com a previsão. Ao contrário de Ada Boost, o resultado errado não recebe um aumento de peso no aumento do gradiente. Em vez disso, minimiza a função de perda dos alunos fracos, obtendo médias de produção.

Pensamentos finais

O Gradient Boosting prova que é indiscutivelmente a técnica mais potente para criar modelos de previsão em regressão e classificações. Pode também utilizar vários métodos de regularização ou restrição para melhorar o sobreajustamento e desempenho do algoritmo de combate. Os programadores podem também tirar partido da retracção, amostragem aleatória, restrições de árvores e aprendizagem penalizada para combater o sobreajustamento. O reforço gradual tem sido fundamental para resolver inúmeros desafios de aprendizagem de máquinas na vida real.