Le renforcement du gradient est une technique populaire parmi les spécialistes des données en raison de sa précision et de sa rapidité, en particulier pour les données complexes et volumineuses.
Qu’est-ce que le boosting?
Vous devez comprendre les bases du boosting avant d’apprendre le gradient. C’est une méthode qui permet de transformer les apprenants faibles en apprenants forts. Dans le paysage du boosting, chaque arbre s’adapte à la version modifiée du premier ensemble de données. Vous pouvez expliquer l’algorithme du boosting de gradient en établissant l’algorithme Ada Boost. Il commence par former des arbres de décision. Chaque observation de cette procédure se voit attribuer un poids égal.
Après avoir analysé le premier arbre, les spécialistes des données augmentent le poids de chaque observation qu’ils trouvent compliquée à classer. En revanche, ils diminuent le poids de celles dont la classification n’est pas un problème. Par conséquent, vous remarquerez que le deuxième arbre pousse sur les données pondérées. L’idée originale est d’apporter des améliorations aux prévisions du premier arbre.

Ainsi, le nouveau modèle que nous utiliserons est l’arbre un plus l’arbre deux. Nous allons ensuite calculer les erreurs de classification à partir du nouveau modèle d’ensemble et développer un troisième arbre pour prédire les résidus modifiés. Nous répéterons cette procédure pour un certain nombre d’itérations. Les arbres à venir nous aideront à déterminer chaque observation où les arbres précédents ont échoué ou ont montré des erreurs.
Par conséquent, les prédictions du dernier modèle d’ensemble seront les prédictions globales pondérées fournies par les anciens modèles d’arbres. Le renforcement du gradient permet d’entraîner plusieurs modèles de manière séquentielle, additive et progressive. La principale différence entre le gradient boosting et les algorithmes Ada boost est la façon dont ils déterminent les lacunes des apprenants faibles.
Le modèle Ada boost détermine les défauts en utilisant des points de données pondérés. Vous remarquerez certaines similitudes dans le gradient boosting car il fonctionne en tirant parti des gradients des fonctions de perte. Pour ceux qui ne le savent pas, la fonction de perte indique la qualité des coefficients d’un modèle et si celui-ci correspond aux données fondamentales.
Une compréhension raisonnable de cette fonction dépend de divers facteurs comme ce que l’on souhaite optimiser. Par exemple, si vous utilisez la régression pour prévoir les prix de vente, la fonction de perte sera basée sur les erreurs entre les prix prévus et les prix réels.
De même, si la classification des défauts de paiement est votre objectif principal, la fonction de perte deviendrait une mesure permettant de classer les prêts défavorables. Une motivation importante pour utiliser la fonction de gradient est sa capacité à optimiser diverses fonctions de coût spécifiées par les utilisateurs. Elle est bien meilleure que les fonctions de perte car elle offre généralement moins de contrôle et ne se fond pas dans les applications du monde réel.
Boosting et ensemble
Il est remarquablement simple d’adapter individuellement les modèles d’apprentissage des machines aux données. Vous pouvez même les fusionner en un ensemble. Le terme “ensemble” fait référence à une combinaison de modèles individuels créant un modèle plus fort et plus puissant.
La plupart des spécialistes des données ont recours à l’apprentissage machine pour créer des ensembles. Cela commence par l’ajustement d’un modèle primaire comme la régression linéaire ou arborescente aux données. Ensuite, un second modèle se concentre sur la fourniture de prévisions précises pour les cas où les modèles sont peu performants. Le mélange de ces modèles est souvent meilleur qu’un modèle unique. Vous devez répéter le processus de renforcement plusieurs fois. Chaque modèle successif tente de corriger les défauts de l’ensemble mélangé des anciens modèles renforcés.
Comprendre le boosting de gradient
Le boosting de gradient est un type de boosting d’apprentissage de la machine. Il repose fortement sur la prédiction que le prochain modèle réduira les erreurs de prédiction lorsqu’il sera mélangé avec les précédents. L’idée principale est d’établir des résultats cibles pour ce prochain modèle afin de minimiser les erreurs.
Alors, comment calculer les objectifs ? Le résultat de chaque cas dépend du nombre de changements apportés par la prédiction et de ses effets sur l’erreur de prédiction.
- Si la prédiction présente une petite modification et entraîne une baisse significative de l’erreur, le résultat cible attendu pour le cas aura une valeur élevée. Les prévisions fournies par les nouveaux modèles pourraient réduire les erreurs tant qu’elles sont proches de leurs objectifs.
- Si une petite modification de la prédiction n’entraîne pas de changement des erreurs, le résultat suivant du cas sera zéro. Vous ne pouvez pas minimiser l’erreur en changeant la prédiction.
Le terme “renforcement du gradient” est apparu parce que les résultats cibles de chaque cas sont basés sur l’erreur du gradient par rapport aux prévisions. Chaque modèle réduit les erreurs de prédiction en faisant un pas dans la bonne direction.
Quelle est l’utilité du renforcement du gradient ?
Comme nous l’avons vu plus haut, le renforcement du gradient est une technique très populaire pour créer des modèles prédictifs. Vous pouvez l’appliquer à de nombreuses fonctions liées au risque et améliorer la précision des prédictions du modèle. Le renforcement du gradient permet également de résoudre divers problèmes de multicolinéarité lorsqu’il existe des corrélations élevées entre les variables prédictives.
Vous seriez surpris de constater le succès des machines à gradient boosting. De nombreuses applications d’apprentissage machine l’utilisent.
De quoi a besoin l’algorithme de renforcement du gradient pour fonctionner
Voici une liste des composants essentiels requis par les algorithmes de renforcement du gradient :
Modèle additif
Nous essayons de minimiser les pertes en mettant en place davantage d’arbres de décision. Nous pouvons également réduire les taux d’erreur en minimisant les paramètres. Dans de tels cas, nous créons le modèle pour nous assurer qu’il n’y a pas de changement à l’arbre existant malgré l’ajout d’un autre arbre.
Apprenants faibles
Les apprenants faibles sont une partie essentielle de la stimulation du gradient pour faire des prédictions. Nous utilisons des arbres de régression pour extraire des valeurs authentiques. Il est essentiel de développer les arbres avec avidité pour arriver au point de rupture le plus favorable. C’est une raison importante pour laquelle le modèle surpasse la plupart du temps l’ensemble des données spécifiques.
Fonction de perte
Nous devons optimiser les fonctions de perte afin de réduire les erreurs liées aux prévisions. Contrairement à Ada Boost, le mauvais résultat ne reçoit pas un poids accru dans le gradient de boosting. Au lieu de cela, il minimise la fonction de perte des apprenants faibles en obtenant des moyennes de sortie.
Réflexions finales
Le Gradient Boosting prouve que c’est sans doute la technique la plus puissante pour créer des modèles prédictifs dans les régressions et les classifications. Vous pouvez également utiliser diverses méthodes de régularisation ou de contrainte pour améliorer les performances de l’algorithme en matière de lutte contre le surajustement. Les programmeurs peuvent également tirer parti du rétrécissement, de l’échantillonnage aléatoire, des contraintes d’arbre et de l’apprentissage pénalisé pour lutter contre le surdimensionnement. Le renforcement des gradients a permis de résoudre de nombreux problèmes d’apprentissage en situation réelle.