Nous sommes tous conscients des deux types de régression les plus courants, la logistique et la régression linéaire. Ces deux sujets sont des concepts de base de l’apprentissage automatique. Nous faisons l’expérience du surajustement dans un modèle en augmentant le degré de liberté dans les modèles de régression. Nous pouvons surmonter le surajustement à l’aide de techniques de régularisation. Les deux techniques permettant de réduire les problèmes de surajustement peuvent utiliser la régression au lasso et la régression sur les crêtes. Ci-dessous, nous comprendrons le concept de régression par lasso. Nous verrons en quoi il est différent et similaire à la régression des crêtes.

Qu’est-ce que la régression ?

Vous pouvez prédire la valeur continue d’un modèle grâce au modèle de régression. Par exemple, vous pouvez prédire les prix de l’immobilier en fonction de la taille, de l’emplacement et des caractéristiques de la maison. C’est l’exemple le plus simple pour comprendre la régression. La régression est une technique supervisée.

Qu’est-ce que la régularisation ?

Le terme régularisation signifie rendre les conditions acceptables ou régulières. C’est pourquoi nous utilisons couramment cette technique dans le processus d’apprentissage machine. Dans l’apprentissage machine, la régularisation signifie réduire ou régulariser les données vers une valeur nulle. En termes simples, vous pouvez utiliser la régularisation pour éviter le sur-ajustement en limitant la capacité d’apprentissage ou la flexibilité d’un modèle d’apprentissage machine.

Types de régularisation

Il existe deux types de techniques de régularisation de base. Ces techniques sont la régression par crête et la régression par lasso. Leur méthode de pénalisation du coefficient est différente. Cependant, les deux techniques permettent de réduire le surajustement d’un modèle.

Régression par lasso

Cette technique est un type de régression linéaire et permet de réduire les limites du modèle. Les valeurs des données se réduisent au centre ou à la moyenne pour éviter de surcharger les données. En utilisant le contexte de la régression de crête, nous comprendrons cette technique en détail ci-dessous en utilisant des mots simples.

Comprendre le concept de régression de lasso

Comment la régression de Ridge et Lasso sont identiques

La régression par lasso est très similaire au concept de régression par crête. Nous pouvons comprendre la régression de Lasso en prenant un exemple. Supposons que nous ayons un groupe de souris. Nous pouvons commencer par faire un graphique du poids et de la taille de chaque souris. Sur la ligne verticale du graphique, nous prenons la taille, et sur la ligne horizontale, nous prendrons le poids.
Maintenant, divisez les données du graphique en deux ensembles différents pour une meilleure classification. Nous allons mettre en évidence les données d’entraînement par des points rouges sur le graphique, et les données de test par des points verts. Maintenant, nous allons utiliser les moindres carrés et placer une ligne sur les données d’entraînement.
En termes simples, nous pouvons dire que nous devons minimiser la somme des carrés des résidus. Après avoir ajusté la ligne, nous pouvons voir que les données d’entraînement ont un faible biais. La ligne des moindres carrés ne correspondra pas aux données d’entraînement, ou nous pouvons dire que la variance est élevée.
Maintenant, nous pouvons utiliser la régression de crête et ajuster la ligne sur les données. En faisant cela, nous minimisons la somme du carré de la régression de la crête et du lambda multiplié par le carré de la pente. La régression de la crête est le moindre carré plus la pénalité de régression de la crête.
La somme du carré de la régression des crêtes + λ x la pente2
Sur le graphique, on peut voir que la ligne de régression de la crête et les moindres carrés ne s’ajustent pas aussi bien que les données d’entraînement. Nous pouvons dire que les moindres carrés ont un biais plus faible que la régression de crête. Cependant, en raison du faible biais, vous constaterez une baisse considérable de la variance de la régression de crête.
A ce point du graphique, nous pouvons comprendre que nous pouvons obtenir des prévisions à long terme en commençant par une régression de crête un peu plus mauvaise. Cela peut poser un problème. Examinons à nouveau l’équation :
La somme des carrés de la régression de crête +λx la pente2
Maintenant, si nous enlevons le carré sur la pente, nous prenons la valeur absolue, nous trouverons la régression de Lasso.
La somme des carrés de la régression sur la crête + λ x │the slope│
La régression lasso a également peu de biais, tout comme la régression de crête, mais a moins de variance que la méthode des moindres carrés. Ces deux types de régression se ressemblent et ont la même fonction, à savoir rendre la taille des données d’entraînement moins sensible. De plus, vous pouvez appliquer les deux régressions dans le même but.

En quoi la régression par crête et la régression par lasso sont-elles différentes

Pour comprendre la différence entre la régression de la crête et du lasso, nous devons revenir aux données d’entraînement de deux échantillons et augmenter le lambda.
La somme des carrés de la régression de la crête + λ x │the slope│
Ce qui revient à minimiser la somme des carrés avec la contrainte Σ |Bj≤ s. Certains des βs sont réduits à exactement zéro, ce qui donne un modèle de régression plus facile à interpréter.
Un paramètre de réglage, λ contrôle la force de la pénalité L1. λ est essentiellement la quantité de rétrécissement :
Lorsque λ = 0, aucun paramètre n’est éliminé. L’estimation est égale à celle que l’on trouve avec la régression linéaire.
Au fur et à mesure que λ augmente, de plus en plus de coefficients sont mis à zéro et éliminés (théoriquement, lorsque λ = ∞, tous les coefficients sont éliminés).
Plus λ augmente, plus le biais augmente.
Plus λ diminue, plus la variance augmente.

Conclusion

De l’explication ci-dessus, on peut comprendre que la régression du lasso peut éliminer les variables inutiles de l’équation. Ce type de régression est meilleur que la régression de crête et permet de réduire les variances dans un modèle d’apprentissage machine qui contient beaucoup de variances.