Avec des algorithmes d’apprentissage automatique et d’apprentissage profond de plus en plus avancés, vous pouvez résoudre presque tous les problèmes avec des ensembles de données appropriés. Cependant, à mesure que la complexité du modèle augmente, ils deviennent difficiles à interpréter. Lorsque l’on parle de l’interprétabilité des modèles d’apprentissage automatique, la première chose qui vient à l’esprit est la régression linéaire. La régression linéaire est un modèle assez simple et facile à interpréter. En plus d’être simple, il comporte divers problèmes d’interprétabilité, notamment en termes de violations des hypothèses de la régression linéaire. Vous pouvez également vous référer aux hypothèses de la régression linéaire en tant que Multicollinéarité.

Qu’est-ce que la multicolinéarité ?

Dans un modèle de régression, lorsque deux ou plus de deux variables indépendantes sont corrélées entre elles, vous pouvez parler de multicollinéarité. Cela indique que vous pouvez prédire une variable indépendante avec une autre variable indépendante dans ce type de modèle. Les variables peuvent être le poids et la taille, la consommation d’eau et le revenu du ménage, le prix de la voiture et le kilométrage, le temps de loisirs et le temps d’étude, etc.

Vous pouvez prendre n’importe quelle variable de votre vie quotidienne. Par exemple, vous aimez grignoter des chips en regardant la télévision – le taux de satisfaction augmente lorsque vous regardez davantage la télévision et mangez plus de chips. Maintenant, lorsque vous envisagez les choses qui vous occuperont et vous rendront heureux, quelle activité vous semblera intéressante et aura un impact plus important sur votre niveau de bonheur ? Vous sentirez-vous plus heureux en mangeant des chips ou en regardant la télévision ?

C’est difficile à mesurer, car si vous regardez la télévision, vous mangez plus de chips, et si vous mangez plus de chips, vous devez regarder plus de télévision. Ces deux activités sont en corrélation l’une avec l’autre. Il vous sera difficile de déterminer l’impact d’une activité sur une autre pour le bonheur. Voilà en quoi consiste le problème de la multicollinéarité. Voyons maintenant comment mesurer la multicolinéarité en référence à l’apprentissage automatique.

Types de multicolinéarité

La multicollinéarité se compose de deux types différents. Le premier type de multicollinéarité est structurel. Il s’agit d’un sous-produit. Comme vous allez la créer à l’aide de la variable indépendante existante, vous pouvez facilement la repérer. La variable indépendante x du premier type est élevée au carré. Par exemple, si la multicollinéarité structurelle considère que vous avez un ensemble de données et que vous utilisez un logarithme pour normaliser ou mettre à l’échelle les caractéristiques. Le deuxième type est la multicollinéarité des données, qui est plus dangereuse que la structurelle. Vous trouverez cette multicollinéarité plus difficile à identifier et à interpréter. Si vous utilisez le cadre de données de pandas, il intègre déjà ce type de multicollinéarité.

Détection et suppression de la multicollinéarité

La solution optimale pour catégoriser la multicollinéarité consiste à calculer le facteur d’inflation de la variance équivalent à chaque variable individuelle dans les données. En comprenant le facteur d’inflation de la variance, vous pouvez déterminer si la variable est prévisible ou non. Pour cela, vous utiliserez d’autres variables indépendantes. Nous pouvons comprendre le concept à l’aide de l’exemple suivant:

En supposant ces neuf variables différentes, vous pouvez calculer le facteur d’inflation de la variance pour la première variable, c’est-à-dire V1. Pour calculer la variable V1, vous devez la considérer comme une variable cible et l’isoler de toutes les autres variables. Traitez toutes les autres variables comme des variables prédictives.

En utilisant d’autres variables, nous pouvons trouver la valeur correspondante de R2. Pour trouver cette valeur, entraînez votre modèle de régression en utilisant les variables prédicteurs. Vous pouvez calculer la valeur VIF à l’aide de la valeur R2. Le résultat sera le suivant:

À partir de la formule ci-dessus, nous pouvons clairement voir que la valeur R2 et le facteur d’inflation de la variance augmenteront simultanément. Lorsque la valeur R2 est plus élevée, cela indique que les autres variables indépendantes expliquent correctement la variable indépendante cible. Maintenant, pour décider de conserver ou de supprimer la variable, nous allons considérer la valeur seuil du facteur d’inflation de la variance.

La valeur du facteur d’inflation de la variance doit être suffisamment faible. Cependant, cette valeur peut supprimer les variables indépendantes de l’ensemble de données. Par conséquent, les experts prennent généralement un seuil de facteur d’inflation de la variance égal à cinq. Cela signifie que si la valeur d’une variable indépendante est supérieure à cinq, elle sera supprimée. Mais la valeur seuil idéale dépendra du problème rencontré.

Conclusion

L’influence de la régression linéaire dépend de la simplicité d’interprétation du modèle. Vous ne serez pas en mesure de trouver l’objectif du modèle si vous omettez la multicollinéarité. À partir du contexte ci-dessus, vous comprenez la signification de la multicollinéarité et comment elle affecte la régression linéaire. En outre, vous pouvez maintenant détecter et supprimer la multicollinéarité pour tout problème que vous rencontrerez à l’avenir.