Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

La variable confusionnelle est un terme statistique dont le concept est un peu déroutant pour de nombreuses personnes en raison de la méthode à utiliser. Pour commencer, différents chercheurs ont des explications différentes pour les variables confusionnelles. Même si la définition est la même, le contexte de recherche est modérément spécifique au domaine. Par conséquent, les experts de différents secteurs d’activité appliquent cette technique pour trouver des solutions de manière unique. Avant d’expliquer votre point de vue sur les variables confusionnelles, il est donc important de comprendre l’implication de l’autre personne dans ce terme. Cet article contient donc des informations précieuses sur les variables confusionnelles dans l’apprentissage automatique.

Variable confusionnelle

Une variable confondante est une influence externe dans une expérience. En d’autres termes, ces variables affectent les résultats du modèle en manipulant les variables dépendantes et indépendantes. Par la suite, les variables confusionnelles agissent sur les variables dépendantes, ce qui entraîne des résultats inexacts.
Au cours d’une recherche corrélationnelle, ces variables ont un impact important sur la relation superficielle concernant deux variables. Elles définissent si les variables dépendantes et indépendantes passent à une valeur nulle, négative ou positive. On peut également parler de variables confusionnelles comme d’un facteur qu’un chercheur ne peut pas supprimer ou contrôler, même s’il modifie la validité du modèle.

Confusion dans l’apprentissage automatique

Auparavant, les variables confusionnelles perturbaient les résultats des statistiques appliquées. Dans l’optique des statistiques, la recherche dépend de la relation entre les variables indépendantes et les variables dépendantes dans les données. Les chercheurs résolvent les variables confusionnelles et améliorent les relations pour les résultats grâce à des méthodes statistiques. Ils conçoivent ces techniques pour invalider ou corrompre les découvertes.
Les praticiens de l’apprentissage automatique se préoccupent d’améliorer les capacités du modèle prédictif plutôt que l’interprétabilité et l’exactitude statistiques. Néanmoins, les variables confusionnelles font l’objet d’une attention particulière lors de la sélection et de la préparation des données. Mais lors du développement des modèles statistiques descriptifs, ces variables sont moins importantes. Pourtant, les experts en apprentissage automatique appliqué considèrent que la variable de confusion est essentielle.
Les spécialistes des données expérimentent les variables dépendantes et indépendantes pour évaluer le modèle d’apprentissage automatique. L’objectif principal de ces expériences est de minimiser la variable de confusion et son influence sur les résultats.

Impact de l’évaluation du modèle d’apprentissage automatique

Si vous connaissez l’apprentissage automatique appliqué, vous serez peut-être surpris d’apprendre que les pratiques de référence incluent des variables confusionnelles. Les expériences d’apprentissage automatique pour les variables confusionnelles comprennent le choix et l’interprétation des techniques d’évaluation du modèle d’apprentissage automatique. Il est essentiel de tenir compte de l’impact des variables lors de l’évaluation du modèle et de l’identification des variables indépendantes. Voici quelques choix ayant un impact sur les variables dépendantes tout au long de l’expérience :
– La préparation des schémas de données,
– Algorithme d’apprentissage,
– Configuration de l’algorithme d’apprentissage,
– Initialisation de l’algorithme d’apprentissage,
– Un échantillonnage de l’ensemble de données d’apprentissage
– Un échantillonnage de l’ensemble de données de test.
Vous pouvez donc choisir ces paramètres tout en évaluant la capacité du modèle à générer des prédictions exactes. Compte tenu de l’évaluation du modèle d’apprentissage automatique, la conception et l’exécution d’expériences contrôlées seront favorables. Dans une expérience contrôlée, le modèle isole les autres variables et se concentre sur un seul élément. Les deux types d’expériences contrôlées les plus courants sont :
– Évaluation de l’algorithme d’apprentissage
– Évaluation des configurations de l’algorithme d’apprentissage

Randomisation dans l’apprentissage automatique

Les expériences contrôlées ne peuvent pas maintenir constantes toutes les variables confusionnelles. Par conséquent, il existe des sources d’aléatoire indiquant que si l’expérience maintient ces variables constantes, l’évaluation du modèle se révélera invalide :
– Initialisation du modèle
– Echantillon de données
– Algorithme d’apprentissage
Par exemple, un réseau neuronal comprend des poids qui initialisent les valeurs aléatoires. Contrairement aux différentes mises à jour, la descente de gradient stochastique rendra aléatoire l’ordre de l’échantillon de données. Pour sélectionner la limite possible dans une forêt aléatoire, la sélection de sous-ensembles aléatoires sera rassurante. Il n’est pas approprié de considérer la randomisation comme un bug dans un algorithme d’apprentissage automatique. Cette caractéristique améliore les performances du modèle par le biais de méthodes déterministes traditionnelles.

En quoi la minimisation des variables confusionnelles est-elle importante ?

La réduction des variables de confusion est l’essence même de la garantie de la validité interne. L’incapacité à réduire les variables confusionnelles de votre recherche ou de votre modèle ne permettra pas de générer la relation réelle entre deux variables. Par conséquent, vous obtiendrez des résultats incohérents. En comparaison, le résultat que vous découvrirez comprendra une relation de cause à effet, ce qui n’est pas le cas en réalité. Comme la variable indépendante ne parvient pas à produire l’effet, vous finissez par mesurer la variable confusionnelle.

Diminuer les effets de la valeur confusionnelle

Une fois la recherche terminée, utilisez des méthodes statistiques pour réduire les effets de confusion dans le modèle. La méthode de stratification augmentera l’efficacité des résultats, à condition que les facteurs de confusion potentiels soient en petit nombre. Cette méthode de réduction des variables confusionnelles consiste à diviser le résultat en groupes plus petits. Elle sépare donc les variables confusionnelles en groupes. Ensuite, observez la relation entre les deux variables, indépendante et dépendante, dans chaque groupe.
Supposons que votre recherche porte sur l’identification des fumeurs et des non-fumeurs pour le taux de mortalité et qu’elle inclut également les personnes ayant une dépendance à l’alcool. Cela affectera le résultat car la consommation d’alcool affecte également la moralité. En utilisant la technique de stratification, créez différents petits groupes de fumeurs et de non-fumeurs. Ensuite, observez la relation entre la consommation d’alcool et la mortalité dans chaque groupe.
L’analyse multivariée réduira l’influence des valeurs de confusion dans un modèle comportant un grand nombre de facteurs de confusion potentiels. Cette technique d’analyse comprend la régression linéaire ou logistique.

Conclusion

Vous obtiendrez des résultats faussés si vous ne modifiez pas la troisième variable affectant une relation entre deux variables. La détermination de la variable confusionnelle est essentielle pour l’évaluation du modèle d’apprentissage automatique. Le modèle peut inclure de nombreux facteurs de confusion inconnus, ce qui modifie le résultat. Votre planification, votre conception et votre exécution du modèle de prédiction ne seront d’aucune utilité, car elles manipuleront les variables indépendantes. Il est donc nécessaire de réduire les effets de l’algorithme pour obtenir des résultats spécifiques et sans erreur.

 

 

Langages

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.