Lorsque vous développez un modèle d’apprentissage automatique, vous pouvez rencontrer de nombreux problèmes. Un problème courant lié à la sélection des caractéristiques détermine la pertinence des caractéristiques d’entrée pour la sortie prédictive. Vous pouvez utiliser des tests statistiques pour comprendre comment la variable de sortie dépend de la variable d’entrée. Ces tests sont utiles lorsque les variables d’entrée sont définies. Si le résultat indique que la sortie est indépendante, vous devez supprimer la variable d’entrée car elle n’est pas pertinente pour le problème. Le test du chi carré de Pearson permet de déterminer si les variables catégorielles sont indépendantes ou non.

Qu’est-ce qu’un test du chi-deux ?

Le test du chi-deux est une technique statistique permettant de déterminer la relation entre deux variables dans un ensemble de données similaires. Nous pouvons comprendre le concept à partir de l’exemple suivant :
Supposons qu’un chercheur veuille déterminer une relation permettant de placer les étudiants dans un département en fonction de leur CGPA. Il va extraire des enregistrements aléatoires du département pour les cinq dernières années. Il enregistre le nombre d’étudiants et leur CGPA, qui étaient disponibles pour cette catégorie, c’est-à-dire, inférieur à 6, 6-7, 7-8, 8-9, 9-10.
S’il ne trouve pas de relation entre le placement des étudiants et leur CGPA, il doit répartir les étudiants de manière égale dans différentes catégories. Toutefois, si tous les étudiants d’une catégorie ont un CGPA supérieur à 8, les étudiants ayant un score inférieur à 8 ne seront classés dans aucune catégorie.

Hypothèses du test

Le test du Chi étant un test statistique, il comporte quelques hypothèses :
– Vous obtiendrez les données en utilisant une sélection aléatoire de l’ensemble des données.
– Chaque sujet n’entrera que dans une seule catégorie. Par exemple, si vous considérez le nombre d’employés qui n’étaient pas disponibles le lundi uniquement, vous ne pouvez pas les inclure le mardi.
– Vous devez collecter les données en nombre ou en fréquence. Ne considérez pas les données en pourcentage.
– Les données ne doivent pas contenir de groupes car cela affectera les observations.
– Vous ne pouvez pas utiliser le khi-carré si la valeur de 20 % des fréquences attendues est inférieure à 5.

Comment réaliser le test du khi-deux ?

Suivez les étapes suivantes pour effectuer le test et trouver les variables dépendantes :
1. Identifier l’hypothèse
2. Créer un tableau de contingence
3. Déterminer les valeurs attendues
4. Calculer la statistique du khi-deux
5. Accepter et rejeter l’hypothèse nulle.

1. Identification de l’hypothèse

L’hypothèse nulle ou H1 indique que les deux variables sont indépendantes. Cependant, vous inclurez également une hypothèse alternative ou H1. Celle-ci indique que les deux variables ne sont pas indépendantes.

2. Création d’un tableau de contingence

Dans cette étape, vous allez créer un tableau de contingence indiquant la distribution des deux variables. Placez la première variable dans une ligne et les autres variables dans une colonne. Ce tableau vous aidera à comprendre la relation entre les deux variables.

Le tableau de contingence comprendra également les degrés de liberté. Vous indiquerez les degrés de liberté sous la forme (r-1)x(c-1). Dans cette équation, r sera les lignes, et c sera la colonne. Ici :
Df = (2-1) x (2-1) = 1
Dans le tableau ci-dessus, nous avons calculé toutes les valeurs observées. Ensuite, nous allons trouver les valeurs attendues. Pour cela, nous devons trouver la valeur du Khi-deux et identifier la relation.

3. Détermination des valeurs attendues

Selon l’hypothèse nulle, les deux variables ne sont pas dépendantes. Par conséquent, nous pouvons considérer l’équation suivante en supposant que A et B sont deux événements différents et indépendants :

Nous pouvons maintenant calculer la valeur attendue de la première cellule. La première cellule comprend les hommes qui sont sortis de la banque.

De même, en utilisant la même équation, nous pouvons déterminer les résultats des autres cellules. Voici le résultat :

4. Calcul de la statistique du chi carré

Nous pouvons maintenant déterminer la valeur du Khi-deux en plaçant les valeurs attendues calculées et les valeurs observées dans le tableau ci-dessous :

Le tableau ci-dessus indique O comme les valeurs observées et E comme les valeurs attendues. En considérant la formule de la statistique du Khi-deux pour la valeur ci-dessus, nous avons trouvé un Khi-deux de 2,22.

5. Accepter et rejeter l’hypothèse nulle

Maintenant, nous pouvons vérifier si vous devez accepter ou rejeter le Khi-deux calculé avec un niveau de confiance de 95 %. Le niveau de confiance est alpha, qui est égal à 0,05. En mettant les valeurs que nous avons calculées à partir des formules ci-dessus, nous pouvons déterminer si le Khi-deux doit être accepté ou rejeté.
– Degré de liberté = 1 (selon le tableau de contingence)
– Alpha = 0,05
– Valeur du chi-deux = 3,84
Vous pouvez trouver la valeur du Khi’² en utilisant ce tableau.
Comme il y a une grande différence entre les valeurs observées et les valeurs attendues, la distribution tombera du côté droit.

D’après la figure ci-dessus, nous pouvons comprendre que la valeur du Khi’² est comprise entre 0 et inf. Cependant, l’alpha se situe dans la direction opposée, entre 0 et 1. Si la valeur du Khi-deux tombe dans la zone d’erreur, vous devez rejeter l’hypothèse nulle. La zone d’erreur sera l’alpha et se situera entre 0 et 0,05. Cependant, dans l’exemple ci-dessus, la valeur du Khi-deux est inférieure à la valeur critique du Khi-deux, vous accepterez donc l’hypothèse nulle.

Conclusion

La compréhension du contexte ci-dessus concernant le test du Khi-deux vous donnera une image claire du concept. Gardez à l’esprit que le test vous aidera à identifier la relation entre les valeurs observées et les valeurs estimées. En outre, il indique si les variables sont dépendantes ou indépendantes. Cependant, vous ne pouvez pas déterminer pourquoi ces variables sont dépendantes ni la relation entre elles.