Les variables catégorielles représentent des sortes de données qui peuvent être divisées en groupes. Les échantillons de variables catégorielles sont la race, le sexe, le groupe d’âge et le niveau d’études. Bien que ces deux dernières variables puissent également être considérées de manière numérique en utilisant des valeurs exactes pour l’âge et le plus haut niveau atteint, il est souvent plus instructif de classer ces variables dans un nombre relativement faible de groupes.

L’analyse des données catégorielles implique généralement l’utilisation de tableaux de connaissances. Un tableau à double sens présente les données catégorielles en comptant la quantité d’observations qui relèvent de chaque groupe pour 2 variables, l’une divisée en lignes et donc l’autre divisée en colonnes. Par exemple, supposons qu’une enquête ait été menée auprès d’un groupe de 20 personnes, auxquelles on a demandé de repérer la couleur de leurs cheveux et de leurs yeux. Un tableau à double sens présentant les résultats pourrait apparaître comme suit :

Couleur des yeux

Couleur des cheveux Bleu Vert Marron Noir Total

—————————————————–

Blonde 2 1 2 1 6

Rouge 1 1 2 0 4

Brun 1 0 4 2 7

Noir 1 0 2 0 3

—————————————————–

Total 5 2 10 3 20

Les totaux de chaque catégorie, également appelés distributions marginales, donnent le nombre de personnes dans chaque ligne ou colonne sans tenir compte de l’effet de la variable opposée (dans l’exemple ci-dessus, le nombre total de personnes aux yeux bleus, quelle que soit la couleur des cheveux, est de 5).

Comme les comptes simples sont souvent difficiles à rechercher, les tableaux à double sens sont souvent convertis en pourcentages. Dans l’exemple ci-dessus, il y a 4 personnes ayant les cheveux roux. Comme il y a eu 20 observations complètes, cela suggère que 20 % des personnes interrogées sont rousses. On peut aussi faire une recherche sur les chances de réussite dans une catégorie donnée : sur les 4 roux, 2 (50%) ont les yeux marrons, 1 (25%) a les yeux bleus et 1 (25%) a les yeux verts.

Pour un exemple plus détaillé, considérez l’ensemble de données suivant, “Poids de l’équipe olympique américaine d’aviron de 1996” : la première colonne donne le nom du rameur, la deuxième son épreuve, et donc la troisième son poids. Avec les poids donnés sous forme de données numériques, il existe 8 catégories d’épreuves différentes.

Auth LW_double_sculls 154 Klepacki four 205

Beasley single_sculls 224 Koven eight 200

Huit brun 214 Mueller quad 215

Charge huit 195 Murphy huit 220

Carlucci LW_four 160 Murray four 205

Collins,D LW_four 155 Peterson,M paire 210

Collins,P huit 195 Peterson,S LW_double_sculls 160

Gailes quad 205 Pfaendtner LW_four 160

Hall quatre 195 Schnieder LW_four 158

Hollande paire 195 Scott quatre 208

Honebein huit 200 Segaloff barreur 121

Jamieson quad 210 Smith huit 207

Kaehler huit 210 Young quad 207

Source des données : Biographies des membres de l’équipe données sur le site internet olympique NBC. L’ensemble des données est disponible dans les archives du JSE.

Avant de créer un tableau à double sens pour les événements et les poids, l’analyste doit d’abord diviser la colonne “poids” numérique en groupes, en créant une variable catégorielle. La commande MINITAB “DESCRIBE” donne les informations suivantes sur les données de chargement :

Statistiques descriptives

Variable N Moyenne Médiane Tr Moyenne StDev SE Moyenne

Poids 26 191,85 202,50 193,46 26,27 5,15

Variable Min Max Q1 Q3

Poids 121.00 224.00 160.00 210.00

On pourrait choisir, en se basant sur ces informations, de diviser les valeurs de charge en 4 groupes, comme moins de 150 lbs, 150-175 lbs, 175-200 lbs, et plus de 200 lbs. Une fois les informations classées par catégorie (la commande MINITAB “CODE” peut également être utilisée pour cette fonction), la commande MINITAB “TABLE” crée des tableaux à double sens, comme suit

Lignes : Colonnes d’événements : Poids_Classe

200 Tous

LW_doubl 0 2 0 0 2

single_s 0 0 0 1 1

huit 0 0 4 4 8

LW_four 0 4 0 0 4

quad 0 0 0 4 4

quatre 0 0 1 3 4

paire 0 0 1 1 2

barreur 1 0 0 0 1

Tous 1 6 6 13 26

La sous-commande “ROWPERCENT” reproduit ce tableau avec les cotes des rameurs dans chaque catégorie de poids par événement :

Rameurs : Colonnes d’événements : Classe_de_poids

0 1 2 3 Tous

LW_doubl — 100.00 — — 100.00

single_s — — — — 100.00 100.00

huit — — — 50.00 50.00 100.00

LW_four — 100.00 — — 100.00

quad — — — — 100.00 100.00

quatre — — — 25.00 75.00 100.00

paire — — — 50.00 50.00 100.00

barreur 100.00 — — — 100.00

Tous 3.85 23.08 23.08 50.00 100.00

Ces résultats indiquent que la moitié des rameurs appartiennent à la classe de poids supérieure, le reste étant réparti de manière égale entre les deux classes moyennes (à l’exception du barreur, qui est le seul membre de l’équipe à appartenir à la classe de poids la plus légère). De même, le sous-commandant “COLPERCENT” fournit la part des rameurs de chaque catégorie de poids dans les épreuves.