Le variabili categoriali rappresentano tipi di dati che possono essere divisi in gruppi. Campioni di variabili categoriali sono la razza, il sesso, la fascia d’età e il livello accademico. Mentre queste ultime due variabili possono anche essere considerate in modo numerico utilizzando valori esatti per l’età e il grado più alto completato, è spesso più informativo categorizzare tali variabili in un numero relativamente piccolo di gruppi.

L’analisi dei dati categorici comporta generalmente l’utilizzo di tabelle di conoscenza. Una tabella a due vie presenta i dati categorici contando la quantità di osservazioni che rientrano in ogni gruppo per 2 variabili, una divisa in righe e quindi l’altra divisa in colonne. Per esempio, supponiamo che sia stata condotta un’indagine su un gruppo di 20 individui, ai quali è stato chiesto di individuare il colore dei loro capelli e degli occhi. Una tabella a due vie che presenta i risultati potrebbe apparire come segue:

Colore degli occhi

Colore dei capelli Blu Verde Verde Marrone Nero Totale

—————————————————–

Bionda 2 1 2 1 6

Rosso 1 1 2 0 4

Marrone 1 0 4 2 2 7

Nero 1 0 2 0 3

—————————————————–

Totale 5 2 10 3 20

I totali di ogni categoria, detti anche distribuzioni marginali, forniscono il numero di persone in ogni riga o colonna senza tener conto dell’effetto della variabile opposta (nell’esempio precedente, l’intero numero di persone con gli occhi blu, indipendentemente dal colore dei capelli, è di 5).

Poiché i semplici conteggi sono spesso difficili da ricercare, le tabelle bidirezionali sono spesso convertite in percentuali. Nell’esempio di cui sopra, ci sono 4 persone con i capelli rossi. Dato che ci sono state un totale di 20 osservazioni, questo suggerisce che il 20% degli individui sopravissuti sono rossi. Si potrebbe anche voler ricercare le probabilità all’interno di una data categoria — dei 4 rossi, 2 (50%) hanno gli occhi marroni, 1 (25%) ha gli occhi blu, e 1 (25%) ha gli occhi verdi.

Per un esempio più dettagliato, si consideri il successivo dataset, “Pesi della squadra olimpica di canottaggio degli Stati Uniti del 1996”. la colonna primaria dà il nome del vogatore, la seconda dà il suo evento, e quindi la terza dà il suo peso. Complessivamente con il peso dato come dati numerici esistono 8 diverse categorie di eventi.

Autrice LW_doppio_sculls 154 Klepacki quattro 205

Beasley single_sculls 224 Koven otto 200

Marrone otto 214 Mueller quad 215

Onere otto 195 Murphy otto 220

Carlucci LW_quattro 160 Murray quattro 205

Collins,D LW_quattro 155 Peterson,M coppia 210

Collins,P otto 195 Peterson,S LW_double_sculls 160

Gailes quad 205 Pfaendtner LW_four 160

Padiglione quattro 195 Schnieder LW_quattro 158

Olanda coppia 195 Scott quattro 208

Honebein otto 200 Segaloff coxswain 121

Jamieson quad 210 Smith otto 207

Kaehler otto 210 Young quad 207

Fonte dei dati: Le biografie dei membri del team sono riportate sul sito internet della NBC Olympic. Dataset disponibile attraverso l’archivio JSE Dataset.

Prima di creare una tabella a due vie per eventi e pesi, l’analista deve prima dividere la colonna numerica “peso” in gruppi, creando una variabile categorica. Utilizzando il comando MINITAB “DESCRIBE” fornisce le successive informazioni sui dati di carico:

Statistiche descrittive

Variabile N Media Media N Media Tr Media StDev SE Media

Peso 26 191,85 202,50 193,46 26,27 5,15

Variabile Min Max Q1 Q3

Peso 121,00 224,00 160,00 210,00

Si potrebbe scegliere, supportata questa informazione, di dividere i valori di carico in 4 gruppi, come meno di 150 libbre, 150-175 libbre, 175-200 libbre, e oltre 200 libbre. Una volta che l’informazione è stata categorizzata (il comando MINITAB “CODE” potrebbe essere anche abituato ad eseguire questa funzione), il comando MINITAB “TABLE” creerà delle tabelle bidirezionali, come segue:

Righe: Colonne eventi: Peso_Classe

200 Tutti

LW_doubl 0 2 0 0 0 2

singolo_s 0 0 0 0 1 1

otto 0 0 0 4 4 4 8

LW_quattro 0 4 0 0 0 4

quad 0 0 0 0 4 4 4

quattro 0 0 0 1 3 4

coppia 0 0 0 1 1 1 2

coxswain 1 0 0 0 0 1

Tutti 1 6 6 13 26

Utilizzando il sottocomando “ROWPERCENT” riproduce questa tabella con le quote dei vogatori in ogni categoria di peso per evento:

Righe: Colonne di eventi: Peso_Classe

0 1 2 2 3 Tutti

LW_doubl — 100.00 — — — 100.00

singolo_s — — — — — 100.00 100.00

otto — — — 50.00 50.00 100.00

LW_quattro — 100.00 — — — 100.00

quad — — — — 100.00 100.00

quattro — — — — 25,00 75,00 100,00

coppia — — — 50.00 50.00 100.00

timoniere 100,00 — — — — 100,00

Tutti 3,85 23,08 23,08 23,08 50,00 100,00

Questi risultati indicano che la metà di tutti i vogatori si trova all’interno della classe di peso superiore, mentre il resto è equamente diviso tra le 2 classi medie (ad eccezione del timoniere, che è l’unico membro della squadra all’interno del gruppo di peso più leggero). Allo stesso modo, il sottocomando “COLPERCENT” fornisce la quota di vogatori in ogni categoria di eventi in base al peso.