Kategorische Variablen repräsentieren Arten von Daten, die in Gruppen unterteilt werden können. Stichproben von kategorialen Variablen sind Rasse, Geschlecht, Altersgruppe und akademisches Niveau. Während die beiden letztgenannten Variablen auch auf numerische Weise berücksichtigt werden können, indem genaue Werte für Alter und höchste abgeschlossene Stufe verwendet werden, ist es oft informativer, solche Variablen in eine vergleichsweise kleine Anzahl von Gruppen zu kategorisieren.

Die Analyse kategorialer Daten beinhaltet im Allgemeinen die Verwendung von Wissenstabellen. Eine Zwei-Wege-Tabelle stellt kategoriale Daten dar, indem die Anzahl der Beobachtungen, die unter jede Gruppe fallen, für 2 Variablen gezählt wird, von denen eine in Zeilen und daher die andere in Spalten unterteilt ist. Nehmen wir zum Beispiel an, dass eine Umfrage bei einer Schar von 20 Personen durchgeführt wurde, die gebeten wurden, ihre Haar- und Augenfarbe zu erkennen. Eine Zwei-Wege-Tabelle mit den Ergebnissen könnte wie folgt aussehen:

Augenfarbe

Haarfarbe Blau Grün Braun Braun Schwarz Gesamt

—————————————————–

Blond 2 1 2 1 6

Rot 1 1 1 2 0 4

Braun 1 0 4 2 7

Schwarz 1 0 2 0 3

—————————————————–

Insgesamt 5 2 10 3 3 20

Die Gesamtzahlen für jede Kategorie, die auch als Randverteilungen bezeichnet werden, geben die Anzahl der Personen in jeder Zeile oder Spalte an, ohne den Effekt der entgegengesetzten Variablen zu berücksichtigen (im obigen Fall beträgt die Gesamtzahl der Personen mit blauen Augen, unabhängig von der Haarfarbe, 5).

Da einfache Zählungen oft schwierig zu recherchieren sind, werden zweiseitige Tabellen oft in Prozentwerte umgerechnet. In dem obigen Beispiel gibt es 4 Personen mit roten Haaren. Da es 20 vollständige Beobachtungen gab, lässt dies darauf schließen, dass 20% der untersuchten Personen Rothaarige sind. Man könnte auch die Chancen innerhalb einer bestimmten Kategorie untersuchen – von den 4 Rothaarigen haben 2 (50%) braune Augen, 1 (25%) hat blaue Augen und 1 (25%) hat grüne Augen.

Für ein detaillierteres Beispiel betrachten Sie den nachfolgenden Datensatz “Gewichte des Olympischen Ruderteams der USA 1996”: In der ersten Spalte steht der Name des Ruderers, in der zweiten sein Wettkampf und in der dritten sein Gewicht. Zusammen mit den als numerische Daten angegebenen Gewichten existieren 8 verschiedene Wettkampfkategorien.

Auth LW_Doppel_Sculls 154 Klepacki vier 205

Beasley single_sculls 224 Koven eight 200

Braun acht 214 Müller vierfach 215

Bürde acht 195 Murphy acht 220

Carlucci LW_vier 160 Murray vier 205

Collins,D LW_vier 155 Peterson,M Paar 210

Collins,P acht 195 Peterson,S LW_Doppel_Sculls 160

Gailes quad 205 Pfändtner LW_vier 160

Saal vier 195 Schnieder LW_vier 158

Holland-Paar 195 Scott vier 208

Honebein acht 200 Segaloff-Steuermann 121

Jamieson vierfach 210 Smith acht 207

Kaehler acht 210 Junger Vierer 207

Datenquelle: Biographien der Teammitglieder auf der NBC Olympic-Website. Der Datensatz ist über das JSE-Datensatzarchiv verfügbar.

Bevor eine Zwei-Wege-Tabelle für Ereignisse und Gewichte erstellt werden kann, muss der Analytiker zunächst die numerische Spalte “Gewicht” in Gruppen unterteilen und eine kategoriale Variable erstellen. Mit dem MINITAB-Befehl “DESCRIBE” erhält man anschließend Informationen über die Belastungsdaten:

Beschreibende Statistik

Variable N Mittelwert Median Tr Mittelwert StDev SE Mittelwert

Gewicht 26 191,85 202,50 193,46 26,27 5,15

Variabel Min Max Q1 Q3

Gewicht 121,00 224,00 160,00 160,00 210,00

Man könnte sich, gestützt auf diese Informationen, dafür entscheiden, die Belastungswerte in 4 Gruppen einzuteilen, wie unter 150 lbs, 150-175 lbs, 175-200 lbs und über 200 lbs. Sobald die Information kategorisiert wurde (der MINITAB-“CODE”-Befehl könnte diese Funktion ebenfalls ausführen), erstellt der MINITAB-“TABLE”-Befehl Zweiwegtabellen wie folgt:

Zeilen: Ereignis-Spalten: Gewicht_Klasse

200 Alle

LW_Verdoppelung 0 2 0 0 0 2

einzel_s 0 0 0 0 1 1

acht 0 0 0 4 4 8

LW_vier 0 4 0 0 0 4

vierfach 0 0 0 0 0 4 4

vier 0 0 0 1 3 4

Paar 0 0 0 1 1 1 2

Steuermann 1 0 0 0 0 1

Alle 1 6 6 6 13 26

Mit dem Unterbefehl “ROWPERCENT” wird diese Tabelle mit den Quoten der Ruderer in jeder Gewichtskategorie nach Ereignis reproduziert:

Reihen: Ereignis-Spalten: Gewicht_Klasse

0 1 2 3 Alle

LW_doubl — 100.00 — — — 100.00

einzel_s — — — — 100.00 100.00

acht — — — 50.00 50.00 100.00

LW_vier — 100.00 — — — 100.00

vierfach — — — — 100.00 100.00

vier — — — 25.00 75.00 100.00

Paar — — — 50,00 50,00 50,00 100,00

Steuermann 100.00 — — — — — 100.00

Alle 3.85 23.08 23.08 50.00 100.00

Diese Ergebnisse deuten darauf hin, dass die Hälfte aller Ruderer in der oberen Gewichtsklasse liegt, während der Rest gleichmäßig auf die beiden mittleren Klassen verteilt ist (mit Ausnahme des Steuermanns, der als einziger in der leichtesten Gewichtsklasse ist). In ähnlicher Weise gibt der Unterbefehl “COLPERCENT” den Anteil der Ruderer in jeder Gewichtsklasse an.