Zmienne kategoryczne reprezentują rodzaje danych, które mogą być podzielone na grupy. Próbki zmiennych kategorycznych to: rasa, płeć, grupa wiekowa i poziom akademicki. Podczas gdy te ostatnie dwie zmienne mogą być również rozpatrywane w sposób numeryczny poprzez zastosowanie dokładnych wartości dla ukończonego wieku i najwyższej oceny, często bardziej pouczające jest dzielenie takich zmiennych na stosunkowo niewielką liczbę grup.

Analiza danych kategorycznych na ogół wiąże się z wykorzystaniem tabel wiedzy. Dwukierunkowa tabela przedstawia dane kategoryczne poprzez zliczenie ilości obserwacji, które mieszczą się w każdej grupie dla 2 zmiennych, z których jedna podzielona jest na wiersze, a zatem druga na kolumny. Na przykład, załóżmy, że przeprowadzono badanie gaggle 20 osób, które zostały poproszone o zauważenie ich włosów i koloru oczu. Dwukierunkowa tabela przedstawiająca wyniki może wyglądać następująco:

Kolor oczu

Kolor włosów Niebieski Zielony Brązowy Czarny Ogółem

—————————————————–

Blondynka 2 1 2 1 6

Czerwony 1 1 2 0 4

Brązowy 1 0 4 2 7

Czarny 1 0 2 0 3

—————————————————–

Razem 5 2 10 3 20

Sumy dla każdej kategorii, zwane również rozkładami krańcowymi, podają liczbę osób w każdym wierszu lub kolumnie bez uwzględniania efektu przeciwnej zmiennej (w powyższym przypadku całkowita liczba osób z niebieskimi oczami, bez względu na kolor włosów, wynosi 5).

Ponieważ proste wyliczenia są często trudne do zbadania, dwukierunkowe tabele są często przeliczane na wartości procentowe. W powyższym przykładzie są 4 osoby z rudymi włosami. Ponieważ przeprowadzono 20 obserwacji, sugeruje to, że 20% z nich to rude włosy. Można również zbadać szanse w ramach danej kategorii – z 4 rudowłosych 2 (50%) ma brązowe oczy, 1 (25%) ma niebieskie oczy, a 1 (25%) ma zielone oczy.

Bardziej szczegółowy przykład można znaleźć w kolejnym zestawie danych, “Wagi Wioślarskiej Drużyny Olimpijskiej USA 1996”. W kolumnie głównej znajduje się nazwa wioślarza, w kolumnie drugiej – jego zawody, a zatem w kolumnie trzeciej podaje się jego wagę. Razem z wagą podaną jako dane liczbowe istnieje 8 różnych kategorii zawodów.

Auth LW_double_sculls 154 Klepacki cztery 205

Beasley single_sculls 224 Koven osiem 200

Brązowy osiem 214 Mueller quad 215

Obciążenie osiem 195 Murphy osiem 220

Carlucci LW_four 160 Murray cztery 205

Collins,D LW_four 155 Peterson,M pair 210

Collins,P osiem 195 Peterson,S LW_double_sculls 160

Gailes quad 205 Pfaendtner LW_four 160

Hall four 195 Schnieder LW_four 158

Para holenderska 195 Scott cztery 208

Honebein osiem 200 Segaloff coxswain 121

Jamieson quad 210 Smith osiem 207

Kaehler osiem 210 Młody quad 207

Źródło danych: Biografie członków zespołu zamieszczone na stronie internetowej NBC Olympic. Zbiór danych dostępny w Archiwum Zbioru Danych JSE.

Przed utworzeniem dwukierunkowej tabeli wydarzeń i wag, analityk musi najpierw podzielić kolumnę liczbową “waga” na grupy, tworząc zmienną kategoryczną. Użycie polecenia MINITAB “DESCRIBE” daje kolejne informacje o danych obciążenia:

Statystyka opisowa

Zmienna N średnia Mediana Tr średnia StDev SE średnia

Masa 26 191,85 202,50 193,46 26,27 5,15

Zmienna Min Max Q1 Q3

Waga 121,00 224,00 160,00 210,00

Na podstawie tych informacji można podzielić wartości obciążeń na 4 grupy, np. poniżej 150 funtów, 150-175 funtów, 175-200 funtów i ponad 200 funtów. Po skategoryzowaniu informacji (polecenie MINITAB “CODE” może również nie wykonywać tej funkcji), polecenie MINITAB “TABELA” utworzy dwukierunkowe tabele, jak poniżej:

Wiersze: Kolumny zdarzeń: Waga_Klasa

200 Wszystkie

LW_doubl 0 2 0 0 2

single_s 0 0 0 1 1

osiem 0 0 4 4 8

LW_four 0 4 0 0 4

quad 0 0 0 4 4

cztery 0 0 1 3 4

para 0 0 1 1 2

coxswain 1 0 0 0 1

Wszystkie 1 6 6 13 26

Za pomocą podpolecenia “ROWPERCENT” można odtworzyć tę tabelę z kursami dla wioślarzy w każdej kategorii wagowej według zdarzeń:

Wioślarze: Kolumny zdarzeń: Waga_klasa

0 1 2 3 Wszystkie

LW_doubl — 100.00 — — 100.00

single_s — — — 100.00 100.00

osiem — — 50.00 50.00 100.00

LW_cztery — 100.00 — — 100.00

quad — — — 100.00 100.00 100.00

cztery — — 25,00 75,00 100,00 100,00

para — — 50.00 50.00 100.00 100.00

coxswain 100.00 — — 100.00

Wszystkie 3,85 23,08 23,08 50,00 100,00 50,00 100,00

Wyniki te wskazują, że połowa wszystkich wioślarzy znajduje się w górnej klasie wagowej, a reszta jest równo podzielona między 2 klasy średnie (z wyjątkiem coxswaina, który jest jedynym członkiem zespołu w najlżejszej grupie wagowej). Podobnie, podpolecenie “COLPERCENT” podaje udział wagowy wioślarzy w każdej kategorii imprez.