Het doel van het testen van de nulhypothese

Zoals we hebben gezien, omvat psychologisch onderzoek meestal het meten van een of meer variabelen voor een steekproef en het berekenen van beschrijvende statistieken voor die steekproef. Over het algemeen is het doel van de onderzoeker echter niet om conclusies te trekken uit die steekproef, maar om conclusies te trekken over de populatie waaruit de steekproef is geselecteerd. Onderzoekers moeten dus gebruik maken van steekproefstatistieken om conclusies te trekken over de corresponderende waarden binnen de populatie. Deze corresponderende waarden binnen de populatie worden parameters genoemd. Stel je voor dat een onderzoeker bijvoorbeeld de hoeveelheid depressieve symptomen meet die door elk van de vijftig klinisch depressieve volwassenen worden vertoond en het gemiddelde aantal symptomen berekent. De onderzoeker wil waarschijnlijk aan de hand van deze steekproefstatistiek (het gemiddelde aantal symptomen voor de steekproef) conclusies trekken over de corresponderende bevolkingsparameter (het gemiddelde aantal symptomen voor klinisch depressieve volwassenen).

Helaas zijn steekproefstatistieken geen perfecte schattingen van de corresponderende bevolkingsparameters. Dit komt vaak omdat er een bepaalde hoeveelheid willekeurige variabiliteit is in elke statistiek van steekproef tot steekproef. Het gemiddelde aantal depressieve symptomen kan 8,73 zijn in een steekproef van klinisch depressieve volwassenen, 6,45 in een tweede steekproef en 9,44 in een derde steekproef, ook al zijn deze steekproeven willekeurig gekozen uit een equivalente populatie. Ook de correlatie (Pearson’s r) tussen twee variabelen zou +,24 in een steekproef kunnen zijn, -,04 in een tweede steekproef en +,15 in een derde-againe steekproef, hoewel deze steekproeven willekeurig uit een equivalente populatie worden geselecteerd. Deze willekeurige variabiliteit tijdens een statistiek van steekproef tot steekproef wordt steekproeffout genoemd. (Merk op dat de term fout hier verwijst naar willekeurige variabiliteit en niet impliceert dat iemand een fout heeft gemaakt. niemand “begaat een steekproeffout.”)

Een implicatie hiervan is vaak dat wanneer er een statistische relatie is tijdens een steekproef, het niet altijd duidelijk is dat er een statistische relatie is binnen de populatie. Weinig verschil tussen twee groepsmiddelen tijdens een steekproef zou erop kunnen wijzen dat er weinig verschil is tussen de twee groepsmiddelen binnen de populatie. Maar het kan zelfs zo zijn dat er geen verschil is tussen de middelen binnen de populatie dat het verschil binnen de steekproef gewoon een kwestie van steekproeffout is. Op dezelfde manier kan een Pearson’s r-waarde van -.29 tijdens een steekproef betekenen dat er een negatief verband is binnen de populatie. Maar het kan zelfs zijn dat er geen relatie is binnen de populatie waarbij het verband binnen de steekproef gewoon een kwestie van steekproeffout is.

In feite wordt elke statistische relatie tijdens een steekproef vaak op twee manieren geïnterpreteerd:

Er is een relatie binnen de populatie, en daarom weerspiegelt de relatie binnen de steekproef dit.

Er is geen relatie binnen de populatie en daarom geeft de relatie binnen de steekproef alleen een steekproeffout weer.

Het doel van null hypothesetests is alleen om onderzoekers te helpen bij het maken van een keuze tussen deze twee interpretaties.

De logica van de nulhypothesetests

Het testen van nulhypothesen kan een formele benadering zijn om te beslissen tussen twee interpretaties van een statistische relatie tijdens een steekproef. Eén interpretatie wordt de nulhypothese genoemd (vaak gesymboliseerd H0 en afgeschuimd als “H-naught”). Dit is vaak de gedachte dat er geen relatie is binnen de populatie waarbij het verband binnen de steekproef alleen een steekproeffout weergeeft. Informeel is de nulhypothese dat de steekproefrelatie “toevallig” is ontstaan. De tegenovergestelde interpretatie wordt de keuzehypothese (vaak gesymboliseerd als H1) genoemd. De tegenovergestelde interpretatie wordt de keuzehypothese genoemd (vaak gesymboliseerd als H1). Dit is vaak de gedachte dat er een relatie is binnen de populatie waarbij het verband binnen de steekproef deze relatie reflecteert.

Nogmaals, elke statistische relatie tijdens een steekproef wordt vaak op een van deze twee manieren geïnterpreteerd: het zou per ongeluk zijn gebeurd, of het zou een weerspiegeling zijn van een relatie binnen de populatie. Onderzoekers moeten dus een beslissing nemen tussen hen. Hoewel er veel specifieke null hypothesetesttechnieken zijn, worden ze allemaal ondersteund door een gelijkwaardige algemene logica. De stappen zijn als volgt:

Neem voor het moment aan dat de nulhypothese waar is. Er is geen verband tussen de variabelen binnen de populatie.

Bepaal hoe waarschijnlijk de steekproefrelatie zou zijn als de nulhypothese waar zou zijn.

Als de steekproefrelatie uiterst onwaarschijnlijk zou zijn, verwerp dan de nulhypothese ten gunste van de keuzehypothese. Als het niet uiterst onwaarschijnlijk is, dan moet de nulhypothese worden gehandhaafd.

Als we deze logica volgen, zullen we beginnen te weten waarom Mehl en zijn collega’s concluderen dat er geen verschil in spraakzaamheid is tussen vrouwen en mannen binnen de populatie. In wezen stelden zij de volgende vraag: “Als er geen verschil is geweest binnen de populatie, hoe waarschijnlijk is het dan dat we weinig verschil van d = 0,06 vinden in onze steekproef?” Hun antwoord op de huidige vraag was dat deze steekproefrelatie vrij waarschijnlijk zou zijn als de nulhypothese waar zou zijn. Daarom behielden ze de nulhypothese, met de conclusie dat er geen bewijs is voor een verschil in geslacht binnen de populatie. We zullen ook zien waarom Kanner en zijn collega’s concluderen dat er een correlatie is tussen gedoe en symptomen binnen de populatie. Ze vroegen: “Als de nulhypothese waar is, hoe groot is dan de kans dat we een robuuste correlatie van +.60 in onze steekproef vinden? Hun antwoord op deze vraag was dat deze steekproefrelatie vrij onwaarschijnlijk zou zijn als de nulhypothese waar zou zijn. Daarom verwierpen ze de nulhypothese ten gunste van de keuzehypothese, met de conclusie dat er een directe correlatie bestaat tussen deze variabelen binnen de populatie.

Een cruciale stap in het testen van de nulhypothese is het vinden van de waarschijnlijkheid van het resultaat van de steekproef als de nulhypothese waar zou zijn. Deze waarschijnlijkheid wordt de p-waarde genoemd. Een koffie p-waarde betekent dat het resultaat van de steekproef onwaarschijnlijk zou zijn als de nulhypothese waar zou zijn en resulteert in de afwijzing van de nulhypothese. Een hoge p-waarde betekent dat het steekproefresultaat waarschijnlijk is als de nulhypothese waar is en resulteert in het behoud van de nulhypothese. Maar hoe laag moet de p-waarde zijn voordat de steekproefresultaten onwaarschijnlijk genoeg worden geacht om de nulhypothese af te wijzen? Bij het testen van de nulhypothese wordt dit criterium α (alfa) genoemd en bijna altijd op .05 gezet. Als er maar een 5% kans is op een resultaat als extreem omdat het resultaat van de steekproef als de nulhypothese waar zou zijn, dan wordt de nulhypothese verworpen. Wanneer dit gebeurt, zijn de resultaten statistisch significant. Als er meer dan 5% kans is op een extreem resultaat omdat het steekproefresultaat als de nulhypothese waar is, dan wordt de nulhypothese behouden. Dit betekent niet noodzakelijkerwijs dat de onderzoeker de nulhypothese als waarheidsgetrouw accepteert, maar wel dat er op dit moment niet genoeg bewijs is om te concluderen dat het waar is. Onderzoekers gebruiken vaak de uitdrukking “verwerpen de nulhypothese niet” in plaats van “behouden de nulhypothese”, maar ze gebruiken nooit de uitdrukking “aanvaarden de nulhypothese”.

De onbegrepen p-waarde

De p-waarde is een van de belangrijkste onbegrepen grootheden in psychologisch onderzoek (Cohen, 1994)[1]. Zelfs professionele onderzoekers interpreteren het verkeerd, en het is gemeengoed dat dergelijke misinterpretaties in statistische leerboeken lijken te staan!

De meest voorkomende misinterpretatie is dat de p-waarde is dat de waarschijnlijkheid dat de nulhypothese waar is, dat het resultaat van de steekproef per ongeluk gebeurde. Een misplaatste onderzoeker zou bijvoorbeeld kunnen zeggen dat omdat de p-waarde .02 is, er slechts een 2% kans is dat het resultaat te danken is aan het toeval en een 98% kans dat het een echte relatie binnen de populatie weerspiegelt. Maar dit is vaak onjuist. De p-waarde is in principe de kans op een resultaat dat minimaal of net zo extreem is, omdat het resultaat van de steekproef als de nulhypothese waar zou zijn. Dus een p-waarde van .02 betekent dat als de nulhypothese waar zou zijn, een steekproefresultaat slechts 2% van de tijd zo extreem zou zijn.

U kunt dit misverstand voorkomen door te onthouden dat de p-waarde niet de waarschijnlijkheid is dat een bepaalde hypothese waar of onwaar is. In plaats daarvan is het de waarschijnlijkheid dat het steekproefresultaat wordt verkregen als de nulhypothese waar is.

Rol van de steekproefgrootte en relatiesterkte

Bedenk dat het testen van de nulhypothese inhoudt dat de vraag wordt beantwoord: “Als de nulhypothese waar is, wat is dan de waarschijnlijkheid dat het resultaat van een steekproef zo extreem is als deze? Met andere woorden, “Wat is dat de p-waarde?” Het is vaak nuttig om vast te stellen dat de oplossing voor de huidige vraag afhankelijk is van slechts twee overwegingen: de sterkte van de verbinding en dus de grootte van de steekproef. Specifiek, hoe sterker de relatie tussen het monster en dus hoe groter het monster, hoe minder waarschijnlijk het resultaat zou zijn als de nulhypothese waar zou zijn. Dat wil zeggen, hoe lager de p-waarde. Dit zou kunnen optellen. Stel je een studie voor waarbij een steekproef van 500 vrouwen wordt vergeleken met een steekproef van 500 mannen in termen van een of andere psychologische eigenschap, en Cohen’s d kan een sterke 0,50 zijn. Als er echt geen geslachtsverschil is geweest binnen de populatie, dan zou een resultaat dat zo’n sterke steekproef ondersteunt hoogst onwaarschijnlijk moeten lijken. Stel je nu een identieke studie voor waarbij een steekproef van drie vrouwen wordt vergeleken met een steekproef van drie mannen, en Cohen’s d kan een zwakke 0,10 zijn. Als er geen geslachtsverschil is geweest binnen de populatie, dan zou een relatie die zo’n zwakke steekproef ondersteunt waarschijnlijk moeten lijken. En dit is vaak precies de reden waarom de nulhypothese binnen het eerste voorbeeld zou worden afgewezen en binnen het tweede zou worden behouden.

Natuurlijk, soms is het resultaat vaak zwak en daarom is de steekproef groot of het resultaat vaak sterk en daarom is de steekproef klein. In deze gevallen wisselen de 2 overwegingen elkaar af, zodat een zwak resultaat vaak statistisch significant is als de steekproef groot genoeg is en een robuuste relatie vaak statistisch significant is, hoewel de steekproef weinig is. Tabel 13.1 laat ruwweg zien hoe de sterkte van de relatie en de omvang van de steekproef samenvallen om uit te maken of een steekproefresultaat statistisch significant is. De kolommen in de tabel geven de drie niveaus van de relatiesterkte weer: zwak, middelgroot en krachtig. De rijen geven vier steekproefgroottes weer die in het kader van psychologisch onderzoek als klein, middelgroot, groot en extra groot zullen worden beschouwd. Zo vertegenwoordigt elke cel binnen de tabel een mix van relatiesterkte en steekproefgrootte. Als een cel het woord Ja bevat, dan zou deze mix statistisch significant zijn voor zowel Cohen’s d als Pearson’s r. Als het woord Nee erin voorkomt, dan zou het statistisch niet significant zijn voor beide. Er is een cel waar de keuze voor d en r zou variëren en een andere cel waar het zou variëren op basis van enkele aanvullende overwegingen, die worden besproken in Paragraaf 13.2 “Enkele fundamentele nulhypothesetests”.

Hoewel tabel 13.1 slechts een ruwe richtlijn geeft, laat het zeer duidelijk zien dat zwakke relaties die ondersteund worden door middelgrote of kleine monsters nooit statistisch significant zijn, terwijl sterke relaties die ondersteund worden door middelgrote of grotere monsters altijd statistisch significant zijn. Als u deze les in gedachten houdt, weet u vaak of een resultaat statistisch significant is en alleen de beschrijvende statistieken ondersteunt. Het is uiterst nuttig om klaar te zijn om dit soort intuïtieve beoordelingen te ontwikkelen. Een van de redenen hiervoor is dat het u in staat stelt om verwachtingen te ontwikkelen over hoe uw formele nulhypothesetests beginnen, waardoor u achtereenvolgens problemen in uw analyses kunt opsporen. Als bijvoorbeeld uw monsterrelatie robuust is en uw monster medium, dan zou u verwachten dat u de nulhypothese zou verwerpen. Als uw formele nulhypothesetest om een paar redenen anders aangeeft, dan wilt u uw berekeningen en interpretaties dubbel controleren. Een tweede reden is dat de kracht om een dergelijk intuïtief oordeel te vormen een teken is dat je eenvoudigweg de essentiële logica van deze benadering begrijpt, naast het vermogen om de berekeningen te proberen.

Statistische significantie Versus Praktische significantie

Tabel 13.1 illustreert een ander uiterst belangrijk punt. Een statistisch significant resultaat is niet noodzakelijkerwijs een robuust resultaat. Zelfs een echt zwak resultaat is vaak statistisch significant als het een voldoende grote steekproef ondersteunt. Dit is vaak nauw verbonden met het argument van Janet Shibley Hyde over geslachtsverschillen (Hyde, 2007)[2]. De verschillen tussen vrouwen en mannen in het oplossen van wiskundige problemen en het vermogen om leiding te geven zijn statistisch significant. Maar het woord significant kan ertoe leiden dat mensen deze verschillen als sterk en belangrijk genoeg interpreteren – misschien zelfs belangrijk genoeg om invloed uit te oefenen op de schoolcursussen die ze volgen of misschien op wie ze stemmen. Zoals we hebben gezien zijn deze statistisch significante verschillen echter letterlijk vrij zwak – misschien zelfs “triviaal”.

Daarom is het belangrijk om onderscheid te maken tussen de statistische betekenis van een resultaat en dus de praktische betekenis van dat resultaat. Praktische significantie verwijst naar het belang of het nut van het einde in een of andere reële context. Veel sekseverschillen zijn statistisch significant – en kunnen zelfs interessant zijn om puur wetenschappelijke redenen – maar ze zijn niet praktisch significant. In de klinische praktijk wordt ditzelfde concept meestal genoemd als “klinische betekenis”. Zo zou een studie naar een vervangende behandeling voor fobie kunnen aantonen dat het een statistisch significant positief effect heeft. Toch zal dit effect nog steeds niet sterk genoeg zijn om de tijd, moeite en andere kosten om het in de praktijk te brengen te rechtvaardigen – vooral als er al gemakkelijkere en goedkopere behandelingen bestaan die bijna ook al werkgelegenheid bieden. Hoewel dit resultaat statistisch significant is, zou men zeggen dat het praktische of klinische betekenis mist.

Het testen van nulhypothesen kan een formele benadering zijn om te beslissen of een statistische relatie tijdens een steekproef een werkelijke relatie binnen de populatie weerspiegelt of eenvoudigweg te danken is aan het toeval.

De logica van de nulhypothesetest bestaat erin te veronderstellen dat de nulhypothese waar is, na te gaan hoe waarschijnlijk het resultaat van de steekproef zou zijn als deze veronderstelling juist was, en dan een keuze te maken. Als het resultaat van de steekproef onwaarschijnlijk zou zijn als de nulhypothese waar zou zijn, dan wordt deze verworpen ten gunste van de keuzehypothese. Als het niet onwaarschijnlijk is, dan wordt de nulhypothese gehandhaafd.

De kans op het verkrijgen van het steekproefresultaat als de nulhypothese waar is (de p-waarde) is gebaseerd op twee overwegingen: de sterkte van de relatie en de steekproefomvang. Redelijke oordelen over de vraag of een steekproefrelatie statistisch significant is, kunnen vaak worden gegeven door snel rekening te houden met deze twee factoren.

Statistische significantie is niet hetzelfde als de sterkte of het belang van de relatie. Zelfs zwakke relaties zijn vaak statistisch significant als de steekproefomvang groot genoeg is. Het is belangrijk om na te denken over de sterkte van de relatie en dus de praktische betekenis van een einde naast de statistische significantie.