P-waarden worden regelmatig verward, wat tal van problemen veroorzaakt. Ik ga hier niet op in omdat mijn partner Jim Frost de benodigde zaken uitvoerig heeft geïnventariseerd, maar de realiteit blijft dat de p-waarde een van de meest gebruikte apparaten zal blijven om te kiezen als een uitkomst feitelijk enorm is.

Ken je die oude zaag over “onwaarheden, veroordeelde onwaarheden, en maten,” is dat niet zo? Het klinkt accuraat in het licht van het feit dat metingen echt evenzeer over vertalen en introduceren gaan als over rekenen. Dat betekent dat wij individuen die informatie onderzoeken, met elk van onze tekortkomingen en mislukkingen, de kans hebben om de manier waarop de resultaten bekend worden gemaakt te overschaduwen en te overschaduwen.

Terwijl ik over het algemeen liever accepteer dat individuen eenvoudig en objectief moeten zijn – met name individuen die informatie onderzoeken die het leven van andere individuen kan beïnvloeden – zijn er 500 stukjes bewijs die deze overtuiging tegenspreken.

Daar komen we zo op terug. Over het geheel genomen, een snelle audit.

Wat is een P-Value, en hoe moet ik het interpreteren?

De meerderheid van ons ervaart voor het eerst p-waarden wanneer we eenvoudige speculatietests uitvoeren, ondanks het feit dat ze ook onmisbaar zijn voor veel geleidelijk aan verfijnde strategieën. Wat dacht u ervan om de Statistische Software van Minitab te gebruiken voor een snelle audit van de manier waarop ze werken (als de kans groot is dat u Minitab moet volgen en niet hebt, is de volledige bundel 30 dagen lang gratis toegankelijk). We gaan nadenken over het brandstofgebruik voor twee verschillende soorten kachels om te controleren of er een contrast is tussen hun methodes.

Ga naar Bestand > Open Worksheet en klik op de knop “Look in Minitab Sample Data Folder”. Open de voorbeeldverzameling met de naam Furnace.mtw en kies Stat > Basisstatistieken > 2 Voorbeeld t… in het menu. Voer in het uitwisselingsvak “BTU. In” voor monsters, en voer “Demper” voor monster-ID’s in.

Druk op OK en Minitab herstelt de bijbehorende opbrengst, waarin ik de p-waardering heb opgenomen.

In de meeste onderzoeken wordt een alfa van 0,05 gebruikt als de cut-off voor hugenesses. In het geval dat de p-achting onder 0,05 ligt, verwerpen we de ongeldige theorie dat er geen onderscheid is tussen de methoden en de reden dat er een kritisch contrast bestaat. In het geval dat de p-achting groter is dan 0,05, kunnen we er niet van uitgaan dat er een kritisch contrast bestaat.

Dat is geheel direct, nietwaar? Onder 0,05, opmerkelijk. Meer dan 0,05, niet noemenswaardig.

“Zoveel gemist!”

In het model over is de uitkomst duidelijk: een p-schatting van 0,7 is zo’n grote hoeveelheid hoger dan 0,05 dat je geen significante invloed kunt hebben op de uitkomsten. Hoe dan ook, stel je een scenario voor waarin je p-waardering belachelijk dicht bij 0,05 ligt.

Stel je een scenario voor waarin je een p-schatting had van 0,06.

Dat is niet groot.

Edelachtbare. Oké, moet er niet iets gezegd worden over 0,055?

Niet groot.

Hoe zit het met 0,051?

Het is vooralsnog niet meetbaar kritisch, en de examinatoren van de informatie zouden zich moeten inspannen om zich niets anders voor te stellen. Een p-esteem is geen regeling: als p > 0,05, zijn de uitkomsten niet kritisch. Dat is alles.

Dingen zijn wat ze zijn, wat zou het voor mij raadzaam zijn om te zeggen als ik een p-waardering krijg die hoger is dan 0,05?

Hoe zit het met dit te zeggen? “De uitkomsten waren niet feitelijk kritiek.” Als dat het ding is dat de informatie je laat weten, is er niets mis met het zeggen van zoveel.

Ongeacht hoe dun je het snijdt, het is nog steeds Baloney.

Dit brengt me terug naar het blogbericht waarnaar ik verwees in de richting van het begin. Geef het een lezing, maar het belangrijkste is dat de schrijver 500 verschillende manieren waarop aanhangers van logische dagboeken hebben gebruikt taal om hun resultaten (of een tekort in die afdeling) te verduisteren geclassificeerd.

Als understudy van de taal, geef ik toe dat ik de vervallen fascinerende … maar ook verontrustende ontdekkingen doe. Het is verkeerd: Deze supporters leren individuen die zeker begrijpen A) wat een p-achting hoger dan 0,05 impliceert, en B) dat het beheersen van woorden om dat resultaat te verzachten opzettelijk lastig is. Of aan de andere kant, om het te plaatsen in woorden die minder delicaat zijn, is het een vervloekte leugen.

In ieder geval gebeurt het vaak.

Hier zijn slechts een paar van mijn topkeuzes van de 500 verschillende manieren waarop individuen resultaten hebben aangekondigd die niet noemenswaardig waren, samen met de p-gelijkheden waarop deze inventieve ophelderingen van toepassing waren:

een specifiek patroon naar centraliteit (p=0,08)

naar de rand van de essentie bewogen (p=0,07)

aan de rand van meetbaar belang (p<0,07)

bijna meetbaar significant zijn (p=0,055)

het cijfer voor meetbaar belang gemist (p=0,12)

gewoonweg een beetje te weinig belangrijk (p=0,086).

nauwe perifere betekenis (p=0,18)

net niet noemenswaardig (p=0,0738)

tijdelijk enorm (p=0,073)

wat meer is, mijn top keuze:

semi-groot (p=0,09)

Ik weet niet eens wat “semi-kritisch” moet betekenen, maar toch klinkt het semi-belangrijk, zolang je er niet te hard van doordrongen bent. Hoe dan ook, er is nog steeds geen sprake van dat een p-schatting van 0,09 allesbehalve een feitelijk opmerkelijke uitkomst is.

De blogger gaat niet in op de vraag of het tegendeel het geval is. Weldoen weldoeners ooit componeren dat een p-schatting van, staat, 0,049999 is:

semi onbelangrijk

slechts marginaal opmerkelijk

tijdelijk onbelangrijk

gewoon bijna niet noemenswaardig…

op het randje van feitelijke onbeduidendheid

Ik zal het er allemaal op loslaten en plaats dat het afbeelden van een p-esteem gewoonweg schuw van 0,05 op manieren die het meetbare belang ervan verminderen, gewoon niet voorkomt. In ieder geval zou het maken van licht van feitelijke non-centraliteit alle kenmerken hebben van het praktisch endemisch zijn.

Dat is de reden dat ik de hierboven genoemde post zo dempend vind. Het is verontrustend dat je zo effectief zo’n groot aantal gevallen van vreselijk gedrag kunt verzamelen door informatieonderzoekers die waarschijnlijk beter weten.

Je zou nooit de taal kunnen gebruiken om te proberen het resultaat van je onderzoek te verduisteren, oké?