P-Werte werden häufig falsch interpretiert, was viele Probleme verursacht. Ich werde diese Probleme hier nicht noch einmal aufwärmen, da mein Kollege Jim Frost die damit verbundenen Probleme bereits ausführlich beschrieben hat, aber Tatsache bleibt, dass der p-Wert nach wie vor eines der am häufigsten verwendeten Instrumente zur Entscheidung, ob ein Ergebnis statistisch signifikant ist, sein wird.

Sie kennen doch die alte Säge über “Lügen, verdammte Lügen und Statistiken”, oder? Es klingt richtig, denn Statistik ist wirklich das Maximum an Interpretation und Präsentation, weil sie Mathematik ist. Das bedeutet, dass wir Bürger, die wir Daten analysieren, mit all unseren Schwächen und Fehlern die Möglichkeit haben, die Art und Weise, wie über Ergebnisse berichtet wird, zu verschleiern und zu verschleiern.

Während ich im Allgemeinen glauben möchte, dass die Menschen ehrlich und objektiv sein wollen – besonders kluge Menschen, die Daten erforschen und analysieren, die sich auf das Leben anderer Menschen auswirken -, gibt es hier 500 Beweisstücke, die diesem Glauben zuwiderlaufen.

Wir werden darauf in einer Minute noch einmal zurückkommen. Aber zuerst, eine schnelle Überprüfung…

Was ist ein P-Wert, und wie interpretiere ich ihn?

Die meisten Leute treffen P-Werte zum ersten Mal an, wenn wir einfache Hypothesentests durchführen, obwohl sie auch Bestandteil mehrerer anspruchsvollerer Methoden sind. Verwenden wir die Statistiksoftware Minitab, um eine schnelle Überprüfung ihrer Funktionsweise zu versuchen (wenn Sie mitmachen möchten und Minitab nicht haben, ist das komplette Paket 30 Tage lang kostenlos erhältlich). Wir vergleichen den Brennstoffverbrauch für zwei verschiedene Arten von Öfen, um festzustellen, ob es einen Unterschied zwischen ihren Mitteln gibt.

Gehen Sie zu Datei > Arbeitsblatt öffnen, und klicken Sie auf die Schaltfläche “Im Minitab-Probendatenordner suchen”. Öffnen Sie den Stichprobendatensatz mit dem Namen “Furnace.mtw”, und wählen Sie im Menü Statistik > Grundlegende Statistik > 2 Stichprobe t… aus. Geben Sie innerhalb des Panels “BTU.In” für Stichproben und “Dämpfer” für Stichproben-IDs ein.

Drücken Sie auf OK, und Minitab gibt die nachfolgende Ausgabe zurück, bei der ich den p-Wert markiert habe.

In den meisten Analysen wird ein Alpha-Wert von 0,05 verwendet, da der Grenzwert für die Signifikanz zu hoch ist. Wenn der p-Wert kleiner als 0,05 ist, weisen wir die Nullhypothese zurück, dass es keinen Unterschied zwischen den Mittelwerten gibt, und kommen zu dem Schluss, dass ein großer Unterschied besteht. Wenn der p-Wert größer als 0,05 ist, können wir nicht schlussfolgern, dass ein großer Unterschied besteht.

Das ist doch ziemlich einfach, oder? Unterhalb von 0,05, signifikant. Über 0,05, nicht signifikant.

“Um so viel verfehlt!”

Im obigen Beispiel ist das Ergebnis klar: Ein p-Wert von 0,7 ist so viel über 0,05, dass man sich einfach keine Illusionen über die Ergebnisse machen kann. Was aber, wenn Ihr p-Wert im Grunde genommen wirklich an der Grenze zu 0,05 liegt?

Was wäre zum Beispiel, wenn Sie einen p-Wert von 0,06 hätten?

Das ist nicht signifikant.

Das ist nicht signifikant. Okay, was ist mit 0,055?

Das ist nicht signifikant.

Wie wäre es mit 0,051?

Das ist immer noch nicht statistisch signifikant, und Datenanalysten sollten nicht versuchen, etwas anderes vorzutäuschen. Ein p-Wert ist keine Verhandlung: Wenn p > 0,05, sind die Ergebnisse nicht signifikant. Zeitraum.

Was soll ich also sagen, wenn ich einen p-Wert von über 0,05 erhalte?

Wie wäre es, dies zu sagen? “Die Ergebnisse waren statistisch nicht signifikant.” Wenn es das ist, was Ihnen die Informationen sagen, ist es nicht falsch, das zu sagen.

Es ist egal, wie dünn Sie es schneiden, es ist trotzdem Quatsch.

Was mich zu dem Blog-Post zurückbringt, auf den ich eingangs verwiesen habe. Do bietet es eine Lektüre, aber das Entscheidende ist, dass der Autor 500 alternative Wege katalogisiert hat, auf denen Mitarbeiter wissenschaftlicher Zeitschriften ihre Ergebnisse (oder deren Fehlen) durch Sprache verschleiert haben.

Als Sprachstudent gestehe ich, dass ich die Liste faszinierend finde … aber auch verärgernd. Sie ist nicht richtig: Diese Mitwirkenden sind gebildete Leute, die sicherlich verstehen, A) was ein p-Wert über 0,05 bedeutet, und B) dass die Manipulation von Wörtern, um dieses Ergebnis zu verschmelzen, absichtlich trügerisch ist. Oder, um es in weniger weiche Worte zu fassen, es ist eine verdammte Lüge.

Nichtsdestotrotz kommt dies häufig vor.

Hier sind nur ein paar meiner Favoriten unter den fünfhundert alternativen Möglichkeiten, über die Menschen berichtet haben, die über Ergebnisse berichteten, die inmitten der p-Werte, auf die diese kreativen Interpretationen zutrafen, nicht signifikant waren:

Ein gewisser Trend zur Signifikanz (p=0,08)

näherte sich der Grenze der Signifikanz (p=0,07)

Am Rande der statistischen Signifikanz