Der Grund für ungültige Theorietests

Wie wir gesehen haben, umfasst die psychologische Psychologie regelmäßig die Schätzung mindestens einer Variablen für ein Beispiel und die Abbildung illustrativer Erkenntnisse für dieses Beispiel. Letztendlich ist es in jedem Fall nicht das Ziel des Wissenschaftlers, Feststellungen zu diesem Beispiel zu treffen, sondern Rückschlüsse auf die Bevölkerung zu ziehen, aus der das Beispiel ausgewählt wurde. In diesem Sinne müssen Wissenschaftler Testerkenntnisse nutzen, um Rückschlüsse auf die entsprechende Wertschätzung in der Bevölkerung zu ziehen. Diese Vergleiche der Wertschätzung in der Bevölkerung werden als Parameter bezeichnet. Stellen Sie sich zum Beispiel vor, dass ein Analytiker die Anzahl der belastenden Manifestationen schätzt, die jeder einzelne von 50 klinisch entmutigten Erwachsenen aufweist, und die durchschnittliche Anzahl von Indikationen verarbeitet. Der Spezialist muss höchstwahrscheinlich diese Beispielmessung (die mittlere Anzahl von Nebenwirkungen für das Beispiel) verwenden, um Rückschlüsse auf den vergleichenden Populationsparameter (die mittlere Anzahl von Nebenwirkungen für klinisch entmutigte Erwachsene) zu ziehen.

Schockierenderweise sind Testmessungen keine idealen Beurteilungen der entsprechenden Bevölkerungsparameter. Dies geschieht mit der Begründung, dass es ein sicheres Maß an irregulärer Inkonstanz bei jeder Messung von Test zu Test gibt. Die durchschnittliche Anzahl belastender Nebenwirkungen beträgt in einem Beispiel klinisch entmutigter Erwachsener vielleicht 8,73, in einem weiteren Beispiel 6,45 und in einem dritten Beispiel 9,44, obwohl diese Beispiele willkürlich aus einer ähnlichen Population ausgewählt wurden. Entsprechend kann der Zusammenhang (Pearson’sches r) zwischen zwei Faktoren in einem Beispiel +,24, in einem nachfolgenden Beispiel -,04 und in einem Drittel ein weiteres Mal +,15 betragen, obwohl diese Beispiele willkürlich aus einer ähnlichen Population ausgewählt wurden. Diese unregelmäßige Unbeständigkeit bei der Messung von Test zu Test wird als Prüfungsfehler bezeichnet. (Beachten Sie, dass der Begriff “Blunder” hier auf eine irreguläre Fluktuation anspielt und nicht darauf schließen lässt, dass jemand einen Fehler begangen hat. Niemand “legt einen Prüfungsfehler vor”).

Wenn in einem Beispiel ein messbarer Zusammenhang besteht, ist es nicht in jedem Fall klar, dass in der Bevölkerung ein faktischer Zusammenhang besteht. Eine kleine Unterscheidung zwischen zwei Bündeln in einem Beispiel kann zeigen, dass in der Bevölkerung ein kleiner Kontrast zwischen den beiden Bündeln besteht. Wie dem auch sei, es könnte ebenso sein, dass es in der Bevölkerung keinen Unterschied zwischen den Methoden gibt und dass die Unterscheidung in dem Beispiel lediglich eine Frage der Untersuchung von Fehlern ist. Im Wesentlichen kann eine Pearson’s r-Schätzung von -.29 in einem Beispiel bedeuten, dass es in der Bevölkerung eine negative Beziehung gibt. Auf jeden Fall könnte es ebenso sein, dass es in der Bevölkerung keine Beziehung gibt und dass die Beziehung in dem Beispiel einfach eine Frage der Prüfung von Fehlern ist.

Um ehrlich zu sein, kann jede messbare Beziehung in einem Beispiel auf zwei verschiedene Arten entschlüsselt werden:

Es gibt eine Beziehung in der Bevölkerung, und die Beziehung im Beispiel spiegelt dies wider.

Es gibt keine Beziehung in der Bevölkerung, und die Beziehung in dem Beispiel spiegelt nur die Inspektion von Fehlern wider.

Die Motivation für ungültige Spekulationstests besteht im Grunde darin, Analysten dabei zu unterstützen, sich auf diese beiden Aufklärungen zu einigen.

Rolle von Stichprobengröße und Beziehungsstärke

Erinnern Sie sich daran, dass bei der Prüfung der Nullhypothese die Frage beantwortet werden muss: “Wenn die Nullhypothese wahr wäre, wie hoch ist die Wahrscheinlichkeit eines so extremen Stichprobenergebnisses wie dieses? Mit anderen Worten: “Was ist der p-Wert? Es kann hilfreich sein, zu sehen, dass die Antwort auf diese Frage von nur zwei Überlegungen abhängt: von der Stärke der Beziehung und von der Größe der Stichprobe. Genauer gesagt, je stärker die Stichprobenbeziehung und je größer die Stichprobe, desto unwahrscheinlicher wäre das Ergebnis, wenn die Nullhypothese zuträfe. Das heißt, je niedriger der p-Wert. Dies sollte Sinn machen. Stellen Sie sich eine Studie vor, in der eine Stichprobe von 500 Frauen mit einer Stichprobe von 500 Männern in Bezug auf einige psychologische Merkmale verglichen wird, und Cohens d ist ein starker 0,50. Wenn es wirklich keine geschlechtsspezifischen Unterschiede in der Bevölkerung gäbe, dann dürfte ein so starkes Ergebnis auf der Grundlage einer so großen Stichprobe höchst unwahrscheinlich erscheinen. Stellen Sie sich nun eine ähnliche Studie vor, in der eine Stichprobe von drei Frauen mit einer Stichprobe von drei Männern verglichen wird, und Cohens d ist ein schwacher 0,10. Wenn es keine Geschlechtsunterschiede in der Bevölkerung gäbe, dann müsste eine so schwache Beziehung auf der Grundlage einer so kleinen Stichprobe wahrscheinlich erscheinen. Und genau aus diesem Grund würde die Nullhypothese im ersten Beispiel abgelehnt und im zweiten Beispiel beibehalten.

Natürlich kann das Ergebnis manchmal schwach sein und die Probe groß, oder das Ergebnis kann stark sein und die Probe klein. In diesen Fällen werden die beiden Überlegungen gegeneinander abgewogen, so dass ein schwaches Ergebnis statistisch signifikant sein kann, wenn die Stichprobe groß genug ist, und eine starke Beziehung kann statistisch signifikant sein, selbst wenn die Stichprobe klein ist. Tabelle 13.1 zeigt grob, wie Beziehungsstärke und Stichprobengröße zusammenwirken, um zu bestimmen, ob ein Stichprobenergebnis statistisch signifikant ist. Die Spalten der Tabelle repräsentieren die drei Ebenen der Beziehungsstärke: schwach, mittel und stark. Die Zeilen repräsentieren vier Stichprobengrößen, die im Kontext der psychologischen Forschung als klein, mittel, groß und extragroß betrachtet werden können. Somit repräsentiert jede Zelle in der Tabelle eine Kombination aus Beziehungsstärke und Stichprobengröße. Wenn eine Zelle das Wort Ja enthält, dann wäre diese Kombination sowohl für Cohens d als auch für Pearsons r statistisch signifikant. Wenn sie das Wort Nein enthält, dann wäre sie für beide nicht statistisch signifikant. Es gibt eine Zelle, in der die Entscheidung für d und r unterschiedlich ausfallen würde, und eine andere, in der sie abhängig von einigen zusätzlichen Überlegungen, die in Abschnitt 13.2 “Einige grundlegende Nullhypothesentests” erörtert werden, unterschiedlich ausfallen könnte