Il motivo dei test di teoria non valida

Come abbiamo visto, la psicologia mentale include regolarmente la stima di almeno una variabile per un esempio e l’elaborazione di intuizioni illustrative per quell’esempio. Tutto sommato, in ogni caso, l’obiettivo dello scienziato non è quello di fare delle determinazioni su quell’esempio, ma di fare delle illazioni sulla popolazione da cui l’esempio è stato scelto. In questo senso, gli scienziati devono utilizzare intuizioni di prova per fare illazioni sulla relativa stima della popolazione. Queste stime comparative della popolazione sono chiamate parametri. Immaginate, per esempio, che un analista valuti il numero di manifestazioni onerose mostrate da ognuno dei 50 adulti clinicamente scoraggiati ed elabori il numero medio di indicazioni. Lo specialista deve molto probabilmente utilizzare questa misurazione di esempio (il numero medio di effetti collaterali per l’esempio) per fare inferenze sul parametro di confronto della popolazione (il numero medio di effetti collaterali per gli adulti clinicamente scoraggiati).

Sorprendentemente, le misure di prova non sono la valutazione ideale dei parametri relativi alla popolazione. Ciò è dovuto al fatto che c’è una misura sicura di irregolare incostanza in ogni misurazione da una prova all’altra. Il numero medio di effetti collaterali gravosi, forse 8,73 in un esempio di adulti clinicamente scoraggiati, 6,45 in un esempio successivo e 9,44 in un terzo, nonostante il fatto che questi esempi siano scelti arbitrariamente da una popolazione simile. Corrispondentemente, la connessione (r di Pearson) tra due fattori può essere di +,24 in un esempio, -,04 in un esempio successivo, e +,15 in un terzo-una volta in più, nonostante il fatto che questi esempi siano scelti a caso da una popolazione simile. Questa irregolare incostanza nella misurazione da un test all’altro è chiamata errore di esame. (Si noti che il termine “errore” qui allude alla fluttuazione irregolare e non deduce che qualcuno abbia commesso un errore. Nessuno “presenta un errore di prova”).

Una conseguenza di ciò è che quando c’è una relazione misurabile in un esempio, non è in ogni caso chiaro che ci sia una relazione fattuale nella popolazione. Una piccola distinzione tra due gruppi implica in un esempio può mostrare che c’è un piccolo contrasto tra i due gruppi implicati nella popolazione. Sia come sia, potrebbe anche essere che non ci sia alcuna distinzione tra i metodi nella popolazione e che la distinzione nell’esempio sia semplicemente una questione di esame dell’errore. In sostanza, una stima di Pearson di -.29 in un esempio può implicare che ci sia una relazione negativa nella popolazione. In ogni caso, potrebbe anche essere che non ci sia una relazione nella popolazione e che la relazione nell’esempio sia semplicemente una questione di esame dell’errore.

A dire il vero, qualsiasi relazione misurabile in un esempio può essere decifrata in due modi diversi:

C’è una relazione nella popolazione, e la relazione nell’esempio lo rispecchia.

Non c’è alcun rapporto nella popolazione, e il rapporto nell’esempio riflette solo l’esame dell’errore.

La motivazione alla base dei test di speculazione non validi è fondamentalmente quella di assistere gli analisti nell’assestamento di queste due delucidazioni.

Ruolo del campione Dimensione e forza di relazione

Ricordiamo che il test dell’ipotesi nulla comporta la risposta alla domanda: “Se l’ipotesi nulla fosse vera, qual è la probabilità di un risultato campione così estremo come questo? In altre parole, “Qual è il p-valore? Può essere utile vedere che la risposta a questa domanda dipende solo da due considerazioni: la forza della relazione e la dimensione del campione. In particolare, più forte è la relazione del campione e più grande è il campione, meno probabile sarà il risultato se l’ipotesi nulla è vera. Cioè, più basso è il valore p. Questo dovrebbe avere un senso. Immaginate uno studio in cui un campione di 500 donne viene confrontato con un campione di 500 uomini in termini di alcune caratteristiche psicologiche, e il d di Cohen è un forte 0,50. Se davvero non ci fossero differenze di sesso nella popolazione, un risultato così forte basato su un campione così ampio dovrebbe sembrare altamente improbabile. Ora immaginate uno studio simile in cui un campione di tre donne viene confrontato con un campione di tre uomini, e la d di Cohen è un debole 0,10. Se non ci fossero differenze di sesso nella popolazione, allora un rapporto così debole basato su un campione così piccolo dovrebbe sembrare probabile. Ed è proprio per questo motivo che l’ipotesi nulla verrebbe respinta nel primo esempio e mantenuta nel secondo.

Naturalmente, a volte il risultato può essere debole e il campione grande, oppure il risultato può essere forte e il campione piccolo. In questi casi, le due considerazioni si compensano a vicenda in modo che un risultato debole può essere statisticamente significativo se il campione è abbastanza grande e un rapporto forte può essere statisticamente significativo anche se il campione è piccolo. La tabella 13.1 mostra approssimativamente come la forza della relazione e la dimensione del campione si combinano per determinare se un risultato del campione è statisticamente significativo. Le colonne della tabella rappresentano i tre livelli di forza di relazione: debole, media e forte. Le righe rappresentano quattro dimensioni del campione che possono essere considerate piccole, medie, grandi ed extra-large nel contesto della ricerca psicologica. Così ogni cella della tabella rappresenta una combinazione di forza di relazione e dimensione del campione. Se una cella contiene la parola Sì, allora questa combinazione sarebbe statisticamente significativa sia per la r di Cohen che per la r di Pearson. C’è una cella in cui la decisione per d e r sarebbe diversa e un’altra in cui potrebbe essere diversa a seconda di alcune considerazioni aggiuntive, che sono discusse nella Sezione 13.2 “Alcuni test di base di ipotesi nulle”.