I valori P sono spesso male interpretati, il che causa molti problemi. Non intendo rielaborare questi problemi in questa sede, dato che il mio collega Jim Frost li ha approfonditi a lungo, ma resta il fatto che il valore P sarà comunque uno degli strumenti più utilizzati di frequente per decidere se un risultato è statisticamente significativo.

Conoscete la vecchia sega su “Bugie, dannate bugie e statistiche”, vero? Suona vero perché la statistica è davvero il massimo dell’interpretazione e della presentazione, perché è matematica. Significa che noi cittadini che analizziamo i dati, con tutte le nostre debolezze e le nostre mancanze, abbiamo la possibilità di ombreggiare e mettere in ombra il modo in cui i risultati vengono riportati.

Mentre io in generale voglio credere che la gente vuole essere onesta e obiettiva – specialmente le persone intelligenti che fanno ricerca e analizzano dati che influenzeranno la vita degli altri – qui ci sono 500 pezzi di prova che volano dentro la faccia di questa convinzione.

Ne riparleremo tra un minuto. Ma prima, una rapida revisione…

Cos’è un valore P e come lo interpreto?

La maggior parte della gente incontra per la prima volta i valori P dopo aver condotto semplici test di ipotesi, anche se sono parte integrante di diversi metodi più sofisticati. Usiamo il software statistico Minitab per provare a rivedere velocemente il loro funzionamento (se volete seguirli e non avete Minitab, il pacchetto completo è disponibile gratuitamente per 30 giorni). Confrontiamo i consumi di carburante di 2 diversi tipi di forni per verificare se c’è una differenza tra i loro mezzi.

Andate su File > Apri foglio di lavoro e cliccate sul pulsante “Cerca nella cartella dei dati del campione Minitab”. Aprire il set di dati del campione denominato Furnace.mtw, e scegliere Stat > Basic Statistics > 2 Sample t… dal menu. All’interno del pannello , inserire “BTU.In” per i campioni, e inserire “Damper” per gli ID dei campioni.

Premere OK e Minitab restituisce l’uscita successiva, durante la quale ho evidenziato il valore p.

Nella maggior parte delle analisi si utilizza un alfa di 0,05 perché il taglio per il significato. Se il valore p è inferiore a 0,05, rifiutiamo l’ipotesi nulla che non ci sia differenza tra i mezzi e concludiamo che esiste una grande differenza. Se il valore p è maggiore di 0,05, non possiamo concludere che esista una grande differenza.

È abbastanza semplice, no? Sotto 0,05, significativo. Oltre 0,05, non significativo.

“Mancato di così tanto!”

Nell’esempio precedente, il risultato è chiaro: un p-valore di 0,7 è così tanto al di sopra di 0,05 che semplicemente non si può applicare alcuna illusione ai risultati. Ma cosa succede se il vostro p-valore p è fondamentalmente, in realtà, sull’orlo dello 0,05?

Ad esempio, cosa succederebbe se il vostro p-valore di 0,06?

Questo non è significativo.

Oh. Ok, che ne dici di 0,055?

Non è significativo.

Che ne dici di 0,051?

Non è ancora statisticamente significativo, e gli analisti dei dati non dovrebbero tentare di fingere il contrario. Un p-valore non è una negoziazione: se p > 0,05, i risultati non sono significativi. Punto.

Quindi, cosa dovrei dire una volta ottenuto un p-valore superiore a 0,05?

Che ne dite di dire questo? “I risultati non sono statisticamente significativi”. Se questo è quello che ti dicono le informazioni, non c’è niente di male a dirlo.

Non importa quanto sia sottile, è comunque una sciocchezza.

Il che mi riporta al post del blog a cui ho fatto riferimento all’inizio. Do fornisce una lettura, ma la linea di fondo è che l’autore ha catalogato 500 modi alternativi che i collaboratori di riviste scientifiche hanno usato il linguaggio per oscurare i loro risultati (o la loro mancanza).

Come studente di lingua, confesso che trovo la lista affascinante… ma anche sconvolgente. Non è giusto: Questi collaboratori sono persone istruite che certamente capiscono A) cosa significa un valore p superiore a 0,05, e B) che manipolare le parole per sciogliere quel risultato è deliberatamente ingannevole. Oppure, per metterlo in parole meno morbide, è una dannata menzogna.

Ciononostante, accade spesso.

Qui ci sono solo un paio dei miei preferiti tra i cinquecento modi alternativi in cui le persone hanno riportato risultati non significativi, tra i valori p a cui queste interpretazioni creative si sono applicate:

Una certa tendenza verso il significato (p=0,08)

si è avvicinato al confine di significato (p=0,07)

Al margine della significatività statistica (p