Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Les valeurs P sont souvent mal interprétées, ce qui pose de nombreux problèmes. Je ne reviendrai pas sur ces problèmes ici, car mon collègue Jim Frost les a longuement détaillés, mais le fait est que la valeur p restera l’un des principaux outils fréquemment utilisés pour décider si un résultat est statistiquement significatif.

Vous connaissez la vieille rengaine “Mensonges, mensonges maudits et statistiques”, n’est-ce pas ? Cela sonne vrai parce que les statistiques sont vraiment le maximum en matière d’interprétation et de présentation parce qu’il s’agit de mathématiques. Cela signifie que nous, les citoyens qui analysent les données, avec toutes nos faiblesses et nos défauts, avons la possibilité de faire de l’ombre à

la façon dont les résultats sont présentés.

Bien que je souhaite généralement croire que les gens veulent être honnêtes et objectifs – en particulier les personnes intelligentes qui font des recherches et analysent des données qui affecteront la vie d’autres personnes – il y a 500 preuves qui vont à l’encontre de cette croyance.

Nous y reviendrons dans une minute. Mais d’abord, un examen rapide…

Qu’est-ce qu’une valeur P, et comment l’interpréter ?

La plupart des gens rencontrent les valeurs P pour la première fois lorsque nous effectuons des tests d’hypothèses simples, bien qu’elles fassent également partie intégrante de plusieurs méthodes plus sophistiquées. Utilisons le logiciel de statistiques Minitab pour essayer d’examiner rapidement leur fonctionnement (si vous souhaitez suivre le mouvement et n’avez pas Minitab, le logiciel complet est disponible gratuitement pendant 30 jours). Nous allons comparer la consommation de combustible de deux types de fours différents afin de déterminer s’il y a une différence entre leurs moyens.

Allez dans Fichier > Ouvrir la feuille de travail, et cliquez sur le bouton “Rechercher dans le dossier des données types de Minitab”. Ouvrez le dossier de données échantillons nommé Furnace.mtw, et choisissez Stat > Basic Statistics > 2 Sample t… dans le menu. Dans le panneau, entrez “BTU.In” pour les échantillons et “Damper” pour les ID d’échantillon.

Appuyez sur OK et Minitab renvoie la sortie suivante, au cours de laquelle j’ai mis en évidence la valeur p.

Dans la majorité des analyses, un alpha de 0,05 est utilisé car il s’agit du seuil de signification. Si la valeur p est inférieure à 0,05, nous rejetons l’hypothèse nulle selon laquelle il n’y a pas de différence entre les moyennes et concluons qu’il existe une grande différence. Si la valeur p est supérieure à 0,05, nous ne pouvons pas conclure à l’existence d’une grande différence.

C’est assez simple, n’est-ce pas ? En dessous de 0,05, c’est significatif. Au-dessus de 0,05, non significatif.

“Raté d’autant !”

Dans l’exemple ci-dessus, le résultat est clair : une p-value de 0,7 est tellement supérieure à 0,05 qu’on ne peut tout simplement pas se faire d’illusion sur les résultats. Mais que se passe-t-il si votre p-value est en fait, vraiment à la limite de 0,05 ?

Par exemple, que se passerait-il si votre p-value était de 0,06 ?

Ce n’est pas significatif.

Oh. Ok, et si c’était 0,055 ?

Ce n’est pas significatif.

Et 0,051 ?

Ce n’est toujours pas statistiquement significatif, et les analystes de données ne devraient pas essayer de prétendre le contraire. Une valeur p n’est pas une négociation : si p > 0,05, les résultats ne sont pas significatifs. Point final.

Alors, que dois-je dire une fois que j’ai une p-value supérieure à 0,05 ?

Et si je disais ceci ? “Les résultats ne sont pas statistiquement significatifs.” Si c’est ce que l’information vous dit, il n’y a pas de mal à le dire.

Peu importe comment vous le découpez, c’est toujours de la foutaise.

Ce qui me ramène à l’article de blog auquel j’ai fait référence au début . Do en donne une lecture, mais le résultat final est que l’auteur a catalogué 500 façons alternatives dont les contributeurs aux revues scientifiques ont utilisé le langage pour obscurcir leurs résultats (ou leur absence).

En tant qu’étudiant en langues, j’avoue que je trouve cette liste fascinante… mais aussi dérangeante. Ce n’est pas juste : Ces contributeurs sont des personnes instruites qui comprennent certainement A) ce que signifie une valeur p supérieure à 0,05, et B) que manipuler les mots pour faire fondre ce résultat est délibérément trompeur. Ou, pour le placer dans des mots moins doux, c’est un fichu mensonge.

Néanmoins, cela arrive fréquemment.

Voici quelques-unes de mes préférées parmi les cinq cents façons alternatives dont les gens ont rapporté des résultats qui n’étaient pas significatifs, parmi les valeurs p auxquelles ces interprétations créatives s’appliquaient :

Une certaine tendance à la signification (p=0,08)

s’est approché de la limite de la signification (p=0,07)

A la marge de la signification statistique (p