La raison de l’invalidité des tests théoriques

Comme nous l’avons vu, la psychologie mentale comprend régulièrement l’estimation d’au moins une variable pour un exemple et la formulation d’idées illustratives pour cet exemple. Quoi qu’il en soit, l’objectif du scientifique n’est pas de prendre des décisions concernant cet exemple, mais de faire des déductions sur la population parmi laquelle l’exemple a été choisi. Dans cette optique, les scientifiques doivent utiliser les résultats de tests pour tirer des conclusions sur l’estime de la population. Ces comparaisons d’estime dans la population sont appelées des paramètres. Imaginons, par exemple, qu’un analyste estime le nombre de manifestations pénibles affichées par chacun des 50 adultes cliniquement découragés et traite le nombre moyen d’indications. Le spécialiste doit très probablement utiliser cette mesure (le nombre moyen d’effets secondaires pour l’exemple) pour faire des déductions sur le paramètre de comparaison de la population (le nombre moyen d’effets secondaires pour les adultes cliniquement découragés).

Il est choquant de constater que les mesures de test ne sont pas des évaluations idéales des paramètres de population qui leur sont associés. Cela s’explique par le fait qu’il y a une certaine inconstance dans les mesures prises d’un test à l’autre. Le nombre moyen d’effets secondaires pénibles est peut-être de 8,73 dans un exemple d’adultes cliniquement découragés, de 6,45 dans un autre exemple et de 9,44 dans un troisième – bien que ces exemples soient choisis arbitrairement parmi une population similaire. En conséquence, le lien (r de Pearson) entre deux facteurs peut être de + 0,24 dans un exemple, de – 0,04 dans un exemple ultérieur et de + 0,15 dans un troisième – une fois de plus, bien que ces exemples soient choisis au hasard parmi une population similaire. Cette inconstance irrégulière dans les mesures d’un test à l’autre est appelée “erreur d’examen”. (Notez que le terme “bévue” fait ici allusion à une fluctuation irrégulière et n’implique pas que quelqu’un ait commis une erreur. Personne ne “soumet une erreur d’examen”).

L’une des ramifications de cette situation est que lorsqu’il existe une relation mesurable dans un exemple, il n’est pas toujours évident qu’il existe une relation factuelle dans la population. Une petite distinction entre deux groupes dans un exemple peut montrer qu’il y a un petit contraste entre les deux groupes dans la population. Quoi qu’il en soit, il se pourrait également qu’il n’y ait pas de distinction entre les méthodes dans la population et que la distinction dans l’exemple soit simplement une question d’examen de la bévue. Pour l’essentiel, une estimation de Pearson de -0,29 dans un exemple peut impliquer qu’il existe une relation négative dans la population. Dans tous les cas, il se peut également qu’il n’y ait pas de relation dans la population et que la relation dans l’exemple soit simplement une question d’examen de l’erreur.

À vrai dire, toute relation mesurable dans un exemple peut être déchiffrée de deux manières différentes :

Il y a une relation dans la population, et la relation dans l’exemple en est le reflet.

Il n’y a pas de relation dans la population, et la relation dans l’exemple reflète simplement une erreur d’inspection.

La motivation derrière les tests de spéculation non valables est essentiellement d’aider les analystes à régler ces deux élucidations.

Rôle de la taille de l’échantillon et de la force des relations

Rappelons que la vérification d’une hypothèse nulle consiste à répondre à la question suivante : “Si l’hypothèse nulle était vraie, quelle est la probabilité d’un résultat d’échantillon aussi extrême que celui-ci ? En d’autres termes, “Quelle est la valeur p ? Il peut être utile de voir que la réponse à cette question ne dépend que de deux considérations : la solidité de la relation et la taille de l’échantillon. Plus précisément, plus la relation est forte et plus l’échantillon est important, moins le résultat serait probable si l’hypothèse nulle était vraie. Autrement dit, plus la valeur p est faible. Cela devrait être logique. Imaginez une étude dans laquelle un échantillon de 500 femmes est comparé à un échantillon de 500 hommes en termes de certaines caractéristiques psychologiques, et le d de Cohen est un fort 0,50. S’il n’y avait vraiment aucune différence entre les sexes dans la population, un résultat aussi fort basé sur un échantillon aussi important devrait sembler très improbable. Imaginez maintenant une étude similaire dans laquelle un échantillon de trois femmes est comparé à un échantillon de trois hommes, et le d de Cohen est un faible 0,10. S’il n’y avait pas de différences entre les sexes dans la population, alors une relation aussi faible basée sur un échantillon aussi petit devrait sembler probable. Et c’est précisément pour cette raison que l’hypothèse nulle serait rejetée dans le premier exemple et retenue dans le second.

Bien sûr, il arrive que le résultat soit faible et l’échantillon important, ou que le résultat soit fort et l’échantillon petit. Dans ces cas, les deux considérations s’équilibrent de sorte qu’un résultat faible peut être statistiquement significatif si l’échantillon est suffisamment grand et qu’une relation forte peut être statistiquement significative même si l’échantillon est petit. Le tableau 13.1 montre en gros comment la force de la relation et la taille de l’échantillon se combinent pour déterminer si un résultat d’échantillon est statistiquement significatif. Les colonnes du tableau représentent les trois niveaux de force de la relation : faible, moyenne et forte. Les lignes représentent quatre tailles d’échantillon qui peuvent être considérées comme petites, moyennes, grandes et extra-larges dans le contexte de la recherche psychologique. Ainsi, chaque cellule du tableau représente une combinaison de la force de la relation et de la taille de l’échantillon. Si une cellule contient le mot Oui, alors cette combinaison sera statistiquement significative pour le d de Cohen et le r de Pearson. Si elle contient le mot Non, alors elle ne sera statistiquement significative pour aucun des deux. Il y a une cellule où la décision pour d et r serait différente et une autre où elle pourrait être différente en fonction de certaines considérations supplémentaires, qui sont examinées dans la section 13.2 “Quelques tests d’hypothèse nulle de base”.