La razón de la prueba de la teoría inválida

Como hemos visto, la psicología mental incluye regularmente la estimación de por lo menos una variable para un ejemplo y la figuración de ideas ilustrativas para ese ejemplo. Cuando todo está dicho, en cualquier caso, el objetivo del científico no es hacer determinaciones sobre ese ejemplo, sino hacer inferencias sobre la población de la que se eligió el ejemplo. En este sentido, los científicos deben utilizar los conocimientos de las pruebas para hacer inferencias sobre la estima de la población. Estas comparaciones de estima en la población se llaman parámetros. La previsión, por ejemplo, de que un analista estime el número de manifestaciones gravosas mostradas por cada uno de los 50 adultos clínicamente desanimados y procese el número medio de indicaciones. Lo más probable es que el especialista necesite utilizar esta medición de ejemplo (el número medio de efectos secundarios del ejemplo) para hacer inferencias sobre el parámetro de población de comparación (el número medio de efectos secundarios para los adultos clínicamente desalentados).

Sorprendentemente, las mediciones de las pruebas no son una valoración ideal de los parámetros relacionados con la población. Esto se debe a que hay una medida segura de inconstancia irregular en cualquier medición de prueba a prueba. El número medio de efectos secundarios gravosos puede ser de 8,73 en un ejemplo de adultos clínicamente desanimados, 6,45 en un ejemplo posterior y 9,44 en un tercero, a pesar de que estos ejemplos se elijan arbitrariamente de una población similar. En consecuencia, la conexión (r de Pearson) entre dos factores puede ser de +,24 en un ejemplo, -,04 en un ejemplo posterior y +,15 en un tercero, una vez más, a pesar de que estos ejemplos se elijan al azar entre una población similar. Esta inconstancia irregular en la medición de una prueba a otra se denomina error garrafal de examen. (Obsérvese que el término error garrafal aquí alude a la fluctuación irregular y no infiere que nadie haya cometido un error. Nadie “presenta un error garrafal en la prueba”).

Una de las ramificaciones de esto es que cuando hay una relación mensurable en un ejemplo, no siempre está claro que haya una relación fáctica en la población. Una pequeña distinción entre dos grupos de implicancias en un ejemplo puede mostrar que hay un pequeño contraste entre los dos grupos de implicancias en la población. Sea como fuere, también podría ser que no hay distinción entre los métodos en la población y que la distinción en el ejemplo es simplemente una cuestión de examinar el error garrafal. Esencialmente, una estimación de la r de Pearson de -.29 en un ejemplo puede implicar que existe una relación negativa en la población. En cualquier caso, podría ser igualmente que no hay relación en la población y que la relación del ejemplo es simplemente una cuestión de examinar el error.

A decir verdad, cualquier relación mensurable en un ejemplo puede ser descifrada de dos maneras diferentes:

Hay una relación en la población, y la relación en el ejemplo refleja esto.

No hay ninguna relación en la población, y la relación en el ejemplo refleja sólo la inspección del error garrafal.

La motivación detrás de las pruebas de especulación inválidas es básicamente ayudar a los analistas a resolver estas dos elucidaciones.

El papel del tamaño de la muestra y la fuerza de la relación

Recordemos que la prueba de la hipótesis nula implica responder a la pregunta: “Si la hipótesis nula fuera cierta, ¿cuál es la probabilidad de un resultado de muestra tan extremo como éste?” En otras palabras, “¿Cuál es el valor p?” Puede ser útil ver que la respuesta a esta pregunta depende sólo de dos consideraciones: la fuerza de la relación y el tamaño de la muestra. Concretamente, cuanto más fuerte sea la relación de la muestra y cuanto más grande sea la muestra, menos probable será el resultado si la hipótesis nula es cierta. Es decir, cuanto más bajo sea el valor p. Esto debería tener sentido. Imaginen un estudio en el que una muestra de 500 mujeres se compara con una muestra de 500 hombres en términos de algunas características psicológicas, y la d de Cohen es un fuerte 0,50. Si realmente no hubiera diferencias de sexo en la población, entonces un resultado tan fuerte basado en una muestra tan grande debería parecer muy poco probable. Ahora imagina un estudio similar en el que una muestra de tres mujeres es comparada con una muestra de tres hombres, y la d de Cohen es un débil 0,10. Si no hubiera diferencias de sexo en la población, entonces una relación tan débil basada en una muestra tan pequeña debería parecer probable. Y es precisamente por esto que la hipótesis nula sería rechazada en el primer ejemplo y retenida en el segundo.

Por supuesto, a veces el resultado puede ser débil y la muestra grande, o el resultado puede ser fuerte y la muestra pequeña. En esos casos, las dos consideraciones se compensan entre sí de modo que un resultado débil puede ser estadísticamente significativo si la muestra es suficientemente grande y una relación fuerte puede ser estadísticamente significativa incluso si la muestra es pequeña. En el cuadro 13.1 se muestra a grandes rasgos cómo se combinan la relación fuerte y el tamaño de la muestra para determinar si un resultado de la muestra es estadísticamente significativo. Las columnas de la tabla representan los tres niveles de fuerza de la relación: débil, media y fuerte. Las filas representan cuatro tamaños de muestra que pueden considerarse pequeños, medianos, grandes y extragrandes en el contexto de la investigación psicológica. Así pues, cada celda de la tabla representa una combinación de la fuerza de la relación y el tamaño de la muestra. Si una celda contiene la palabra Sí, entonces esta combinación sería estadísticamente significativa tanto para la d de Cohen como para la r de Pearson. Hay una celda en la que la decisión para d y r sería diferente y otra en la que podría ser diferente dependiendo de algunas consideraciones adicionales, que se discuten en la sección 13.2 “Algunas pruebas básicas de hipótesis nulas”.