O Motivo do Teste Teórico Inválido

Como vimos, psicológico mental regularmente inclui estimar pelo menos uma variável para um exemplo e figurar insights ilustrativos para esse exemplo. Quando tudo está dito, de qualquer forma, o objetivo do cientista não é fazer determinações sobre esse exemplo, mas fazer inferências sobre a população de onde o exemplo foi escolhido. Nesse sentido, os cientistas devem utilizar insights de teste para fazer inferências sobre a estima que se relaciona à população. A essas comparações de estima na população chamam-se parâmetros. A idéia, por exemplo, de que um analista estima o número de manifestações onerosas exibidas por cada um dos 50 adultos clinicamente desestimulados e processa o número médio de indicações. O especialista mais provavelmente precisa utilizar esta medida de exemplo (o número médio de efeitos colaterais para o exemplo) para fazer inferências sobre o parâmetro comparativo da população (o número médio de efeitos colaterais para adultos clinicamente desencorajados).

Chocantemente, as medições de teste não são avaliações ideais de seus parâmetros populacionais relacionados. Isto porque existe uma medida certa de inconstância irregular em qualquer medida de teste para teste. O número médio de efeitos colaterais onerosos talvez 8,73 em um exemplo de adultos clinicamente desencorajados, 6,45 em um exemplo subseqüente, e 9,44 em um terceiro, apesar de estes exemplos serem escolhidos arbitrariamente de uma população similar. Correspondentemente, a conexão (r de Pearson) entre dois fatores pode ser +,24 em um exemplo, -,04 em um exemplo subseqüente, e +,15 em um terceiro mais, apesar destes exemplos serem escolhidos aleatoriamente de uma população similar. Esta inconstância irregular na medição de teste para teste é chamada de erro de exame. (Note que o termo erro aqui alude a flutuação irregular e não deduz que alguém cometeu um erro. Ninguém “submete um erro de teste”).

Uma ramificação disso é quando há uma relação mensurável em um exemplo, não está claro em todos os casos que há uma relação factual na população. Uma pequena distinção entre dois grupos implica em um exemplo pode mostrar que há um pequeno contraste entre os dois grupos implica na população. Seja como for, também pode ser que não haja distinção entre os métodos na população e que a distinção no exemplo seja simplesmente uma questão de examinar o erro. Essencialmente, uma estimativa de -.29 de Pearson em um exemplo pode implicar que há uma relação negativa na população. Em qualquer caso, pode também ser que não haja relação na população e que a relação no exemplo seja simplesmente uma questão de examinar o erro.

Verdade seja dita, qualquer relação mensurável em um exemplo pode ser decifrada de duas maneiras diferentes:

Existe uma relação na população, e a relação no exemplo espelha isso.

Não há relacionamento na população, e o relacionamento no exemplo reflete apenas um erro de inspeção.

A motivação por trás dos testes de especulação inválidos é basicamente ajudar os analistas a se acomodarem a essas duas elucidações.

Papel do Tamanho da Amostra e Força de Relacionamento

Lembre-se de que o teste de hipótese nula envolve responder à pergunta: “Se a hipótese nula fosse verdadeira, qual a probabilidade de um resultado amostral tão extremo como este? Em outras palavras, “Qual é o p-valor?” Pode ser útil ver que a resposta a esta pergunta depende de apenas duas considerações: a força da relação e o tamanho da amostra. Especificamente, quanto mais forte a relação da amostra e quanto maior a amostra, menos provável seria o resultado se a hipótese nula fosse verdadeira. Ou seja, quanto menor o p-valor. Isto deve fazer sentido. Imagine um estudo no qual uma amostra de 500 mulheres é comparada com uma amostra de 500 homens em termos de algumas características psicológicas, e o d de Cohen é um forte 0,50. Se realmente não houvesse diferenças de sexo na população, então um resultado tão forte baseado em uma amostra tão grande deveria parecer altamente improvável. Agora imagine um estudo semelhante, no qual uma amostra de três mulheres é comparada com uma amostra de três homens, e o d de Cohen é um fraco 0,10. Se não houvesse diferenças de sexo na população, então uma relação tão fraca baseada em uma amostra tão pequena deveria parecer provável. E é justamente por isso que a hipótese nula seria rejeitada no primeiro exemplo e retida no segundo.

Naturalmente, às vezes o resultado pode ser fraco e a amostra grande, ou o resultado pode ser forte e a amostra pequena. Nesses casos, as duas considerações se contrapõem de forma que um resultado fraco pode ser estatisticamente significativo se a amostra for suficientemente grande e uma relação forte pode ser estatisticamente significativa mesmo se a amostra for pequena. A Tabela 13.1 mostra aproximadamente como a força da relação e o tamanho da amostra se combinam para determinar se um resultado da amostra é estatisticamente significativo. As colunas da tabela representam os três níveis de força de relação: fraca, média e forte. As linhas representam quatro tamanhos de amostra que podem ser considerados pequenos, médios, grandes e extra-grandes no contexto de pesquisas psicológicas. Assim, cada célula da tabela representa uma combinação de força de relação e tamanho da amostra. Se uma célula contém a palavra Sim, então esta combinação seria estatisticamente significativa tanto para o d de Cohen quanto para o r de Pearson. Há uma célula onde a decisão para d e r seria diferente e outra onde poderia ser diferente dependendo de algumas considerações adicionais, que são discutidas na Seção 13.2 “Alguns Testes Básicos de Hipóteses Nulas”.