Os valores de P são regularmente confundidos, o que causa inúmeros problemas. Eu não vou rever essas questões aqui desde que o meu parceiro Jim Frost detalhou as questões necessárias em algum tempo, no entanto, a realidade permanece que o valor-p continuará sendo um dos aparelhos mais utilizados para escolher se um resultado é factualmente enorme.

Conhece a velha serra sobre “inverdades, falsidades condenadas e medidas”, não é verdade? Parece exato à luz do fato de que as medições realmente são tanto sobre tradução e introdução quanto sobre aritmética. Isso implica que nós, indivíduos que estamos examinando informações, com cada uma de nossas falhas e faltas, temos a chance de sombrear e sombrear a forma como os resultados são anunciados.

Embora eu, de modo geral, prefira aceitar que os indivíduos precisam ser diretos e objetivos – particularmente os indivíduos interessados em investigar e investigar informações que possam influenciar a vida de outros indivíduos – aqui estão 500 pedaços de provas que contradizem essa convicção.

Voltaremos a isso dentro de momentos. No geral, uma auditoria rápida.

O que é um P-Value, e como o interpreto?

A maioria de nós experimenta pela primeira vez valores-p quando conduzimos testes de especulação simples, apesar do fato de que eles também são indispensáveis para muitas estratégias progressivamente refinadas. Que tal usarmos o software estatístico Minitab para fazer uma auditoria rápida de como eles funcionam (na hipótese de você precisar rastrear e não ter o Minitab, o pacote completo é acessível gratuitamente por 30 dias). Vamos pensar na utilização de combustível para dois tipos diferentes de aquecedores para verificar se há um contraste entre seus métodos.

Vá até File > Open Worksheet, e clique no botão “Look in Minitab Sample Data Folder”. Abra a coleção informativa de exemplo chamada Furnace.mtw e escolha Stat > Basic Statistics > 2 Sample t… do menu. Na caixa de troca, digite “BTU. In” para Amostra, e digite “Damper” para IDs de amostra.

Pressione OK e o Minitab restaura o rendimento que o acompanha, no qual eu apresentei a p-estima.

Na maioria das investigações, um alfa de 0,05 é utilizado como o ponto de corte para a grandeza. Caso a p-estima seja inferior a 0,05, rejeitamos a teoria inválida de que não há distinção entre os métodos e a razão de existir um contraste crítico. Na hipótese de que a p-estima é maior que 0,05, não podemos presumir que exista um contraste crítico.

Isso é totalmente directo, não é verdade? Por baixo de 0,05, digno de nota. Mais de 0.05, não digno de nota.

“Perdi-o por tanto!”

No modelo acabado, o resultado é claro: uma estimativa p de 0,7 é uma quantidade tão grande de 0,05 que você não pode ter nenhum raciocínio significativo para os resultados. Seja como for, imagine um cenário em que a sua p-estima está ridiculamente próxima de 0,05.

Imagine um cenário em que você tivesse uma estimativa de 0,06.

Isso não é enorme.

Céus. Muito bem, não deveria ser dito algo sobre 0,055?

Não é enorme.

E que tal 0,051?

Ainda não é mensurávelmente crítico, e os examinadores de informação devem fazer um esforço para não imaginar algo mais. Uma p-estima não é um arranjo: se p > 0,05, os resultados não são críticos. Isso é tudo.

Sendo as coisas o que são, o que seria aconselhável para mim declarar quando eu tenho uma estimativa de p-estima maior que 0.05?

E que tal dizer isto? “Os resultados não foram factualmente críticos.” Se isso é o que a informação lhe diz, não há nada de errado em dizer tanto.

Independentemente do quão magro se corta, continua a ser um disparate.

Isto leva-me de volta à entrada do blog que referi para o início. Dê uma leitura, mas o mais importante é que o escritor classificou 500 maneiras distintas de os adeptos de diários lógicos terem utilizado a linguagem para escurecer os seus resultados (ou deficiência nesse departamento).

Como um substituto da linguagem, admito que descubro o degradado fascinante… mas adicionalmente perturbador. É errado: estes apoiantes são ensinados a indivíduos que certamente compreendem A) o que uma p-estima maior que 0,05 implica, e B) que controlar as palavras para suavizar esse resultado é intencionalmente complicado. Ou, por outro lado, colocá-lo em palavras menos delicadas, é uma falsidade amaldiçoada.

Em todo o caso, acontece a maior parte do tempo.

Aqui estão apenas algumas das minhas melhores escolhas das 500 formas distintas que os indivíduos anunciaram resultados que não foram dignos de nota, a que se juntam as qualidades a que estas elucidações inventivas se aplicaram:

um padrão específico para a centralidade (p=0,08)

movido para a franja do essencial (p=0,07)

no limite da importância mensurável (p<0,07)

quase ser mensurável significant (p=0,055)

falhou a marca relativa à importância mensurável (p=0,12)

simplesmente falhou um pouco o nível de importância (p=0,086)

importância periférica próxima (p=0,18)

apenas algo não digno de nota (p=0,0738)

temporariamente enorme (p=0,073)

E mais, a minha melhor escolha:

semi-grande (p=0,09)

Eu não sei o que se espera que “semi-crítico” signifique, mas parece semi significativo, desde que não se suspeite que seja excessivamente difícil. Seja como for, ainda não há como contornar a forma como uma estimativa p de 0,09 é tudo menos um resultado factualmente digno de nota.

O blogueiro não aborda a questão de saber se a circunstância contrária acontece. Os benfeitores alguma vez compõem que uma p-estimação de, estado, 0.049999 é:

semimportante

apenas marginalmente digno de nota

temporariamente sem importância

quase não ser digno de nota

no limite da não importância factual

Eu vou colocar tudo isso lá fora e colocar aquele retrato de uma p-estima apenas tímida de 0,05 em maneiras que diminuem a sua importância mensurável simplesmente não ocorre. Em qualquer caso, fazer luz de não centralidade factual teria todas as marcas de ser praticamente endêmico.

Essa é a razão pela qual eu localizo o posto acima referido tão amortecedor. É preocupante que você possa reunir tão eficazmente um número tão significativo de casos de conduta terrível por parte de examinadores de informação que muito provavelmente conhecem melhor.

Você nunca poderia utilizar a linguagem para tentar escurecer o resultado do seu exame, OK?