A correlação pode ser uma técnica estatística que mostrará se e de que forma os pares de variáveis estão fortemente relacionados. Por exemplo , a altura e o peso estão relacionados; as pessoas mais altas tendem a ser mais pesadas do que as mais baixas. A ligação não é perfeita. As pessoas de altura equivalente variam em peso, e você considerará facilmente duas pessoas que você reconhece onde a mais baixa é mais pesada do que a mais alta. No entanto, o peso típico dos indivíduos 5’5” é inferior ao peso típico dos indivíduos 5’6”, e o seu peso médio é inferior ao dos indivíduos 5’7”, etc. A correlação só pode dizer qual a proporção da variação do peso dos indivíduos em relação ao seu peso.

Embora esta correlação seja bastante óbvia, os seus dados podem conter correlações insuspeitas. também irá suspeitar que existem correlações, mas não sabe quais são as mais fortes. Uma análise de correlação inteligente pode causar uma maior compreensão dos seus dados.

Técnicas na determinação de correlações

Existem várias técnicas de correlação diferentes. O Módulo de Estatística opcional do Sistema de Inquérito inclui o tipo mais comum, designado por Pearson ou correlação produto-momento. O módulo também inclui uma variação deste tipo chamada correlação . Esta última é benéfica, uma vez que se pretende parecer que existe uma ligação entre duas variáveis, eliminando o efeito de uma ou duas outras variáveis.

Como todas as técnicas estatísticas, a correlação é apenas um tipo de dados certamente apropriado. A correlação funciona para dados quantificáveis durante os quais os números são significativos, geralmente quantidades de algum tipo. Não pode ser usada para dados puramente categóricos, como sexo, marcas compradas ou cor favorita.

Escalas de classificação

As escalas de classificação são um caso intermédio controverso. Os números nas escalas de classificação têm um significado, mas esse significado não é preciso. Não são como as quantidades. Com uma quantidade (como o dólar), a diferença entre 1 e um par é estritamente equivalente a entre 2 e 3 . Com uma escala de classificação, isso pode não ser realmente o caso. Vai certificar-se de que os seus inquiridos pensam que uma classificação de dois está entre uma classificação de 1 e uma classificação de três , mas não pode certificar-se de que eles pensam que está exactamente a meio caminho entre eles. Isto é frequentemente muito verdadeiro se tiver rotulado os pontos médios da sua escala (não pode assumir que “bom” está estritamente a meio caminho entre “excelente” e “justo”).

A maioria dos estaticistas diz que não se pode usar correlações com as escalas de classificação, porque a matemática da técnica assume que as diferenças entre números são exactamente iguais. No entanto, muitos investigadores dos inquéritos utilizam correlações com as escalas de classificação, porque os resultados reflectem geralmente o mundo importante. A nossa posição é que se pode simplesmente utilizar correlações com escalas de classificação, mas é preciso fazê-lo com cuidado. Quando se trabalha com quantidades, as correlações fornecem medições precisas. Quando se trabalha com escalas de classificação, as correlações fornecem indicações gerais.

Coeficiente de Correlação

Os principais resultados de uma correlação são designados por coeficiente de correlação (ou “r”). Vai de -1,0 a +1,0. Quanto mais próximo de r estiver de +1 ou -1, mais estreitamente as 2 variáveis estão relacionadas.

Se r estiver à beira de 0, significa que não há relação entre as variáveis. Se r é positivo, significa que em conjunto a variável fica maior, o oposto fica maior. Se r é negativo, significa que em conjunto se torna maior, o oposto fica mais pequeno (frequentemente chamado de correlação “inversa”).

Enquanto os coeficientes de correlação são normalmente reportados como r = (um valor entre -1 e +1), o seu quadrado torna então mais fácil saber . O quadrado do coeficiente (ou r quadrado) é adequado à percentagem da variação numa variável que está associada à variação na outra. Após o quadrado r, ignorar o ponto percentual . Um r de .5 significa 25% da variação (.5 ao quadrado =.25). Um valor r de .7 significa 49% da variação (.7 ao quadrado = .49).

Um relatório de correlação também pode mostrar um segundo resultado de cada teste – significância estatística. durante este caso, o nível de importância dirá como é provável que as correlações relatadas também possam ser graças ao acaso dentro do tipo de erro de amostragem. Se estiver a trabalhar com amostras de pequenas dimensões, escolha um formato de relatório que tenha o nível de importância. Este formato também reporta a dimensão da amostra.

Uma coisa fundamental a lembrar quando se trabalha com correlações é não assumir uma correlação significa que uma alteração numa variável causa uma alteração noutra. As vendas de computadores privados e de calçado de desporto têm aumentado fortemente ao longo dos anos e existe uma elevada correlação entre ambos, mas não se pode assumir que a compra de computadores faça com que as pessoas comprem calçado de desporto (ou vice versa).

A segunda advertência é que a técnica de correlação Pearson funciona melhor com relações lineares: em conjunto a variável fica maior, o oposto fica maior (ou menor) em proporção directa. Não funciona bem com as relações curvilíneas (em que a ligação não segue uma linha recta). Um exemplo de uma relação curvilínea é a idade e os cuidados de saúde. Elas estão relacionadas, mas a ligação não segue uma linha. Tanto as crianças pequenas como os idosos tendem a utilizar muito mais cuidados de saúde do que os adolescentes ou os jovens adultos. A correlação múltipla (também incluída no Módulo de Estatística) é frequentemente usada para examinar as relações curvilíneas, mas está fora do âmbito deste texto .