La corrélation peut être une technique statistique qui montrera si et comment des paires de variables sont fortement liées. Par exemple, la taille et le poids sont liés ; les personnes plus grandes ont tendance à être plus lourdes que les personnes plus petites. La connexion n’est pas parfaite. Le poids des personnes de taille équivalente varie, et vous considérerez facilement que deux personnes que vous reconnaissez sont plus lourdes que la personne la plus petite. Néanmoins, le poids typique des personnes de 5’5” est inférieur à celui des personnes de 5’6”, et leur poids moyen est inférieur à celui des personnes de 5’7”, etc. La corrélation ne peut vous dire que la proportion de la variation du poids des personnes par rapport à leur taille.

Bien que cette corrélation soit assez évidente, vos données peuvent contenir des corrélations insoupçonnées. Vous soupçonnerez également qu’il existe des corrélations, mais vous ne savez pas lesquelles sont les plus fortes. Une analyse intelligente des corrélations peut permettre une meilleure compréhension de vos données.

Techniques de détermination de la corrélation

Il existe plusieurs techniques de corrélation différentes. Le module statistique optionnel du système d’enquête comprend le type le plus courant, appelé corrélation de Pearson ou produit-moment. Le module comprend également une variante de ce type appelée corrélation . Cette dernière est bénéfique dès lors que l’on veut faire apparaître la connexion entre deux variables tout en supprimant l’effet de 1 ou 2 autres variables.

Comme toutes les techniques statistiques, la corrélation n’est qu’une sorte de données sûrement appropriées. La corrélation fonctionne pour des données quantifiables au cours desquelles les nombres sont significatifs, généralement des quantités d’une certaine sorte. Elle ne peut pas être utilisée pour des données purement catégorielles, comme le sexe, les marques achetées ou la couleur préférée.

Échelles d’évaluation

Les échelles de notation sont un cas intermédiaire controversé. Les chiffres des échelles de notation ont une signification, mais cette signification n’est pas précise. Ils ne sont pas comme des quantités. Avec une quantité (comme les dollars), la différence entre 1 et quelques uns équivaut strictement à une différence entre 2 et 3 . Avec une échelle de notation, ce n’est peut-être pas vraiment le cas. Vous vous assurerez que vos répondants pensent qu’une note de deux se situe entre une note de 1 et une note de trois, mais vous ne pouvez pas vous assurer qu’ils pensent qu’elle se situe exactement à mi-chemin. Cela est souvent très vrai si vous avez indiqué les points médians de votre échelle (vous ne pouvez pas supposer que “bon” se situe strictement à mi-chemin entre “excellent” et “moyen”).

La plupart des statisticiens disent que vous ne pouvez pas utiliser de corrélations avec les échelles de notation, car les mathématiques de la technique supposent que les différences entre les chiffres sont exactement égales. Néanmoins, de nombreux enquêteurs utilisent des corrélations avec des échelles de notation, car les résultats reflètent généralement le monde important. Notre position est que vous pouvez simplement utiliser des corrélations avec des échelles de notation, mais vous devez le faire avec précaution. Lorsqu’on travaille avec des quantités, les corrélations fournissent des mesures précises. Lorsqu’on travaille avec des échelles de notation, les corrélations fournissent des indications générales.

Coefficient de corrélation

Les principaux résultats d’une corrélation sont appelés le coefficient de corrélation (ou “r”). Il varie de -1,0 à +1,0. Plus r est proche de +1 ou -1, plus les 2 variables sont liées.

Si r est proche de 0, cela signifie qu’il n’y a pas de relation entre les variables. Si r est positif, cela signifie qu’ensemble, les variables deviennent plus grandes, alors que l’inverse est vrai. Si r est négatif, cela signifie qu’ensemble, les variables augmentent et que l’inverse diminue (souvent appelée corrélation “inverse”).

Alors que les coefficients de corrélation sont normalement indiqués par r = (une valeur comprise entre -1 et +1), leur mise au carré permet de les connaître plus facilement. Le carré du coefficient (ou r carré) correspond au pourcentage de la variation d’une variable qui est associé à la variation de l’autre. Après avoir élevé r au carré, ignorez le point de pourcentage . Un r de 0,5 signifie que 25 % de la variation est dit ( 0,5 au carré = 0,25). Une valeur r de 0,7 signifie que 49% de la variance est dite ( 0,7 au carré = 0,49).

Un rapport de corrélation peut également montrer un deuxième résultat de chaque test – la signification statistique. Dans ce cas, le niveau d’importance vous indiquera dans quelle mesure il est probable que les corrélations rapportées soient également dues au hasard dans le cadre du type d’erreur d’échantillonnage. Si vous travaillez avec des échantillons de petite taille, choisissez un format de rapport qui présente le niveau d’importance. Ce format indique également la taille de l’échantillon.

Un élément clé à retenir lorsque vous travaillez avec des corrélations est de ne pas supposer qu’une corrélation signifie qu’un changement dans une variable entraîne un changement dans une autre. Les ventes d’ordinateurs privés et de chaussures de sport ont toutes deux fortement augmenté au fil des ans et il existe une forte corrélation entre elles, mais vous ne pouvez pas supposer que l’achat d’ordinateurs incite les gens à acheter des chaussures de sport (ou vice versa).

La deuxième mise en garde est que la technique de corrélation de Pearson fonctionne mieux avec des relations linéaires : la variable ensemble devient plus grande, l’inverse devient plus grand (ou plus petit) en proportion directe. Elle ne fonctionne pas bien avec les relations curvilignes (dans lesquelles la connexion ne suit pas une ligne droite). Un exemple de relation curviligne est l’âge et les soins de santé. Ils sont liés, mais la connexion ne suit pas une ligne . Les jeunes enfants et les personnes âgées ont tendance à utiliser beaucoup plus de soins de santé que les adolescents ou les jeunes adultes. Les corrélations multiples (également incluses dans le module statistique) sont souvent utilisées pour examiner les relations curvilignes, mais cela dépasse le cadre de ce texte .