Obtenez les maths et l’application en analytique pour les deux termes..

La covariance et la corrélation sont deux termes utilisés de manière significative dans le domaine de la statistique et de la théorie des probabilités. La majorité des articles et de la littérature sur les probabilités et les statistiques présupposent une compréhension de base de termes tels que moyenne, écart type, corrélations, taille de l’échantillon et covariance. L’objectif de cet article est de définir les termes : matrices de corrélation et de covariance, de faire la différence entre les deux et de comprendre l’application des deux dans le domaine de l’analyse et des ensembles de données.

Démystifier les termes

En termes simples, les deux termes mesurent la relation et la dépendance entre deux variables. “Covariance” = la direction de la relation linéaire entre les variables. La “corrélation”, en revanche, mesure à la fois la force et le sens de la relation linéaire entre deux variables. La corrélation est une fonction de la covariance. Ce qui les distingue est le fait que les valeurs de corrélation sont normalisées, alors que les valeurs de covariance ne le sont pas. On peut obtenir le coefficient de corrélation de deux variables en divisant la covariance de ces variables par le produit des écarts-types des mêmes valeurs. Si la définition de l’écart-type est révisée, elle mesure essentiellement la variabilité absolue de la distribution d’un ensemble de données. En divisant les valeurs de la covariance par l’écart type, elle réduit essentiellement la valeur à une plage limitée de -1 à +1. C’est précisément la plage des valeurs de corrélation.

Définition mathématique des termes

Voyons maintenant les définitions mathématiques de ces termes.

Covariance

La covariance de deux variables (x et y) peut être représentée par cov(x,y). Si E[x] est la valeur attendue ou la moyenne d’un échantillon “x”, alors cov(x,y) peut être représenté comme suit :

https://miro.medium.com/max/1152/1*m6zNZhMRkK-Kqms4OPb91g.jpeg

l’expression peut être écrite de la manière suivante :

https://miro.medium.com/max/1152/1*TzQSHnkAazmLxnZkilORlQ.jpeg

dans l’image ci-dessus, “s²” ou variance échantillonnée est essentiellement la covariance d’une variable avec elle-même. Ce terme peut également être défini de la manière suivante :

https://miro.medium.com/max/1152/1*bgQq0eahJWAbTdahIcxMLA.jpeg

Dans la formule ci-dessus, le numérateur de l’équation (A) est appelé la somme des écarts au carré. Dans l’équation(B) à deux variables x et y, il est appelé la somme des produits croisés. Dans la formule ci-dessus, n est le nombre d’échantillons dans l’ensemble de données. La valeur (n-1) indique les degrés de liberté.

Afin d’expliquer ce que sont les degrés de liberté, prenons un exemple. Dans un ensemble de 3 nombres dont la moyenne est de 10 et deux des trois variables de 5 et 15, il n’y a qu’une seule possibilité de la valeur que le troisième nombre peut prendre, à savoir 10. Dans un ensemble de 3 nombres avec la même moyenne, par exemple : 12,8 et 10 ou disons 9,10 et 11, il n’y a qu’une valeur pour 2 valeurs données dans l’ensemble. En fait, vous pouvez modifier les deux valeurs ici et la troisième valeur se fixe d’elle-même. Le degré de liberté est ici de 2. Le degré de liberté est essentiellement le nombre de points de données indépendants qui ont été utilisés pour calculer l’estimation. Comme nous le voyons dans l’exemple précédent, il n’est pas nécessairement égal au nombre d’éléments de l’échantillon (n).

Corrélation

Le coefficient de corrélation est également connu sous le nom de coefficient de corrélation produit-personne du coefficient de corrélation de Pearson. Comme mentionné ci-dessus, il est obtenu en divisant la covariance des deux variables par le produit de leurs écarts types. La représentation mathématique de ce dernier peut être illustrée comme suit :

https://miro.medium.com/max/1152/1*nu-A97kSxnDG4z4fVPQYKA.jpeg

Les valeurs du coefficient de corrélation peuvent varier de -1 à +1. Plus il est proche de +1 ou de -1, plus les deux variables sont corrélées. Un signe positif indique le sens de la corrélation, c’est-à-dire que si l’une des deux variables augmente, l’autre est censée augmenter également.

Représentation de la matrice de données de covariance et de corrélation

Pour une matrice de données, X peut être représenté comme suit :

https://miro.medium.com/max/1152/1*ue_BL0eV2rgH2gA53MOdMA.jpeg

un vecteur ‘xj’ impliquerait essentiellement un vecteur (n × 1) extrait de la j-ième colonne de X où j appartient à l’ensemble (1,2,…,p). De la même manière, ‘xi’ représente le vecteur (1 × p) de la i-ème ligne de X. Ici, “i” peut prendre une valeur de l’ensemble (1,2,…,n). Vous pouvez également interpréter X comme un tableau de variables où “xij” est la jième variable (colonne) collectée à partir de la iième entrée (ligne). Pour faciliter la consultation, nous appelons les lignes comme des éléments/sujets et les colonnes comme des variables. Voyons maintenant la moyenne d’une colonne dans la matrice de données ci-dessus :

https://miro.medium.com/max/1152/1*Q-WjLMBfYRiWxC7Aj4lHSg.jpeg

https://miro.medium.com/max/1152/1*r6Caf-E_9JP-L5lvfouZhA.jpeg

En utilisant le concept ci-dessus, définissons maintenant la moyenne des lignes. Il s’agit essentiellement de la moyenne des éléments présents dans la rangée spécifiée.

Maintenant que nous disposons des mesures ci-dessus, il sera plus facile de définir la matrice de covariance (S)

https://miro.medium.com/max/1152/1*qqXEtdSeHpFgfjGhEoTzag.jpeg

Dans la matrice ci-dessus, nous voyons que la taille de la matrice de covariance est p × p. Il s’agit essentiellement d’une matrice symétrique, c’est-à-dire une matrice en quadrature égale à sa transposition (S`). Les termes qui construisent la matrice de covariance sont appelés les variances d’une variable donnée, formant la diagonale de la matrice ou la covariance de 2 variables qui remplissent le reste de l’espace. La covariance de la variable j avec la variable k-th est équivalente à la covariance de la variable k-th avec la variable j-th, c’est-à-dire ‘sjk’ = ‘skj’.

La matrice de covariance peut être créée à partir de la matrice de données de la manière suivante : Ici, “Xc” est une matrice centrée dont la signification de la colonne respective est soustraite de chaque élément. En utilisant cette matrice comme élément central, la matrice de covariance “S” est le produit de la transposition de “Xc” et de “Xc” lui-même, qui est ensuite divisé par le nombre d’éléments ou de lignes (“n”) dans la matrice de données.

Avant d’aller plus loin, passons en revue le concept de variance d’échantillon ou s-carré (s²).  De cette valeur, nous pouvons déduire l’écart-type d’un ensemble de données. Les mathématiques définissent la valeur “s” comme l’écart type de l’ensemble de données.  Elle indique essentiellement le degré de dispersion ou de diffusion des données autour de sa moyenne.

De même, en utilisant la même matrice de données et la même matrice de covariance, nous définissons la matrice de corrélation (R) :

https://miro.medium.com/max/1091/1*NxfM7QrerSHbvog71Gc6pA.jpeg

Comme nous le voyons ici, la taille de la matrice de corrélation est à nouveau de p × p. Maintenant, si nous examinons les éléments individuels de la matrice de corrélation, la diagonale principale comprend tous les 1. Cela indique que la corrélation d’un élément avec lui-même est 1, ou la valeur la plus élevée possible. C’est logique et intuitif. Les autres éléments “rjk” sont le coefficient de corrélation de Pearson entre deux valeurs : xj’ et xk’. Comme nous l’avons vu précédemment, “xj” désigne la jème colonne de la matrice de données, X. Passons maintenant à la manière dont la matrice de corrélation peut être obtenue à partir de la matrice de données :

https://miro.medium.com/max/1152/1*9wQEaguas_XVpsZ42ag0jg.jpeg

Dans la définition ci-dessus, le “X” est appelé matrice scalaire ou matrice standardisée. Nous voyons ici que la matrice de corrélation peut être définie comme le produit de la transposition de la matrice scalaire avec elle-même, divisé par “n”. En reprenant la définition de l’écart type ci-dessus, nous voyons que chaque élément (similaire à la matrice de covariance ci-dessus) de la matrice standardisée “Xs” est divisé par l’écart type de la colonne correspondante. Cela nous permet de mieux comprendre que la matrice de corrélation est une dérivée standardisée ou à l’échelle de la matrice de covariance.

Covariance et corrélation

La formule de covariance prend les unités à partir du produit des unités des deux variables. D’autre part, la corrélation est adimensionnelle. C’est une mesure sans unité de la relation entre les variables. En effet, vous divisez la valeur de la covariance par le produit des écarts-types qui ont les mêmes unités. La valeur de la covariance est influencée par le changement d’échelle des variables. Si toutes les valeurs de la variable donnée sont multipliées par une constante et que toutes les valeurs d’une autre variable sont multipliées par une constante similaire ou différente, alors la valeur de la covariance change également. Cependant, en faisant de même, la valeur de la corrélation n’est pas affectée par le changement d’échelle des valeurs. Une autre différence entre la covariance et la corrélation est l’échelle des valeurs qu’elles peuvent prendre. Les coefficients de corrélation sont compris entre -1 et +1, mais la covariance peut prendre n’importe quelle valeur comprise entre -∞ et +∞.

Application dans le domaine de l’analyse

Maintenant que nous en avons fini avec la théorie mathématique, voyons comment et où elle peut être appliquée dans le domaine de l’analyse des données. L’analyse de corrélation, comme le savent de nombreux analystes, est un outil essentiel pour la sélection des caractéristiques et l’analyse multivariée dans le prétraitement et l’exploration des données. La corrélation nous aide à étudier et à établir des relations entre les variables. Elle est utilisée dans la sélection des caractéristiques avant tout type de modélisation statistique ou d’analyse des données.

L’ACP ou analyse en composantes principales en est une application importante. Alors, comment décider de ce que nous allons utiliser ? Matrice de corrélation ou matrice de covariance ? En termes simples, nous recommandons d’utiliser la matrice de covariance lorsque les variables sont à des échelles similaires et la matrice de corrélation lorsque les échelles des variables sont différentes.

Essayons maintenant de comprendre cela à l’aide d’exemples. Pour vous aider dans la mise en œuvre, si nécessaire, je m’occuperai des exemples en R et en Python. Voyons d’abord le premier exemple où nous voyons comment les résultats de l’ACP diffèrent lorsqu’ils sont calculés avec la matrice de corrélation et la matrice de covariance respectivement. Pour le premier exemple, nous allons considérer l’ensemble de données “mtcars” dans R.

# Chargement de l’ensemble de données dans l’environnement local R

données(mtcars)

# Imprimer les 10 premières lignes de l’ensemble de données

tête(mtcars, 10)

https://miro.medium.com/max/451/1*rtBTmAD1UYW1wIwA_Ww_mg.png

Sur l’image ci-dessus, nous voyons que toutes les colonnes sont numériques et que, par conséquent, nous pouvons procéder à l’analyse. Nous utiliserons pour cela la fonction prcomp() du paquet “stats”.