Holen Sie sich die Mathematik und die Anwendung in Analytics für beide Begriffe.

Kovarianz und Korrelation sind zwei Begriffe, die im Bereich der Statistik und Wahrscheinlichkeitstheorie maßgeblich verwendet werden. Die Mehrzahl der Artikel und Literatur über Wahrscheinlichkeitsrechnung und Statistik setzt ein grundlegendes Verständnis von Begriffen wie Mittelwert, Standardabweichung, Korrelationen, Stichprobenumfang und Kovarianz voraus. Lassen Sie uns heute einige dieser Begriffe entmystifizieren, damit wir mit dem Rest fortfahren können. Der Zweck des Artikels besteht darin, die Begriffe Korrelations- und Kovarianzmatrizen zu definieren, zwischen den beiden zu unterscheiden und die Anwendung der beiden im Bereich der Analytik und der Datensätze zu verstehen.

Entmystifizierende Begriffe

Einfach ausgedrückt, messen beide Begriffe die Beziehung und Abhängigkeit zwischen zwei Variablen. “Kovarianz” = die Richtung der linearen Beziehung zwischen den Variablen. “Korrelation” hingegen misst sowohl die Kraft als auch die Richtung der linearen Beziehung zwischen zwei Variablen. Die Korrelation ist eine Funktion der Kovarianz. Was sie unterscheidet, ist die Tatsache, dass die Korrelationswerte standardisiert sind, während die Kovarianzwerte nicht standardisiert sind. Man kann den Korrelationskoeffizienten zweier Variablen erhalten, indem man die Kovarianz dieser Variablen durch das Produkt der Standardabweichungen derselben Werte dividiert. Wenn die Definition der Standardabweichung revidiert wird, misst sie im Wesentlichen die absolute Variabilität der Verteilung eines Datensatzes. Wenn die Kovarianzwerte durch die Standardabweichung geteilt werden, wird der Wert im Wesentlichen auf einen begrenzten Bereich von -1 bis +1 herunterskaliert. Dies ist genau der Bereich der Korrelationswerte.

Mathematische Definition von Begriffen

Lassen Sie uns nun die mathematischen Definitionen dieser Begriffe sehen.

Kovarianz

Die Kovarianz von zwei Variablen (x und y) kann als cov(x,y) dargestellt werden. Wenn E[x] der erwartete Wert oder der Mittelwert einer Stichprobe ‘x’ ist, dann kann cov(x,y) wie folgt dargestellt werden:

https://miro.medium.com/max/1152/1*m6zNZhMRkK-Kqms4OPb91g.jpeg

der Ausdruck kann wie folgt geschrieben werden:

https://miro.medium.com/max/1152/1*TzQSHnkAazmLxnZkilORlQ.jpeg

in der obigen Abbildung ist ‘s²’ oder Sampled-Varianz grundsätzlich die Kovarianz einer Variablen mit sich selbst. Dieser Begriff kann auch auf folgende Weise definiert werden:

https://miro.medium.com/max/1152/1*bgQq0eahJWAbTdahIcxMLA.jpeg

In der obigen Formel wird der Zähler der Gleichung(A) die Summe der Abweichungen zum Quadrat genannt. In der Gleichung(B) mit zwei Variablen x und y wird er die Summe der Kreuzungsprodukte genannt. In der obigen Formel ist n die Anzahl der Stichproben im Datensatz. Der Wert (n-1) gibt die Freiheitsgrade an.

Um zu erklären, was Freiheitsgrade sind, nehmen wir ein Beispiel. In einem Satz von 3 Zahlen mit dem Durchschnitt als 10 und zwei der drei Variablen als 5 und 15 gibt es nur eine Möglichkeit des Wertes, den die dritte Zahl annehmen kann, nämlich 10. In einer Menge von 3 Zahlen mit dem gleichen Mittelwert, zum Beispiel: 12,8 und 10 oder sagen wir 9,10 und 11, gibt es nur einen Wert für jeweils 2 Werte, die in der Menge angegeben sind. Im Wesentlichen können Sie hier die beiden Werte ändern, und der dritte Wert fixiert sich von selbst. Der Freiheitsgrad ist hier 2. Im Wesentlichen ist der Freiheitsgrad die Anzahl der unabhängigen Datenpunkte, die zur Berechnung der Schätzung gegangen sind. Wie wir im vorherigen Beispiel sehen, ist er nicht unbedingt gleich der Anzahl der Elemente in der Stichprobe (n).

Korrelation

Der Korrelationskoeffizient ist auch als Produkt-Personen-Korrelationskoeffizient des Pearson-Korrelationskoeffizienten bekannt. Wie oben erwähnt, erhält man ihn, indem man die Kovarianz der beiden Variablen durch das Produkt ihrer Standardabweichungen dividiert. Die mathematische Darstellung desselben lässt sich wie folgt darstellen:

https://miro.medium.com/max/1152/1*nu-A97kSxnDG4z4fVPQYKA.jpeg

Die Werte des Korrelationskoeffizienten können von -1 bis +1 variieren. Je näher er bei +1 oder -1 liegt, desto stärker sind die beiden Variablen korreliert. Ein positives Vorzeichen gibt die Richtung der Korrelation an, d.h. wenn eine der beiden Variablen zunimmt, soll auch die andere Variable zunehmen.

Darstellung der Kovarianz- und Korrelationsdatenmatrix

Für eine Datenmatrix kann X wie folgt dargestellt werden:

https://miro.medium.com/max/1152/1*ue_BL0eV2rgH2gA53MOdMA.jpeg

ein Vektor ‘xj’ würde grundsätzlich einen (n × 1) Vektor implizieren, der aus der j-ten Spalte von X extrahiert wird, wobei j zur Menge (1,2,…,p) gehört. Auf die gleiche Weise repräsentiert ‘xi’ den Vektor (1 × p) aus der i-ten Zeile von X. Hier kann “i” einen Wert aus der Menge (1,2,…,n) nehmen. Man kann X auch als ein Array von Variablen interpretieren, wobei ‘xij’ die j-te Variable (Spalte) ist, die aus dem i-ten Eintrag (Zeile) entnommen wird. Der Einfachheit halber nennen wir Zeilen als Element/Subjekte und Spalten als Variablen. Lassen Sie uns nun den Durchschnitt einer Spalte in der obigen Datenmatrix sehen:

https://miro.medium.com/max/1152/1*Q-WjLMBfYRiWxC7Aj4lHSg.jpeg

https://miro.medium.com/max/1152/1*r6Caf-E_9JP-L5lvfouZhA.jpeg

Unter Verwendung des obigen Konzepts wollen wir nun den Zeilen-Mittelwert definieren. Es ist im Grunde der Durchschnitt der in der angegebenen Zeile vorhandenen Elemente.

Nun, da wir die obigen Metriken haben, wird es einfacher sein, die Kovarianzmatrix (S) zu definierenhttps://miro.medium.com/max/1152/1*qqXEtdSeHpFgfjGhEoTzag.jpeg

In der obigen Matrix sehen wir, dass die Größe der Kovarianzmatrix p × p beträgt. Dies ist im Wesentlichen eine symmetrische Matrix, d.h. eine Quadraturmatrix, die gleich ihrer Transposition (S`) ist. Die Terme, die die Kovarianzmatrix konstruieren, werden die Varianzen einer gegebenen Variablen genannt, die die Diagonale der Matrix oder die Kovarianz von 2 Variablen bilden, die den Rest des Raumes ausfüllen. Die j-te Kovarianz mit der k-ten Variable ist äquivalent zur Kovarianz der k-ten Variable mit der j-ten Variable, d.h. ‘sjk’= ‘skj’.

Die Kovarianzmatrix kann auf folgende Weise aus der Datenmatrix erstellt werden: Hier ist ‘Xc’ eine zentrierte Matrix, bei der die jeweilige Spaltenbedeutung von jedem Element subtrahiert wird. Wenn man dies als zentrale Komponente verwendet, ist die Kovarianzmatrix ‘S’ das Produkt der Transposition von ‘Xc’ und ‘Xc’ selbst, das dann durch die Anzahl der Elemente oder Zeilen (‘n’) in der Datenmatrix geteilt wird.

Bevor wir weitergehen, lassen Sie uns das Konzept der Stichprobenvarianz oder s-Quadrat (s²) überprüfen.  Aus diesem Wert können wir die Standardabweichung eines Datensatzes ableiten. Die Mathematik definiert den Wert “s” als die Standardabweichung des Datensatzes.  Er gibt im Wesentlichen den Grad der Streuung oder Diffusion der Daten um ihren Mittelwert herum an.

In gleicher Weise definieren wir unter Verwendung derselben Datenmatrix und Kovarianzmatrix die Korrelationsmatrix (R):

https://miro.medium.com/max/1091/1*NxfM7QrerSHbvog71Gc6pA.jpeg

Wie wir hier sehen, ist die Größe der Korrelationsmatrix wieder p × p. Betrachten wir nun die einzelnen Elemente der Korrelationsmatrix, so umfasst die Hauptdiagonale alle 1. Dies zeigt an, dass die Korrelation eines Elements mit sich selbst 1 oder der höchstmögliche Wert ist. Dies ist logisch und intuitiv. Die anderen Elemente ‘rjk’ sind Pearsons Korrelationskoeffizient zwischen zwei Werten: ‘xj’ und ‘xk’. Wie wir zuvor gesehen haben, bezeichnet ‘xj’ die j-te Spalte der Datenmatrix, X. Wir gehen nun dazu über, wie die Korrelationsmatrix aus der Datenmatrix erhalten werden kann:

https://miro.medium.com/max/1152/1*9wQEaguas_XVpsZ42ag0jg.jpeg

Xs’ wird in der obigen Definition als skalare Matrix oder standardisierte Matrix bezeichnet. Hier sehen wir, dass die Korrelationsmatrix als das Produkt der Transposition der skalaren Matrix mit sich selbst, geteilt durch ‘n’, definiert werden kann. Wenn wir die Definition der Standardabweichung von oben noch einmal betrachten, sehen wir, dass jedes Element (ähnlich wie in der obigen Kovarianzmatrix) der standardisierten Matrix ‘Xs’ durch die entsprechende Spaltenstandardabweichung geteilt wird. Dies bestärkt unser Verständnis, dass die Korrelationsmatrix eine standardisierte oder skalierte Ableitung der Kovarianzmatrix ist.

Kovarianz versus Korrelation

Die Formel der Kovarianz entnimmt die Einheiten aus dem Produkt der Einheiten der beiden Variablen. Auf der anderen Seite ist die Korrelation adimensional. Sie ist ein Maß ohne Einheiten der Beziehung zwischen den Variablen. Das liegt daran, dass Sie den Wert der Kovarianz durch das Produkt der Standardabweichungen teilen, die die gleichen Einheiten haben. Der Wert der Kovarianz wird durch die Änderung der Skala der Variablen beeinflusst. Wenn alle Werte der gegebenen Variable mit einer Konstanten und alle Werte einer anderen Variable mit einer ähnlichen oder anderen Konstanten multipliziert werden, dann ändert sich auch der Kovarianzwert. Dabei wird der Wert der Korrelation jedoch nicht durch die Änderung der Skala der Werte beeinflusst. Ein weiterer Unterschied zwischen Kovarianz und Korrelation ist der Wertebereich, den sie annehmen können. Die Korrelationskoeffizienten liegen zwischen -1 und +1, aber die Kovarianz kann jeden Wert zwischen -∞ und +∞ annehmen.

Anwendung in der Analytik

Da wir nun also mit der mathematischen Theorie fertig sind, wollen wir untersuchen, wie und wo sie im Bereich der Datenanalyse angewendet werden kann. Die Korrelationsanalyse ist, wie viele Analysten wissen, ein wichtiges Instrument für die Merkmalsauswahl und die multivariate Analyse bei der Datenvorverarbeitung und -exploration. Die Korrelation hilft uns bei der Untersuchung und Herstellung von Beziehungen zwischen Variablen. Sie wird bei der Auswahl von Merkmalen vor jeder Art von statistischer Modellierung oder Datenanalyse verwendet.

Die HKA oder Hauptkomponentenanalyse ist eine wichtige Anwendung derselben. Wie entscheiden wir also, was wir verwenden? Korrelationsmatrix oder Kovarianzmatrix? Einfach ausgedrückt empfehlen wir die Kovarianzmatrix zu verwenden, wenn die Variablen auf ähnlichen Skalen liegen, und die Korrelationsmatrix, wenn die Skalen der Variablen unterschiedlich sind.

Versuchen wir nun, dies anhand von Beispielen zu verstehen. Um Ihnen gegebenenfalls bei der Implementierung zu helfen, werde ich mich sowohl in R als auch in Python um die Beispiele kümmern. Sehen wir uns zunächst das erste Beispiel an, wo wir sehen, wie sich die HKA-Ergebnisse unterscheiden, wenn sie mit der Korrelationsmatrix bzw. der Kovarianzmatrix berechnet werden. Für das erste Beispiel hier betrachten wir den ‘mtcars’-Datensatz in R.

# Laden des Datensatzes in lokaler R-Umgebung

Daten(mtcars)

# Drucken Sie die ersten 10 Zeilen des Datensatzes

Kopf(mtcars, 10)

https://miro.medium.com/max/451/1*rtBTmAD1UYW1wIwA_Ww_mg.png

Aus dem obigen Bild sehen wir, dass alle Spalten numerisch sind und wir daher mit der Analyse fortfahren können. Wir werden dafür die Funktion prcomp() des ‘stats’-Pakets verwenden.