Korrelation kann eine statistische Technik sein, die zeigt, ob und wie stark Variablenpaare miteinander verbunden sind. Zum Beispiel hängen Größe und Gewicht zusammen; größere Personen sind in der Regel schwerer als kleinere Personen. Die Verbindung ist nicht perfekt. Menschen mit gleicher Größe variieren im Gewicht, und Sie werden leicht zwei Personen in Betracht ziehen, die Sie erkennen, wobei die kleinere schwerer ist als die größere. Nichtsdestotrotz ist das typische Gewicht von Personen mit einer Körpergröße von 5’5” geringer als das typische Gewicht von Personen mit einer Körpergröße von 5’6”, und ihr Durchschnittsgewicht ist geringer als das von Personen mit einer Körpergröße von 5’7”, usw. Die Korrelation kann Ihnen nur sagen, welcher Anteil der Gewichtsschwankungen bei den Menschen auf ihre Körpergröße zurückzuführen ist.

Obwohl diese Korrelation ziemlich offensichtlich ist, können Ihre Daten unerwartete Korrelationen enthalten. Sie werden auch vermuten, dass es Korrelationen gibt, aber Sie wissen nicht, welche die stärksten sind. Eine intelligente Korrelationsanalyse kann zu einem besseren Verständnis Ihrer Daten führen.

Techniken zur Bestimmung von Korrelationen

Es gibt mehrere verschiedene Korrelationstechniken. Das optionale Statistikmodul des Erhebungssystems umfasst den ersten gebräuchlichen Typ, die so genannte Pearson- oder Produkt-Moment-Korrelation. Das Modul enthält auch eine Variante dieser Art, die Korrelation genannt wird. Letztere ist vorteilhaft, wenn Sie die Verbindung zwischen zwei Variablen herstellen und gleichzeitig den Effekt von 1 oder 2 anderen Variablen entfernen möchten.

Wie alle statistischen Techniken ist die Korrelation lediglich eine geeignete Art von Daten. Die Korrelation funktioniert für quantifizierbare Daten, bei denen Zahlen aussagekräftig sind, normalerweise Mengen irgendeiner Art. Sie kann nicht für rein kategoriale Daten verwendet werden, wie Geschlecht, gekaufte Marken oder Lieblingsfarbe.

Bewertungsskalen

Bewertungsskalen sind ein umstrittener mittlerer Fall. Die Zahlen in Ratingskalen haben eine Bedeutung, aber diese Bedeutung ist nicht präzise. Sie sind nicht wie Mengen. Bei einer Menge (z.B. Dollar) ist die Differenz zwischen 1 und ein paar von 1 ein striktes Äquivalent zu 2 und 3 . Bei einer Bewertungsskala ist das vielleicht nicht wirklich der Fall. Sie werden sicherstellen, dass Ihre Befragten denken, dass eine Bewertung von zwei zwischen einer Bewertung von 1 und einer Bewertung von drei liegt, aber Sie können nicht sicherstellen, dass sie denken, dass sie genau in der Mitte zwischen zwei und drei liegt. Dies ist oft sehr zutreffend, wenn Sie die Mittelpunkte Ihrer Skala benennen (Sie können nicht davon ausgehen, dass “gut” strikt auf halbem Wege zwischen “ausgezeichnet” und “fair” liegt).

Die meisten Statistiker sagen, dass Sie keine Korrelationen mit Bewertungsskalen verwenden können, weil die Mathematik der Technik davon ausgeht, dass die Unterschiede zwischen den Zahlen genau gleich sind. Dennoch verwenden viele Umfrageforscher Korrelationen mit Ratingskalen, weil die Ergebnisse in der Regel die wichtige Welt widerspiegeln. Unsere eigene Position ist, dass man Korrelationen mit Ratingskalen einfach verwenden kann, aber man sollte dies mit Vorsicht tun. Wenn man mit Mengen arbeitet, liefern Korrelationen präzise Messungen. Wenn Sie mit Ratingskalen arbeiten, liefern Korrelationen allgemeine Hinweise.

Korrelationskoeffizient

Die wichtigsten Ergebnisse einer Korrelation werden als Korrelationskoeffizient (oder “r”) bezeichnet. Er reicht von -1,0 bis +1,0. Je näher r an +1 oder -1 liegt, desto enger sind die beiden Variablen miteinander verbunden.

Wenn r an der Grenze zu 0 liegt, bedeutet dies, dass es keine Beziehung zwischen den Variablen gibt. Wenn r positiv ist, bedeutet dies, dass die gemeinsame Variable größer wird und die entgegengesetzte größer wird. Wenn r negativ ist, bedeutet dies, dass die Variable zusammen größer wird, die entgegengesetzte Variable kleiner (oft als “inverse” Korrelation bezeichnet).

Während Korrelationskoeffizienten normalerweise als r = (ein Wert zwischen -1 und +1) angegeben werden, erleichtert die Quadrierung der Korrelationskoeffizienten ihre Kenntnis. Das Quadrat des Koeffizienten (oder r-Quadrat) ist adäquat für den Prozentsatz der Variation in einer Variable, der mit der Variation innerhalb der anderen verbunden ist. Nach der Quadrierung von r ignorieren Sie den Prozentpunkt . Ein r von .5 bedeutet, dass 25% der Variation gesagt wird (.5 zum Quadrat =.25). Ein r-Wert von .7 bedeutet, dass 49% der Varianz gesagt wird (.7 zum Quadrat = .49).

Ein Korrelationsbericht kann auch ein zweites Ergebnis jedes Tests zeigen – die statistische Signifikanz. In diesem Fall gibt das Wichtigkeitsniveau Aufschluss darüber, wie wahrscheinlich es ist, dass die berichteten Korrelationen auch dem Zufall innerhalb der Art des Stichprobenfehlers zu verdanken sein könnten. Wenn Sie mit kleinen Stichprobengrößen arbeiten, wählen Sie ein Berichtsformat, das die Wichtigkeitsstufe aufweist. Dieses Format gibt auch den Stichprobenumfang an.

Wenn Sie mit Korrelationen arbeiten, sollten Sie sich vor allem daran erinnern, dass eine Korrelation nicht bedeutet, dass eine Änderung in einer Variablen eine Änderung in einer anderen verursacht. Der Verkauf von privaten Computern und Sportschuhen ist im Laufe der Jahre stark angestiegen, und es besteht eine hohe Korrelation zwischen beiden, aber Sie können nicht davon ausgehen, dass der Kauf von Computern dazu führt, dass Menschen Sportschuhe kaufen (oder umgekehrt).

Der zweite Vorbehalt ist, dass die Pearson-Korrelationstechnik am besten bei linearen Beziehungen funktioniert: die gemeinsame Variable wird größer, das Gegenteil wird größer (oder kleiner) in direkter Proportion. Sie funktioniert nicht gut mit krummlinigen Beziehungen (bei denen die Verbindung nicht einer geraden Linie folgt). Ein Beispiel für eine krummlinige Beziehung ist das Alter und die Gesundheitsversorgung. Sie sind zwar verwandt, aber die Verbindung folgt keiner Linie. Sowohl Kleinkinder als auch ältere Menschen neigen dazu, weit mehr Gesundheitsversorgung in Anspruch zu nehmen als Teenager oder junge Erwachsene. Mehrfachkorrelationen (die auch im Statistikmodul enthalten sind) sind oft üblich, um krummlinige Beziehungen zu untersuchen, aber das sprengt den Rahmen dieses Textes.