Toepassingen van een correlatiematrix

Er zijn drie algemene redenen om een correlatiematrix te berekenen:

Om een grote hoeveelheid gegevens samen te vatten waarbij het doel is om patronen te zien. In ons voorbeeld hierboven is het waarneembare patroon dat alle variabelen sterk met elkaar correleren.

Om in te voeren in andere analyses. Bijvoorbeeld, mensen gebruiken gewoonlijk correlatiematrices als input voor verkennende factoranalyse, bevestigende factoranalyse, structurele vergelijkingsmodellen en lineaire regressie bij het uitsluiten van ontbrekende waarden paarsgewijs.

Als diagnose bij het controleren van andere analyses. Bijvoorbeeld, bij lineaire regressie suggereert een hoge hoeveelheid correlaties dat de schattingen van de lineaire regressie onbetrouwbaar zullen zijn.

Correlatiestatistieken

De meeste correlatiematrices gebruiken Pearson’s Product-Moment Correlatie (r). Het is ook gebruikelijk om Spearman’s Correlation en Kendall’s Tau-b te gebruiken.  Beide zijn niet-parametrische correlaties en minder gevoelig voor uitschieters dan r.

Codering van de variabelen

Als u ook gegevens van een enquête hebt, moet u beslissen hoe u de gegevens codeert voordat u de correlaties berekent. Als respondenten bijvoorbeeld de keuze kregen tussen Sterk oneens, Enigszins oneens, Noch akkoord, noch akkoord, Enigszins akkoord, en Sterk akkoord, zou u codes van respectievelijk 1, 2, 3, 4 en 5 kunnen toewijzen (of, mathematisch equivalent vanuit het perspectief van correlaties, scores van -2, -1, 0, 1, en 2). Andere coderingen zijn echter mogelijk, zoals -4, -1, 0, 1, 4. Veranderingen in coderingen hebben meestal weinig effect, behalve wanneer ze extreem zijn.

Behandeling van ontbrekende waarden

De gegevens die we gebruiken om correlaties te berekenen bevatten vaak ontbrekende waarden. Dit kan zijn omdat we deze gegevens niet hebben verzameld of omdat we de antwoorden niet kennen. Er bestaan verschillende strategieën voor het omgaan met ontbrekende waarden bij het berekenen van correlatiematrixen. Een best practice is meestal het gebruik van meerdere imputaties. Mensen gebruiken echter vaker paarsgewijs ontbrekende waarden (ook wel gedeeltelijke correlaties genoemd). Dit houdt in dat er bij het berekenen van correlaties gebruik wordt gemaakt van alle niet-misleidende gegevens voor de twee variabelen. Een andere mogelijkheid is het gebruik van een lijstgewijze verwijdering, ook wel bekend als casusgewijze verwijdering, waarbij alleen gebruik wordt gemaakt van waarnemingen zonder ontbrekende gegevens. Zowel voor het paarsgewijze als voor het case-gewijze verwijderen wordt ervan uitgegaan dat gegevens volledig willekeurig ontbreken. Daarom hebben meerdere toerekeningen over het algemeen de voorkeur.

Presentatie

Bij de presentatie van een correlatiematrix moet u rekening houden met verschillende opties, waaronder:

Of u nu de hele matrix laat zien, zoals hierboven, of alleen de niet-ontspannende bits, zoals hieronder (de 1,00-waarden in de hoofddiagonaal zouden ook moeten worden verwijderd).

Hoe de getallen te formatteren (het is bijvoorbeeld het beste om de 0’s voor de decimalen te verwijderen en de getallen uit te lijnen, zoals hierboven, maar dit kan moeilijk zijn in de meeste software).

Of u de statistische significantie moet laten zien (bijv. door de cellen rood te coderen).

Of de waarden volgens de correlatiestatistieken te coderen (zoals hieronder weergegeven).

Het herschikken van de rijen en kolommen om patronen duidelijker te maken.