Применение матрицы корреляции

Есть три основные причины для вычисления матрицы корреляции:

Подводить итог большому количеству данных, где цель состоит в том, чтобы увидеть закономерности. В нашем примере выше наблюдаемая закономерность заключается в том, что все переменные сильно коррелируют друг с другом.

Для ввода в другие анализы. Например, люди обычно используют матрицы корреляции в качестве входных данных для разведочного факторного анализа, факторного анализа подтверждений, моделей структурных уравнений и линейной регрессии при исключении пропущенных значений по парам.

В качестве диагностики при проверке других анализов. Например, при использовании линейной регрессии большое количество корреляций позволяет предположить, что оценки линейной регрессии будут ненадежными.

Корреляционная статистика

В большинстве матриц корреляции используется корреляция “продукт- момент” Пирсона (r). Также часто используются корреляция Спирмена и Тау-Б Кендалла.  Обе эти матрицы являются непараметрическими корреляциями и менее восприимчивы к отклонениям, чем r.

Кодирование переменных

Если у вас также есть данные опроса, вам необходимо решить, как кодировать данные, прежде чем вычислять корреляции. Например, если респондентам были предложены варианты с сильно выраженным несогласием, с некоторым несогласием, ни с чем не согласен, с некоторым согласием и с сильно выраженным согласием, можно было бы присвоить коды 1, 2, 3, 4 и 5 соответственно (или, математически эквивалентные с точки зрения корреляции, значения -2, -1, 0, 1 и 2). Однако возможны и другие кодировки, такие как -4, -1, 0, 1, 4. Изменения в кодировках, как правило, малоэффективны, за исключением крайних случаев.

Лечение отсутствующих значений

Данные, которые мы используем для вычисления корреляций, часто содержат недостающие значения. Это может быть либо потому, что мы не собирали эти данные, либо потому, что не знаем ответов. Существуют различные стратегии для работы с пропущенными значениями при вычислении матриц корреляции. Обычно лучшей практикой является использование множественных вменений. Однако, люди чаще используют парные пропущенные значения (иногда известные как частичные корреляции). Это включает в себя вычисление корреляции с использованием всех пропущенных данных для двух переменных. В качестве альтернативы некоторые используют удаление по списку, также известное как удаление по регистру, которое использует только наблюдения без пропущенных данных. Как парное, так и регистровое удаление предполагает, что данные полностью отсутствуют случайным образом. Вот почему предпочтительным вариантом, как правило, является многократное вменение.

Презентация

При представлении матрицы корреляции необходимо учитывать различные варианты, в том числе:

Показать ли всю матрицу целиком, как выше, или только невозвратные биты, как ниже (возможно, значения 1.00 по главной диагонали также должны быть удалены).

Как форматировать числа (например, лучшая практика – удалять 0s до десятичных разрядов и выравнивать числа после запятой, как описано выше, но это может быть трудно сделать в большинстве программ).

Следует ли показывать статистическую значимость (например, красным цветом ячеек).

Следует ли отображать значения по цветовой кодировке в соответствии с корреляционной статистикой (как показано ниже).

Перестраивание строк и столбцов для более четкого отображения закономерностей.