Получить математику и применение в Аналитике для обоих терминов…

Ковариативность и корреляция – два термина, существенно используемых в области статистики и теории вероятностей. Большинство статей и литературы по вероятности и статистике предполагают базовое понимание таких терминов, как средства, стандартное отклонение, корреляции, размер выборки и ковариативность. Давайте сегодня проиллюстрируем пару этих терминов, чтобы мы могли продолжить с остальными. Цель статьи – определить термины: матрицы корреляций и ковариаций, различить их и понять их применение в области аналитики и наборов данных.

Демистифицирующие термины

Проще говоря, оба термина измеряют связь и зависимость между двумя переменными. “Ковариативность” = направление линейной зависимости между переменными. Связь”, с другой стороны, измеряет как силу, так и направление линейной зависимости между двумя переменными. Корреляция является функцией ковариаций. Их отличает то, что значения корреляции стандартизированы, а значения ковариаций – нет. Ковариацию двух переменных можно получить, разделив ковариацию этих переменных на произведение стандартных отклонений одних и тех же значений. Если определение стандартного отклонения пересмотрено, то оно по существу измеряет абсолютную вариабельность распределения набора данных. При делении значений ковариаций на среднеквадратическое отклонение оно существенно масштабирует значение до ограниченного диапазона от -1 до +1. Это как раз и является диапазоном значений корреляции.

Математическое определение терминов

Теперь давайте посмотрим математические определения этих терминов.

Covariance

Ковариацию двух переменных (x и y) можно представить в виде cov(x,y). Если E[x] является ожидаемым значением или средним значением выборки ‘x’, то ковариантность cov(x,y) может быть представлена следующим образом:

https://miro.medium.com/max/1152/1*m6zNZhMRkK-Kqms4OPb91g.jpeg

выражение может быть написано следующим образом:

https://miro.medium.com/max/1152/1*TzQSHnkAazmLxnZkilORlQ.jpeg

на изображении выше, ‘s²’ или выборочная дисперсия в основном является ковариацией переменной с собой. Этот термин также может быть определен следующим образом:

https://miro.medium.com/max/1152/1*bgQq0eahJWAbTdahIcxMLA.jpeg

В приведенной выше формуле числитель уравнения(А) называется суммой квадратов отклонений. В уравнении(B) с двумя переменными x и y он называется суммой перекрещенных продуктов. В приведенной выше формуле n – это количество отсчетов в наборе данных. Значение (n-1) указывает на степень свободы.

Чтобы объяснить, каковы степени свободы, рассмотрим пример. В наборе из 3 чисел со средним значением 10 и двух из трех переменных 5 и 15 существует только одна возможность величины, которую может принять третье число, а именно 10. В наборе из 3 чисел с одинаковым средним, например: 12,8 и 10 или, скажем, 9,10 и 11, есть только одно значение на каждые 2 значения, данные в наборе. По сути, здесь можно изменить два значения, а третье фиксирует себя. Степень свободы здесь равна 2. По сути, степень свободы – это количество независимых точек данных, которые пошли на вычисление оценки. Как видно из предыдущего примера, она не обязательно равна количеству элементов в выборке (n).

Корреляция .

Коэффициент корреляции также известен как коэффициент корреляции продукта и личности Пирсона. Как упоминалось выше, он получается путем деления ковариаций двух переменных на произведение их стандартных отклонений. Математическое представление одного и того же можно продемонстрировать следующим образом:

https://miro.medium.com/max/1152/1*nu-A97kSxnDG4z4fVPQYKA.jpeg

Значения коэффициента корреляции могут варьироваться от -1 до +1. Чем ближе он к +1 или -1, тем более коррелированы эти две переменные. Положительный знак указывает направление корреляции, т.е. если одна из двух переменных увеличивается, то и другая также должна увеличиваться.

Представление матрицы ковариаций и корреляционных данных

Для матрицы данных Х может быть представлен следующим образом:

https://miro.medium.com/max/1152/1*ue_BL0eV2rgH2gA53MOdMA.jpeg

вектор ‘xj’ в основном подразумевает (n × 1) вектор, извлеченный из столбца j-го из X, где j принадлежит множеству (1,2,…,p). Точно так же ‘xi` представляет собой вектор (1 × p) из i-й строки X. Здесь ‘i’ может взять значение из множества (1,2,…,n). Можно также интерпретировать X как массив переменных, где ‘xij’ – это j-я переменная (столбец), собранная из i-й записи (строки). Для удобства мы называем строки элементами/субъектами, а столбцы – переменными. Теперь посмотрим среднее значение столбца в матрице данных выше:

https://miro.medium.com/max/1152/1*Q-WjLMBfYRiWxC7Aj4lHSg.jpeg

https://miro.medium.com/max/1152/1*r6Caf-E_9JP-L5lvfouZhA.jpeg

Используя вышеприведенную концепцию, давайте теперь определимся со значением ряда. В основном это среднее арифметическое элементов, присутствующих в указанной строке.

Теперь, когда у нас есть вышеприведенные метрики, будет проще определить ковариационную матрицу (S)

https://miro.medium.com/max/1152/1*qqXEtdSeHpFgfjGhEoTzag.jpeg

В приведенной выше матрице мы видим, что размер ковариационной матрицы равен p × p. По сути, это симметричная матрица, т.е. квадратурная матрица, которая равна ее транспозиции (S`). Термины, которые строят ковариационную матрицу, называются вариациями заданной переменной, образующей диагональ матрицы, или ковариаациями 2 переменных, заполняющих остальное пространство. Переменная j-го ковариата с переменной k-го эквивалентна ковариатанцу переменной k-го с переменной j-го, т.е. ‘sjk’= ‘skj’.

Ковариационная матрица может быть создана из матрицы данных следующим образом: Здесь ‘Xc’ – это матрица с центром, в которой из каждого элемента вычитается значение соответствующего столбца. Используя его в качестве центральной составляющей, ковариационная матрица ‘S’ является произведением транспозиции самого ‘Xc’ и ‘Xc’, которая затем делится на количество элементов или строк (‘n’) в матрице данных.

Прежде чем продолжить, рассмотрим понятие дисперсии выборки или s-квадрат (s²).  Из этого значения мы можем вывести стандартное отклонение набора данных. Математика определяет значение “s” как среднеквадратическое отклонение набора данных.  Оно в основном указывает на степень дисперсии или диффузии данных вокруг среднего значения.

Аналогично, используя ту же матрицу данных и ковариационную матрицу, мы определяем матрицу корреляции (R):

https://miro.medium.com/max/1091/1*NxfM7QrerSHbvog71Gc6pA.jpeg

Как видим, размер матрицы корреляции снова p × p. Теперь, если посмотреть на отдельные элементы матрицы корреляции, то основная диагональ включает в себя все 1. Это говорит о том, что корреляция элемента с самим собой равна 1, или наибольшему возможному значению. Это логично и интуитивно понятно. Остальные элементы “rjk” – это коэффициент корреляции Пирсона между двумя значениями: ‘xj’ и ‘xk’. Как мы видели ранее, ‘xj’ обозначает j-й столбец матрицы данных, X. Переходим к тому, как матрица корреляции может быть получена из матрицы данных:

https://miro.medium.com/max/1152/1*9wQEaguas_XVpsZ42ag0jg.jpeg

Xs” в приведенном выше определении называется скалярной матрицей или стандартизированной матрицей. Здесь мы видим, что корреляционную матрицу можно определить как произведение транспозиции скалярной матрицы с собой, разделенной на ‘n’. Возвращаясь к определению стандартного отклонения сверху, видим, что каждый элемент (подобно ковариационной матрице выше) стандартизированной матрицы ‘Xs’ делится на соответствующий столбец стандартного отклонения. Это усиливает наше понимание того, что матрица корреляции является стандартизированной или масштабируемой производной ковариационной матрицы.

Ковариационная и корреляционная матрицы

Формула ковариаций берет единицы из произведения единиц двух переменных. С другой стороны, корреляция является объемной. Это мера без единиц отношения между переменными. Это объясняется тем, что значение ковариаций делится на произведение стандартных отклонений, имеющих одинаковые единицы. На величину ковариаций влияет изменение масштаба переменных. Если все значения данной переменной умножить на константу, а все значения другой переменной умножить на аналогичную или иную константу, то изменяется и значение ковариаций. Однако, делая то же самое, на величину корреляции не влияет изменение масштаба значений. Другое различие между ковариацией и корреляцией заключается в диапазоне значений, которые они могут предполагать. Коэффициенты корреляции находятся между -1 и +1, но ковариация может предполагать любое значение между -∞ и +∞.

Применение в Аналитике

Итак, теперь, когда мы закончили с математической теорией, давайте рассмотрим, как и где она может быть применена в области анализа данных. Корреляционный анализ, как многие аналитики знают, является жизненно важным инструментом для отбора характеристик и многомерного анализа при предварительной обработке и разведке данных. Корреляционный анализ помогает нам исследовать и установить связи между переменными. Она используется при выборе характеристик перед любым видом статистического моделирования или анализа данных.

Анализ PCA или анализ основных компонентов является важным приложением того же самого. Так как же нам решать, что использовать? Матрица корреляции или ковариационная матрица? Проще говоря, мы рекомендуем использовать ковариационную матрицу, когда переменные имеют схожие масштабы, и матрицу корреляции, когда масштабы переменных различаются.

Теперь попробуем разобраться в этом на примерах. Чтобы помочь вам с реализацией, при необходимости, я позабочусь о примерах как на R, так и на Python. Сначала посмотрим первый пример, в котором мы видим, как различаются результаты СПС при вычислении с матрицей корреляции и ковариационной матрицей соответственно. Для первого примера рассмотрим набор данных ‘mtcars’ в R.

# Загрузка набора данных в локальной среде R.

данные(mtcars)

# Распечатайте первые 10 строк набора данных.

голова(mtcars, 10)

https://miro.medium.com/max/451/1*rtBTmAD1UYW1wIwA_Ww_mg.png

Из приведенного выше изображения мы видим, что все столбцы числовые и поэтому можем приступить к анализу. Для этого мы будем использовать функцию prcomp() из пакета ‘stats’.