Мультиколлинеарность – это состояние очень высоких взаимосвязей или межассоциаций между независимыми переменными. Это вид возмущения в данных, и если оно присутствует в данных, то статистические выводы, сделанные по данным, могут быть ненадежными.

Есть несколько причин, по которым возникает многолинейность:

Она вызвана неточным использованием ложных переменных.

Это вызвано включением в набор данных переменной, вычисленной из других переменных.

Мультилинейность также может быть вызвана повторением одной и той же переменной.

Обычно она возникает, когда переменные сильно коррелируют друг с другом.

Мультиколлинеарность может вызвать несколько проблем. Ниже перечислены проблемы:

Коэффициент частичной регрессии из-за мультиколлинеарности может быть неточным. Стандартные ошибки, вероятно, высоки.

Мультиколлинеарность вызывает изменение знаков, а также величин коэффициентов частичной регрессии от одной выборки к другой.

Мультиколлинеарность делает утомительной оценку относительной важности независимых переменных при объяснении вариации, вызванной зависимой переменной.

При наличии высокой мультиколлинеарности доверительные интервалы коэффициентов, как правило, становятся очень широкими, а статистика, как правило, очень мала. Трудно отвергнуть нулевую гипотезу любого исследования, если в данных исследования присутствует мультиколлинеарность.

Существуют некоторые признаки, которые помогают исследователю определить степень мультиколлинеарности.

Одним из таких сигналов является то, не является ли индивидуальный результат статистики значимым, но общий результат статистики значителен. В этом случае исследователь может получить сочетание значимых и незначительных результатов, свидетельствующих о наличии мультиколлинеарности. Предположим, что исследователь, разделив выборку на две части, обнаруживает, что коэффициенты выборки резко различаются. Это свидетельствует о наличии мультиколлинеарности. Это означает, что коэффициенты нестабильны из-за наличия мультиколлинеарности. Предположим, что исследователь наблюдает резкое изменение модели, просто добавляя или опуская некоторые переменные.   Это также говорит о том, что мультиколлинеарность присутствует в данных.

Мультиколлинеарность можно также наблюдать с помощью толерантности и ее обратной, так называемого фактора дисперсионной инфляции (VIF). Если значение допуска ниже 0,2 или 0,1 и в то же время значение VIF 10 и выше, то мультиколлинеарность является проблематичной.