Multicollineariteit is een toestand van zeer hoge onderlinge relaties of verbanden tussen onafhankelijke variabelen. Het is een soort storing in de gegevens, en als het aanwezig is in de gegevens, kunnen de statistische gevolgtrekkingen die gemaakt worden op de gegevens niet betrouwbaar zijn.

Er zijn enkele redenen waarom multi-lineariteit optreedt:

Het wordt veroorzaakt door onnauwkeurig gebruik van valse variabelen.

Het wordt veroorzaakt door het opnemen van een variabele die is berekend op basis van andere variabelen in de gegevens.

Multicollineariteit kan ook het gevolg zijn van de herhaling van hetzelfde type variabele.

Het treedt typisch op wanneer de variabelen sterk met elkaar gecorreleerd zijn.

Multicollineariteit kan verschillende problemen veroorzaken. De problemen zijn de volgende:

De gedeeltelijke regressiecoëfficiënt als gevolg van multicollineariteit kan onnauwkeurig zijn. De standaardfouten zijn waarschijnlijk hoog.

Multicollineariteit veroorzaakt een verandering in de tekens en de grootte van de partiële regressiecoëfficiënten van de ene steekproef naar de andere.

Multicollineariteit maakt het vervelend om het relatieve belang van onafhankelijke variabelen te evalueren bij het verklaren van de variatie veroorzaakt door de afhankelijke variabele.

Bij een hoge multicollineariteit worden de betrouwbaarheidsintervallen van de coëfficiënten vaak zeer groot en zijn de statistieken vaak zeer klein. Het is moeilijk om de nulhypothese van een studie te verwerpen wanneer multicollineariteit in de studiegegevens aanwezig is.

Er zijn enkele tekenen die de onderzoeker helpen om de mate van multicollineariteit op te sporen.

Een van deze signalen is of het individuele resultaat van een statistiek niet significant is, maar het algemene resultaat van de statistiek wel significant is. In dit geval kan de onderzoeker een mix van significante en niet-significante resultaten verkrijgen die de aanwezigheid van multicollineariteit aantonen. Stel dat de onderzoeker, nadat hij de steekproef in twee delen heeft verdeeld, vaststelt dat de coëfficiënten van de steekproef drastisch verschillen. Dit duidt op de aanwezigheid van multicollineariteit. Dat betekent dat de coëfficiënten onstabiel zijn door de aanwezigheid van multicollineariteit. Stel dat de onderzoeker een drastische verandering in het model waarneemt door simpelweg enkele variabelen toe te voegen of te laten vallen.   Dit geeft ook aan dat multicollineariteit in de gegevens aanwezig is.

Multicollineariteit kan ook worden waargenomen met behulp van tolerantie en de wederzijdse, zogenaamde variantie-inflatiefactor (VIF). Als de tolerantiewaarde lager is dan 0,2 of 0,1 en tegelijkertijd de waarde van VIF 10 en hoger, dan is multicollineariteit problematisch.