Met steeds geavanceerdere machine learning en deep learning algoritmen kun je bijna elk probleem oplossen met de juiste datasets. Maar naarmate de complexiteit van het model toeneemt, worden ze moeilijker te interpreteren. Als je het hebt over de interpreteerbaarheid van de machine learning modellen, is het eerste wat in je opkomt Lineaire Regressie. Lineaire regressie is een model dat vrij eenvoudig en gemakkelijk te interpreteren is. Het is niet alleen eenvoudig, maar kent ook diverse interpretatieproblemen, vooral in termen van lineaire regressie assumptie-overtredingen. Je kunt aannames van Lineaire Regressie ook Multicollineariteit noemen.

Wat is Multicollineariteit?

Wanneer in een regressiemodel twee of meer dan twee onafhankelijke variabelen met elkaar correleren, kan men spreken van multicollineariteit. Het geeft aan dat je in dit type model de ene onafhankelijke variabele kunt voorspellen met de andere onafhankelijke variabele. De variabelen kunnen zijn: gewicht en lengte, waterverbruik en huishoudinkomen, prijs van de auto en aantal kilometers, vrije tijd en studietijd, en andere.

U kunt elke variabele uit uw dagelijks leven nemen. Bijvoorbeeld, u houdt ervan om chips te eten terwijl u televisie kijkt – de mate van tevredenheid neemt toe als u meer televisie kijkt en meer chips eet. Als je nu nadenkt over de dingen die je bezig houden en je gelukkig maken, welke activiteit vind je dan interessant en heeft een grotere invloed op je geluksniveau? Zal je je gelukkiger voelen als je chips eet of als je televisie kijkt?

Dat is moeilijk te meten, want als je meer televisie kijkt, zul je meer chips eten, en als je meer chips eet, moet je meer televisie kijken. Beide activiteiten correleren met elkaar. Het is een uitdaging om de invloed van de ene activiteit op de andere te bepalen voor geluk. Dit is wat het multicollineariteitsprobleem eigenlijk is. Laten we nu eens nagaan hoe u multicollineariteit kunt meten met betrekking tot machinaal leren.

Soorten multicollineariteit

Multicollineariteit bestaat uit twee verschillende soorten. Het eerste type multicollineariteit is structureel. Het is een bijproduct. Aangezien u deze veronderstelling creëert met behulp van de bestaande onafhankelijke variabele, kunt u ze gemakkelijk opsporen. De onafhankelijke variabele x van het eerste type is gekwadrateerd. Bij structurele multicollineariteit bijvoorbeeld hebt u een gegevensreeks en gebruikt u een log voor het normaliseren of schalen van de kenmerken. Het tweede type is datamulticollineariteit, die gevaarlijker is dan structurele. Deze multicollineariteit is moeilijker te identificeren en te interpreteren. Als u pandas data frame gebruikt, zal het dit type van multicollineariteit reeds insluiten.

Multicollineariteit opsporen en verwijderen

De optimale oplossing om de multicollineariteit te categoriseren is door de Variantie-inflatie Factor te berekenen die equivalent is aan elke individuele variabele in de gegevens. Door de Variantie-inflatiefactor te begrijpen, kunt u bepalen of de variabele voorspelbaar is of niet. Hiervoor zult u andere onafhankelijke variabelen gebruiken. We kunnen het concept begrijpen met het volgende voorbeeld:

Door uit te gaan van deze negen verschillende variabelen, kunt u de Variantie-inflatiefactor berekenen voor de eerste variabele. d.w.z., V1. Om de variabele V1 te berekenen, moet u deze beschouwen als een doelvariabele en isoleren van alle andere variabelen. Behandel alle andere variabelen als voorspellende variabelen.

Door andere variabelen te gebruiken, kunnen we de overeenkomstige waarde van R2 vinden. Om de waarde te vinden, traint u uw regressiemodel met behulp van de voorspellende variabelen. U kunt de VIF-waarde berekenen met behulp van de R2-waarde. De output zal zijn:

Uit de bovenstaande formule kunnen we duidelijk zien dat zowel de R2-waarde als de Variantie-inflatiefactor gelijktijdig zullen stijgen. Wanneer de R2-waarde hoger is, geeft dit aan dat de andere onafhankelijke variabelen de doel-onafhankelijke variabele goed verklaren. Om nu te beslissen of de variabele moet worden behouden of verwijderd, zullen wij de drempelwaarde van de variantie-inflatiefactor in aanmerking nemen.

De waarde van de variantie-inflatiefactor moet wenselijk klein zijn. Deze waarde kan echter de onafhankelijke variabelen uit de dataset verwijderen. Daarom nemen deskundigen gewoonlijk een drempelwaarde voor de variantie-inflatiefactor gelijk aan vijf. Dit betekent dat als de waarde van een onafhankelijke variabele meer dan vijf bedraagt, deze wordt verwijderd. Maar de ideale drempelwaarde zal afhangen van het ondervonden probleem.

Conclusie

De invloed van Lineaire Regressie hangt af van de eenvoud van de interpretatie van het model. U zult niet in staat zijn het doel van het model te vinden als u multicollineariteit over het hoofd ziet. Uit de bovenstaande context begrijpt u de betekenis van multicollineariteit en de invloed ervan op Lineaire Regressie. Bovendien kunt u nu de multicollineariteit opsporen en verwijderen voor elk probleem dat u in de toekomst tegenkomt.