Het doel van deze post is om u in staat te stellen om beter gebruik te maken van ridge regressie dan alleen gebruik te maken van wat bibliotheken bieden. Dan, “Wat is Ridge Regression?” De enige dank om de vraag te beantwoorden zijn “Variatie van Lineaire Regressie”. De slechtste manier is om te beginnen met de volgende wiskundige vergelijkingen die niet veel mensen in eerste instantie kunnen begrijpen.

https://miro.medium.com/max/360/1*gd9Tzg8lmKLY0ZXWaerU8w.png

Het slechte nieuws is dat we het nog steeds moeten beïnvloeden en het uitstekende nieuws is dat we niet met zulke vergelijkingen zullen beginnen, zij het nu niet. Wat ik misschien wil beginnen is ‘Gewone methode van de minste kwadraten (OLS)’. Als je toevallig weinig of geen achtergrond hebt over rechtlijnige regressie, zal deze video je helpen het gevoel te krijgen hoe het werkt met behulp van de ‘Minst Vierkante Methode’. Nu herken je dat OLS gewoon is als wat we in het algemeen ‘Lineaire Regressie’ noemen, en dat ik de term intrinsiek zal gebruiken.

Voordat u verder gaat

In de volgende paragrafen zal ik verschillende benaderingen kunnen hanteren met verschillende termen en cijfers. Er zijn twee zaken die u zich zou willen herinneren. Een daarvan is dat we niet van overfitting houden. Met andere woorden, we geven altijd de voorkeur aan een model dat algemene patronen vangt. Het tegenovergestelde is dat ons doel is om het te voorspellen op basis van nieuwe gegevens, niet op basis van specifieke gegevens. Daarom moet de evaluatie van het model worden ondersteund met nieuwe gegevens (testset), niet met gegeven gegevens (trainingsset). Ook zal ik de volgende termen door elkaar kunnen gebruiken.

Onafhankelijke Variabele = Eigenschap = Attribuut = Voorspeller = X

Coëfficiënt = Beta = β

Resterende som van de kwadraten = RSS

https://miro.medium.com/max/688/1*3cEysrHZokqla0tXnZ-5GQ.png

Least Square Method vindt de eenvoudigste en onbevooroordeelde coëfficiënten

U weet misschien dat de minst kwadratische methode de coëfficiënten vindt die het best bij de informatie passen. Een andere voorwaarde die moet worden toegevoegd is dat het ook de onbevooroordeelde coëfficiënten vindt. Hier betekent onbevooroordeeld dat OLS geen rekening houdt met welke experimentele variabele belangrijker is dan andere. Het vindt gewoon de coëfficiënten voor een bepaalde gegevensverzameling. Kortom, er is slechts één set bèta’s te vinden, wat leidt tot de ‘Residual Sum of Squares (RSS)’. De vraag wordt dan: “Is een model met een dieptepunt RSS echt het eenvoudigste model?

Bias vs. Variant

Het antwoord op bovenstaande vraag is “Niet echt”. Zoals in het woord ‘Onbevooroordeeld’ is aangegeven, willen we ook aan ‘Vooringenomenheid’ denken. Vooringenomenheid betekent dat een model zich evenzeer bekommert om zijn voorspellers. Laten we zeggen dat er twee modellen zijn om een appelprijs te voorspellen met twee voorspellers ‘zoetheid’ en ‘glans’; het ene model is onbevooroordeeld en het andere is dus bevooroordeeld.

https://miro.medium.com/max/593/1*OkRTcykIzOlmfe4OCJN1hA.png

Ten eerste probeert het onbevooroordeelde model het verband te zoeken tussen de 2 kenmerken en dus de prijzen, zoals de OLS-methode dat doet. Dit model zal de waarnemingen zo perfect mogelijk aansluiten om de RSS te dempen. Dit kan echter gemakkelijk leiden tot overfitting problemen. Met andere woorden, het model zal ook niet presteren met nieuwe data omdat het zo specifiek voor de gegeven data is gebouwd dat het niet past bij nieuwe data.

https://miro.medium.com/max/443/1*wqDhhG2BjkBCl5WuHojddw.png

Het bevooroordeelde model accepteert zijn variabelen ongelijk om elke voorspeller anders te behandelen. Als we teruggaan naar de instantie, willen we ons misschien alleen maar bekommeren om ‘zoetigheid’ om een model te creëren en dit zou beter kunnen presteren met nieuwe gegevens. De reden hiervoor zal worden uitgelegd na het begrijpen van Bias vs. Variantie. Als je niet bekend bent met het onderwerp ‘bias versus variantie’, raad ik je ten zeerste aan om deze video te bekijken, die je inzicht zal bieden. Er wordt vaak gezegd dat bias wordt gezegd met een model dat niet past bij de trainingsset en variantie wordt gezegd met een model dat niet past bij de testset. Vooringenomenheid en variantie zijn tijdens een afweging over de complexiteit van het model, wat suggereert dat een eenvoudig model hoge-bias en lage-variantie zou hebben, en andersom. In ons voorbeeld zou een model dat alleen rekening houdt met ‘zoetheid’ niet het maximale passen bij de trainingsgegevens, omdat het andere model dat zowel ‘zoetheid’ als ‘glans’ in aanmerking neemt, maar het eenvoudigere model zal beter in staat zijn om nieuwe gegevens te voorspellen.

Dit komt omdat ‘zoetheid’ een bepalende factor kan zijn voor een prijs, terwijl ‘glanzen’ niet logisch zou moeten zijn. We weten dit allemaal als een persoon, maar wiskundige modellen denken niet zoals wij en berekenen alleen wat er gegeven wordt totdat er een verband wordt gevonden tussen alle voorspellers en dus de experimentele variabele die past bij de trainingsgegevens.

*Aanwijzing: We nemen aan dat ‘zoetheid’ en ‘glans’ niet met elkaar in verband staan.

Waar Ridge Regression in het spel komt

https://miro.medium.com/max/433/1*cB0ESE9z3rB3-rpXPhwgWw.png

Kijkend naar Bias vs. Variantie cijfer, is de Y-as ‘Fout’, dat is dat de ‘Som van Bias en Variantie’. Aangezien beide in principe verband houden met falen, zouden we die misschien willen minimaliseren. Als je nu het cijfer opnieuw bekijkt, zul je zien dat de plek waar de hele fout het laagst is, ergens in het midden ligt. Dit wordt vaak ‘Sweet Spot’ genoemd.

Laten we niet vergeten dat OLS alle variabelen gelijk behandelt (onbevooroordeeld). Daarom wordt een OLS-model complexer naarmate er nieuwe variabelen worden toegevoegd. Er wordt vaak gezegd dat een OLS-model meestal op de rechterkant van de figuur staat, met een rotsbodemvooringenomenheid en dus de hoogste variantie. Het staat daar vast, beweegt nooit, maar we willen het graag naar de sweet spot manoeuvreren. Dit is vaak het moment waarop de nokregressie zou schijnen, ook wel aangeduid als Regularisatie. Bij ridge regressie stem je de lambda-parameter af, zodat de modelcoëfficiënten veranderen. Dit kan het beste worden begrepen met een programmeerdemonstratie die bovenaan wordt geïntroduceerd.

Geometrisch begrip van Ridge Regression

Vaak helpt een grafiek om de sensatie van hoe een model werkt aan te sporen, en nokregressie is geen uitzondering. De volgende figuur is dat de geometrische interpretatie overeenkomt met OLS en ridge regressie.

https://miro.medium.com/max/655/1*1pHwPfuhgTDFH8elIh_B2g.png

Contouren en OLS-schatting

Elke contour kan een verbinding zijn van plekken waar de RSS is dat hetzelfde gecentreerd met de OLS-schatting waar de RSS is dat de laagste. Ook is de OLS-schatting dat het punt waar het het meest nauw aansluit bij de trainingsset (low-bias).

Cirkel en nokschatting

https://miro.medium.com/max/695/1*YGn5C4Qe2OIKkODiE6Cprw.png

In tegenstelling tot de OLS-schatting verandert de nokschatting omdat de grootte van de blauwe cirkel verandert. Het is gewoon waar de cirkel de voorste buitenste contour ontmoet. Hoe de nokregressie werkt, is hoe we de afmetingen van de cirkel afstemmen. Het belangrijkste punt is dat β’s verandering op een speciaal niveau.

De meeste van deze veranderingen zijn in de praktijk niet te realiseren, maar in de praktijk is het wel mogelijk om de resultaten van deze veranderingen in de praktijk te brengen. De meeste van deze twee factoren hebben een invloed op het resultaat van de ontwikkeling van de onderneming. De reden waarom dit gebeurt is omdat de β’s anders veranderen door de RSS. Het is intuïtiever om de contouren niet als cirkels te zien, maar als ellipsen die gekanteld zijn gepositioneerd.

De β’s kunnen nooit nul zijn, maar komen alleen samen, en dit kan binnen de volgende formule met de wiskundige formule worden verklaard. Hoewel zo’n geometrische uitdrukking een hoofdidee zo goed als verklaart, is er ook een beperking dat we het niet over 3-dimensies kunnen uitdrukken. Het komt dus allemaal neer op wiskundige uitdrukkingen.

Wiskundige Formule

https://miro.medium.com/max/666/1*pMssBrKdIDKGdZBOvNJRvQ.png

We hebben de vergelijking van meervoudige regressie gezien, zowel in het algemeen als in de matrixversie. Het wordt vaak als volgt in een andere versie geschreven.

Hier betekent argmin ‘Argument van Minimum’ dat de functie het minimum bereikt. In de context vindt het de β’s die de RSS minimaliseren. Het is de bedoeling dat we de β’s uit de matrixformule aansporen. De vraag is nu ‘Wat heeft dit te maken met ridge regressie?’.

https://miro.medium.com/max/247/1*8R8-IckBY6Rw239ruufShg.png

Ook hier kan nokregressie een variant zijn op rechtlijnig regressie. De term hierboven is dat de richelrestrictie de OLS-vergelijking beperkt. We proberen de β’s te vinden, maar ze moeten nu ook aan de bovenstaande restrictie voldoen. Terug naar de meetkundige figuur, de C is als de straal van de cirkel, dus de β’s moeten binnen het cirkelgebied vallen, waarschijnlijk ergens op de angel.

Vector Norm

https://miro.medium.com/max/300/1*FSvb8xU_eqvjXyXiXg7jrA.png

We willen nog steeds de allereerste vergelijking weten. Daarvoor willen we graag de vectornorm kennen, die niets anders is dan de daarop volgende definitie.

Het abonnement 2 is zoals in ‘L2 norm’, en je leert hier meer over vectornormen. We geven op dit moment alleen om L2-norm, dus we zullen de vergelijking construeren die we al gezien hebben. Het volgende is dat de eenvoudigste maar nog steeds een equivalent vertelt als wat we besproken hebben. Merk op dat de primaire term binnen de volgende vergelijking in wezen OLS is, en dan is de tweede term met lambda wat ridge regressie maakt.

https://miro.medium.com/max/360/1*LsI3XqHSjNCiteUoFo2zKA.png

Wat we eigenlijk willen zoeken

De term met lambda wordt meestal ‘Straf’ genoemd omdat het de RSS verhoogt. We itereren bepaalde waarden op de lambda en evalueren het model met een meting als ‘Mean Square Error (MSE)’. Dus, de lambda-waarde die MSE minimaliseert moet worden gekozen omdat het uiteindelijke model. Dit nokregressiemodel is meestal beter dan het OLS-model in de voorspelling. Zoals te zien is in onderstaande formule, verandert de ridge β met lambda en wordt een equivalent als OLS β’s als lambda voldoende is tot nul (geen straf).

https://miro.medium.com/max/286/1*Rnl4jgKCG8oKuH7MgQ_Vxw.png

Waarom het convergeert naar Nul, maar niet Nul wordt…

Door het toepassen van de matrixformule die we eerder zagen, eindigt de lambda in de noemer. Het betekent dat als we de lambdawaarde verhogen, de ridge β’s moeten dalen. Maar ridge β’s kunnen geen nullen zijn, ongeacht hoe groot de lambdawaarde is. Dat wil zeggen, ridge regressie geeft verschillende belangrijke gewichten aan de kenmerken, maar laat geen onbelangrijke kenmerken vallen.

https://miro.medium.com/max/207/1*524ctaHK1BIN9tqhHIOY8Q.png