Inleiding

In deze post leg ik uit wat de meest waarschijnlijke methode voor het schatten van parameters is en geef ik een eenvoudig voorbeeld om de tactiek aan te tonen. Een aantal van de inhoud vereist kennis van fundamentele waarschijnlijkheidsbegrippen zoals de definitie van waarschijnlijkheid en onafhankelijkheid van gebeurtenissen. Ik heb een blogpost geschreven met deze voorwaarden, dus lees dit met plezier als je denkt dat je een opfrisbeurt wilt.

Wat zijn parameters?

Vaak gebruiken we bij het machinaal leren een model om de methode uit te leggen die leidt tot de informatie die wordt waargenomen. Zo kunnen we bijvoorbeeld een willekeurig bosmodel gebruiken om te classificeren of klanten een abonnement op een dienst kunnen opzeggen (bekend als churn-modellering) of we kunnen een lineair model gebruiken om de inkomsten te voorspellen die zullen worden gegenereerd voor een bedrijf dat rekent op hoeveel procent ze zullen uitgeven aan reclame (dit zou een voorbeeld zijn van lineaire regressie). Elk model bevat zijn eigen set parameters die uiteindelijk bepalen hoe het model eruit ziet.

Voor een lineair model zullen we dit schrijven als y = mx + c. in dit voorbeeld zou x de reclame-uitgaven kunnen vertegenwoordigen en y zou de gegenereerde inkomsten kunnen zijn. m en c zijn parameters voor dit model. Verschillende waarden voor deze parameters zullen verschillende lijnen geven (zie onderstaande figuur).

Dus parameters definiëren een blauwdruk voor het model. Alleen voor de parameters worden specifieke waarden gekozen die we een instantiatie krijgen voor het model dat een bepaald fenomeen beschrijft.

https://miro.medium.com/max/1517/1*YE0OsCA9xug9fndqk7YGkg.png

Intuïtieve verklaring van de maximale waarschijnlijkheidsschatting

Maximale waarschijnlijkheidsschatting kan een methode zijn die de waarden voor de parameters van een model bepaalt. De parameterwaarden worden zo gevonden dat ze de waarschijnlijkheid maximaliseren dat de methode die door het model wordt beschreven, de informatie oplevert die daadwerkelijk is waargenomen.

De bovenstaande definitie moet een beetje cryptisch klinken, dus laten we een voorbeeld nemen om dit te helpen begrijpen.

Laten we aannemen dat we 10 datapunten van een of ander proces hebben waargenomen. Elk gegevenspunt kan bijvoorbeeld de lengte van je tijd in seconden weergeven die een leerling nodig heeft om een geselecteerde examenvraag te beantwoorden. Deze 10 gegevenspunten worden getoond in de onderstaande figuur

https://miro.medium.com/max/1530/1*Z3JJGvEtOjmpLFvmWiUR3Q.png

We moeten eerst beslissen welk model we verwachten dat de methode voor het genereren van de informatie het beste beschrijft. Dit deel is uiterst belangrijk. We moeten op zijn minst altijd een eerlijk idee hebben over welk model we moeten gebruiken. Dit komt meestal voort uit het hebben van enige domeinexpertise, maar we zullen dit hier niet bespreken.

Voor deze gegevens gaan we ervan uit dat het proces van het genereren van informatie vaak adequaat wordt beschreven door een Gaussische (normale) distributie. Visuele inspectie van bovenstaande figuur suggereert dat een normale verdeling aannemelijk is omdat de meeste van de tien punten geclusterd zijn in het midden met weinig verspreide punten naar links en dus naar rechts. (Het nemen van dit soort beslissingen op de vlucht met slechts 10 datapunten is onverstandig, maar zolang ik deze datapunten heb gegenereerd gaan we er mee door).

Bedenk dat de normale verdeling 2 parameters heeft. Het gemiddelde, μ, en dus de variantie, σ. Verschillende waarden van die parameters eindigen in verschillende krommen (net als bij de rechte lijnen hierboven). we willen graag begrijpen welke kromme vermoedelijk verantwoordelijk was voor het creëren van de informatiepunten die we waarnamen? (Zie onderstaande figuur). Maximale waarschijnlijkheidsschatting kan een methode zijn die de waarden van μ en σ die eindigen in de kromme die het best bij de info past.

https://miro.medium.com/max/1562/1*uLKl0Nz1vFg6bmfiqpCKZQ.png

De ware verdeling waaruit de info werd gegenereerd was f1 ~ N(10, 2.25), dat is dat de blauwe curve binnen de figuur hierboven.

Het berekenen van de uiterste Waarschijnlijkheidsschattingen

Nu we een intuïtief begrip hebben van wat de maximale waarschijnlijkheidsschatting is, gaan we verder met het aanleren van de manier om de parameterwaarden te berekenen. De waarden die we ontdekken worden de hoogstwaarschijnlijkheidsschattingen (MLE) genoemd.

We zullen dit opnieuw demonstreren met een voorbeeld. Stel dat we op dit punt drie datapunten hebben en dat we ervan uitgaan dat deze moeten worden gegenereerd uit een proces dat adequaat wordt beschreven door een normale verdeling. Deze punten zijn 9, 9.5 en 11. Hoe kunnen we de meest waarschijnlijke schattingen van de parameterwaarden van de normale verdeling μ en σ berekenen?

Wat we willen berekenen is dat de totale waarschijnlijkheid van het waarnemen van alle info, dus de waarschijnlijkheidsverdeling van alle waargenomen datapunten. Om dit te proberen moeten we misschien een aantal voorwaardelijke waarschijnlijkheden berekenen, wat erg moeilijk kan worden. Dus het is hier dat we onze eerste aanname maken. Het idee is dat elk gegeven onafhankelijk van de andere gegenereerd wordt. Deze veronderstelling maakt de wiskunde veel gemakkelijker. Als de gebeurtenissen (d.w.z. de methode die de gegevens genereert) onafhankelijk zijn, dan is de hele waarschijnlijkheid van het observeren van alle kennis dat het product van het observeren van elk nulpunt afzonderlijk (d.w.z. de koopwaar van de marginale waarschijnlijkheden).

https://miro.medium.com/max/1512/1*t4zrihvhtlZJZsvcX3jRjg.png

De waarschijnlijkheid van het waarnemen van één nulpunt x, dat wordt gegenereerd door een normale verdeling, wordt gegeven door:

De halve punt die in de notatie P(x; μ, σ) wordt gebruikt is er om te benadrukken dat de symbolen die erna verschijnen parameters van de kansverdeling zijn. Het moet dus niet verward worden met een contingente kansverdeling (die meestal wordt weergegeven met een verticale lijn b.v. P(A| B)).

https://miro.medium.com/max/1667/1*rFzbQ614IR4zEwBM3k1V0Q.png

In ons voorbeeld wordt de gehele (gezamenlijke) waarschijnlijkheid van het waarnemen van de drie datapunten gegeven door:

We hoeven alleen maar de waarden van μ en σ uit te zoeken die leiden tot het geven van de hoogste waarde van de bovenstaande uitdrukking.

Als je in je wiskundeklassen berekeningen hebt gemaakt, dan zul je je waarschijnlijk herinneren dat er een manier is om de maxima (en minima) van de functies te vinden. Het heet differentiatie. Het enige wat we doen is proberen de afgeleide van de functie te lokaliseren, de afgeleide functie op nul te zetten en dan de vergelijking te herschikken om de parameter te vormen die het onderwerp van de vergelijking interesseert. En voilà, we hebben onze MLE-waarden voor onze parameters. Ik zal deze stappen nu ondergaan, maar ik ga ervan uit dat de lezer de manier weet om onderscheid te maken op gemeenschappelijke functies. Als je een soort van meer gedetailleerde uitleg wilt geven, laat het me dan weten in het commentaar.

Het logboek waarschijnlijkheid

https://miro.medium.com/max/1681/1*hgz4ePKHyMh72hVrEguoyw.png

https://miro.medium.com/max/1746/1*EN94xeYTJgnhDFnMsHf2WA.png

De bovenstaande uitdrukking voor de hele waarschijnlijkheid is echt heel pijnlijk om te onderscheiden, dus het is bijna altijd vereenvoudigd door het nemen van de Napieriaanse logaritme van de uitdrukking. Dit is vaak prima omdat het Napieriaanse logaritme een monotoon toenemende functie kan hebben. Dit suggereert dat als de waarde op de x-as toeneemt, de waarde op de y-as ook toeneemt (zie onderstaande figuur). Dit is vaak belangrijk omdat het ervoor zorgt dat de hoogste waarde van de log van de waarschijnlijkheid op een gelijkwaardig punt optreedt omdat de oorspronkelijke waarschijnlijkheidsfunctie. Daarom zullen we werken met de eenvoudigere log-waarschijnlijkheid in plaats van de eerste waarschijnlijkheid. Het nemen van logs van de eerste expressie geeft ons:

Deze uitdrukking wordt vaak weer vereenvoudigd met behulp van de wetten van logaritmen om te verkrijgen:

https://miro.medium.com/max/1210/1*iEdEaqWWiruaw_Fr2ophxw.png

https://miro.medium.com/max/1145/1*xjDrGJ_JHLMa7619jFkjLA.png

Deze uitdrukking is vaak gedifferentieerd om het uiterste te zoeken. in dit voorbeeld vinden we de MLE van het gemiddelde, μ. om dit te proberen nemen we de gedeeltelijke van de functie met betrekking tot μ, het geven van

https://miro.medium.com/max/1298/1*kdjQQo5jUX9a2Z0kblJ4Hg.png

Tot slot geeft het instellen van de linkerzijde van de vergelijking op nul en vervolgens het herschikken voor μ:

https://miro.medium.com/max/1134/1*rHtqdjFXRw4sdnLU9n_WsQ.png

En daar hebben we onze maximale waarschijnlijkheidsschatting voor μ. We zullen ook een gelijkwaardig ding doen met σ, maar ik laat dat als een oefening voor de fervente lezer.

Slotopmerkingen

Kan de maximale waarschijnlijkheidsschatting altijd op een bepaalde manier worden opgelost?

Nee, dat is het korte antwoord. Het is waarschijnlijker dat tijdens een wereldscenario de afgeleide van de log-waarschijnlijkheidsfunctie analytisch hardnekkig blijft (d.w.z. het is veel te moeilijk/onmogelijk om de functie met de hand te differentiëren). Daarom zullen iteratieve methoden zoals Expectation-Maximization algoritmes geen numerieke oplossingen vinden voor de parameterschattingen. Het algemene idee blijft echter een equivalent.

Waarom dan wel maximale waarschijnlijkheid en niet maximale waarschijnlijkheid?

Nou, dit is vaak alleen maar een beetje pedant (maar wel met een permanente reden). De meeste mensen hebben de neiging om waarschijnlijkheid en waarschijnlijkheid door elkaar te gebruiken, maar statistici en kanstheoretici maken een onderscheid tussen de 2. De reden voor de verwarring kan het beste worden benadrukt door naar de vergelijking te kijken.

Deze uitdrukkingen zijn gelijk! Wat betekent dit dan? Laten we eerst P(data; μ, σ) definiëren? Het betekent “de waarschijnlijkheidsdensiteit van het waarnemen van de info met de modelparameters μ en σ”. Het is de moeite waard om op te merken dat we dit zullen veralgemenen naar een willekeurig aantal parameters en een willekeurige verdeling.

Aan de andere kant betekent L(μ, σ; data) “de waarschijnlijkheid dat de parameters μ en σ bepaalde waarden aannemen, zolang we maar een heleboel kennis hebben geobserveerd”.

De bovenstaande vergelijking zegt dat de waarschijnlijkheidsdensiteit van de info gegeven de parameters voldoende is voor de waarschijnlijkheid van de parameters gegeven de info. Maar ondanks dat deze twee dingen gelijk zijn, stellen de waarschijnlijkheid en dus de herbezetting van de waarschijnlijkheidsdensiteit fundamenteel verschillende vragen – de ene is vragen over de info en de andere is vragen over de parameterwaarden. Dit is vaak de reden waarom de tactiek de maximale waarschijnlijkheid wordt genoemd en niet de maximale waarschijnlijkheid.

Wanneer is de methode van de minste-kwadraten-minimalisatie een equivalent van de maximale waarschijnlijkheidsschatting?

Least squares minimization is een andere veel voorkomende methode voor het schatten van parameterwaarden voor een model in het machinaal leren. Het lijkt erop dat wanneer het model wordt verondersteld om Gaussisch te zijn zoals in de voorbeelden hierboven, de MLE-schattingen zijn als de kleinste hoeveelheid kwadraten methode. Voor een meer diepgaande wiskundige afleiding, inspecteer deze dia’s.

Intuïtief zullen we het verband tussen de 2 methoden interpreteren door hun doelstellingen te begrijpen. Voor de methode van de kleinste kwadraten parameterschatting willen we de weg zoeken die de gehele kwadraatafstand tussen de infopunten en dus de regressiekromme minimaliseert (zie onderstaande figuur). Bij maximale waarschijnlijkheidsschatting willen we de volledige waarschijnlijkheid van de info maximaliseren. Wanneer een normale verdeling wordt verondersteld, wordt de grootste waarschijnlijkheid gevonden wanneer de infopunten met het gemiddelde overeenstemmen. Aangezien de normale verdeling symmetrisch is, lijkt dit vaak op het minimaliseren van de ruimte tussen de infopunten en dus het gemiddelde.