Wprowadzenie

W tym poście wyjaśniam, jaka jest najbardziej prawdopodobna metoda szacowania parametrów i podaję prosty przykład, aby zademonstrować tę taktykę. Szereg treści wymaga znajomości podstawowych pojęć dotyczących prawdopodobieństwa, takich jak definicja prawdopodobieństwa i niezależności zdarzeń. Napisałem post na blogu z tymi warunkami wstępnymi, więc z przyjemnością przeczytam go, jeśli uważasz, że chciałbyś się odświeżyć.

Czym są parametry?

Często w uczeniu maszynowym używamy modelu do wyjaśnienia metody, która prowadzi do zaobserwowanych informacji. na przykład, możemy użyć modelu losowego lasu do sklasyfikowania, czy klienci mogą zrezygnować z abonamentu z usługi (tzw. modelowanie churn) lub możemy użyć modelu liniowego do przewidzenia przychodów, które będą generowane dla korporacji licząc na to, jaką część wydadzą na reklamę (byłby to przykład regresji liniowej). Każdy model zawiera swój własny zestaw parametrów, które ostatecznie określają, jak ten model wygląda.

Dla modelu liniowego napiszemy to jako y = mx + c. w tym przykładzie x może reprezentować wydatki na reklamę i y może być generowany przychód. m i c są parametry dla tego modelu. Różne wartości dla tych parametrów dadzą różne linie (patrz rysunek poniżej).

Tak więc parametry definiują projekt modelu. To tylko konkretne wartości są wybierane dla parametrów, które otrzymujemy jako instancję dla modelu opisującego dane zjawisko.

https://miro.medium.com/max/1517/1*YE0OsCA9xug9fndqk7YGkg.png

Intuicyjne wyjaśnienie maksymalnego oszacowania prawdopodobieństwa

Oszacowanie maksymalnego prawdopodobieństwa może być metodą, która określa wartości parametrów modelu. Wartości parametrów określa się w taki sposób, aby zmaksymalizować prawdopodobieństwo, że metoda opisana przez model dostarczy informacji, które zostały rzeczywiście zaobserwowane.

Powyższa definicja powinna brzmieć jak krypta dotykowa, więc podajmy przykład, który pomoże to zrozumieć.

Załóżmy, że zaobserwowaliśmy 10 punktów danych z jakiegoś procesu. Na przykład, każdy punkt danych może przedstawiać długość czasu w sekundach, jaki zajmuje uczniowi udzielenie odpowiedzi na wybrane pytanie egzaminacyjne. Te 10 punktów danych jest pokazane na rysunku poniżej

https://miro.medium.com/max/1530/1*Z3JJGvEtOjmpLFvmWiUR3Q.png

Najpierw musimy zdecydować, który model najlepiej opisuje metodę generowania informacji. Ta część jest niezwykle ważna. Przynajmniej zawsze powinniśmy mieć szczere wyobrażenie o tym, którego modelu użyć. Zazwyczaj wynika to z posiadania pewnej wiedzy specjalistycznej w danej dziedzinie, ale nie będziemy tego tutaj omawiać.

Dla tych danych założymy, że proces generowania informacji jest często odpowiednio opisany przez (normalną) dystrybucję gaussianską. Wizualne oględziny powyższego rysunku sugerują, że rozkład normalny jest prawdopodobny, ponieważ większość z dziesięciu punktów jest skupiona w środku, a kilka z nich jest rozproszonych po lewej, a więc i po prawej stronie. (Podejmowanie tego typu decyzji w locie z zaledwie 10 punktami danych jest nierozsądne, ale tak długo jak będę generował te punkty danych, będziemy mu towarzyszyć).

Przypomnijmy, że rozkład normalny ma 2 parametry. Średnia, μ, a więc wariancja, σ. Różne wartości tych parametrów kończą się na różnych krzywych (podobnie jak z liniami prostymi powyżej). chcielibyśmy zrozumieć, która z krzywych była przypuszczalnie odpowiedzialna za tworzenie punktów informacyjnych, które obserwowaliśmy? (Patrz rysunek poniżej). Oszacowanie maksymalnego prawdopodobieństwa może być metodą, która znajdzie wartości μ i σ tego końca na krzywej, która najbardziej pasuje do info.

https://miro.medium.com/max/1562/1*uLKl0Nz1vFg6bmfiqpCKZQ.png

Prawdziwy rozkład, z którego zostały wygenerowane informacje to f1 ~ N(10, 2.25), czyli krzywa niebieska na powyższym rysunku.

Obliczanie najwyższych oszacowań prawdopodobieństwa

Teraz, gdy mamy już intuicyjne zrozumienie, czym jest szacowanie maksymalnego prawdopodobieństwa, przejdziemy do nauki sposobu obliczania wartości parametrów. Wartości, które odkrywamy, nazywamy oszacowaniami największego prawdopodobieństwa (MLE).

Ponownie zademonstrujemy to na przykładzie. Załóżmy, że mamy trzy punkty danych w tym punkcie i zakładamy, że muszą one zostać wygenerowane z procesu, który jest odpowiednio opisany przez rozkład normalny. Punkty te to 9, 9.5 i 11. Jak możemy obliczyć największe prawdopodobieństwo oszacowania wartości parametrów rozkładu normalnego μ i σ?

Chcielibyśmy obliczyć całkowite prawdopodobieństwo obserwacji wszystkich informacji, tj. rozkład prawdopodobieństwa wszystkich zaobserwowanych punktów danych. Aby tego spróbować, być może będziemy musieli obliczyć pewne warunkowe prawdopodobieństwa, które mogą okazać się bardzo trudne. Tak więc to właśnie tutaj dokonamy naszego pierwszego założenia. Chodzi o to, że każdy punkt odniesienia jest generowany niezależnie od pozostałych. To założenie znacznie ułatwia matematykę. Jeśli zdarzenia (tj. metoda, która generuje dane) są niezależne, to całe prawdopodobieństwo obserwacji całej wiedzy jest tym, że iloczyn obserwacji każdego punktu odniesienia z osobna (tj. towaru o prawdopodobieństwach krańcowych).

https://miro.medium.com/max/1512/1*t4zrihvhtlZJZsvcX3jRjg.png

Gęstość prawdopodobieństwa obserwowania jednego punktu odniesienia x, który jest generowany z rozkładu normalnego, jest dana przez:

Półkolumna użyta w zapisie P(x; μ, σ) ma na celu podkreślenie, że pojawiające się po niej symbole są parametrami rozkładu prawdopodobieństwa. Nie należy go więc mylić z prawdopodobieństwem warunkowym (które zwykle jest reprezentowane przez pionową linię, np. P(A| B)).

https://miro.medium.com/max/1667/1*rFzbQ614IR4zEwBM3k1V0Q.png

W naszym przykładzie cała (wspólna) gęstość prawdopodobieństwa obserwacji trzech punktów danych jest podana przez:

Musimy tylko dowiedzieć się, jakie są wartości μ i σ, co prowadzi do podania największej wartości powyższego wyrażenia.

Jeśli pokryłeś rachunek w swoich klasach matematyki, to prawdopodobnie pamiętasz, że istnieje sposób, który pomoże nam znaleźć maksima (i minima) funkcji. Nazywa się to różnicowaniem. Wszystko, co robimy, to staramy się zlokalizować pochodną funkcji, ustawić funkcję pochodną na zero, a następnie przestawić równanie tak, aby utworzyć parametr interesujący nas tematem równania. I voila, będziemy mieli nasze wartości MLE dla naszych parametrów. Prześledzę teraz te kroki, ale założę, że czytelnik zna sposób wykonywania różnicowania na wspólnych funkcjach. Gdybyś miał jakieś bardziej szczegółowe wyjaśnienie, to daj mi znać w komentarzach.

Dziennik prawdopodobieństwa

https://miro.medium.com/max/1681/1*hgz4ePKHyMh72hVrEguoyw.png

https://miro.medium.com/max/1746/1*EN94xeYTJgnhDFnMsHf2WA.png

Powyższe wyrażenie dla całego prawdopodobieństwa jest naprawdę dość bolesne do rozróżnienia, więc prawie zawsze jest uproszczone, biorąc logarytm wyrażenia Napierian. Często jest to absolutnie w porządku, ponieważ logarytm napiański może być funkcją monotonnie wzrastającą. Sugeruje to, że jeśli wartość na osi x wzrasta, to wartość na osi y również wzrasta (patrz rysunek poniżej). Jest to często ważne, ponieważ zapewnia, że największa wartość logarytmu prawdopodobieństwa występuje w równoważnym punkcie, ponieważ pierwotna funkcja prawdopodobieństwa. Dlatego będziemy pracować z prostszym logiem prawdopodobieństwa, a nie z pierwszym prawdopodobieństwem. Przyjęcie logów pierwszego wyrażenia daje nam:

Wyrażenie to jest często upraszczane ponownie przy użyciu praw logarytmów, by otrzymać:

https://miro.medium.com/max/1210/1*iEdEaqWWiruaw_Fr2ophxw.png

https://miro.medium.com/max/1145/1*xjDrGJ_JHLMa7619jFkjLA.png

W tym przykładzie znajdziemy MLE średniej, μ. aby spróbować, bierzemy część funkcji w odniesieniu do μ, podając

https://miro.medium.com/max/1298/1*kdjQQo5jUX9a2Z0kblJ4Hg.png

Na koniec, ustawiając lewą stronę równania na zero, a następnie zmieniając układ na μ daje:

https://miro.medium.com/max/1134/1*rHtqdjFXRw4sdnLU9n_WsQ.png

I tam mamy nasz maksymalny szacunek prawdopodobieństwa dla μ. Zrobimy równoważną rzecz z σ też, ale zostawię to jako ćwiczenie dla zapalonego czytelnika.

Końcowe uwagi

Czy oszacowanie maksymalnego prawdopodobieństwa może być zawsze rozwiązane w szczególny sposób?

Nie, to krótka odpowiedź. Bardziej prawdopodobne jest, że w scenariuszu światowym pochodna funkcji “log-likelihood” pozostaje nierozwiązywalna analitycznie (tj. zbyt trudne/nie możliwe jest ręczne różnicowanie funkcji). Dlatego też metody iteracyjne, takie jak algorytmy Expectation-Maximization, nie są w stanie znaleźć numerycznych rozwiązań dla oszacowania parametrów. Ogólna koncepcja pozostaje jednak równoważna.

Dlaczego więc maksymalne prawdopodobieństwo, a nie maksymalne prawdopodobieństwo?

Cóż, często jest to po prostu pedantyczny (ale trwały powód) statystyk. WiĊkszo±¢ ludzi stosuje zamiennie prawdopodobie “stwo i prawdopodobie “stwo, ale statystycy i teoretycy prawdopodobie “stwa rozró “niają teorie. 2. Uzasadnienie pomyłki najlepiej podkre±la si¦ ogl¡dając równanie.

Wyrażenia te są równe! Co to zatem oznacza? Zdefiniujmy najpierw P(dane; μ, σ)? Oznacza to “gęstość prawdopodobieństwa obserwowania informacji o parametrach modelu μ i σ”. Warto zauważyć, że uogólnimy to do dowolnej liczby parametrów i dowolnego rozkładu.

Z drugiej strony L(μ, σ; data) oznacza “prawdopodobieństwo, że parametry μ i σ przyjmą pewne wartości tak długo, jak długo będziemy obserwować masę wiedzy”.

Powyższe równanie mówi, że gęstość prawdopodobieństwa informacji podanych w parametrach jest adekwatna do prawdopodobieństwa parametrów podanych w informacji. Ale pomimo tego, że te dwie rzeczy są równe, prawdopodobieństwo, a więc i gęstość prawdopodobieństwa, zadaje zasadniczo różne pytania – jedno z nich dotyczy informacji, a drugie wartości parametrów. Dlatego taktyka ta często nazywana jest maksymalnym prawdopodobieństwem, a nie maksymalnym prawdopodobieństwem.

Kiedy metoda minimalizacji najmniejszych kwadratów jest równoznaczna z oszacowaniem maksymalnego prawdopodobieństwa?

Minimalizacja najmniejszych kwadratów jest kolejną popularną metodą szacowania wartości parametrów w modelu uczenia maszynowego. Wydaje się, że kiedy przyjmuje się, że model jest Gaussianem, jak w powyższych przykładach, oszacowania MLE są jak metoda najmniejszych kwadratów kwotowych. W celu uzyskania bardziej dogłębnej derywacji matematycznej sprawdź te slajdy.

Intuicyjnie zinterpretujemy związek pomiędzy tymi dwoma metodami poprzez zrozumienie ich celów. Dla metody szacowania parametrów najmniejszych kwadratów chcielibyśmy poszukać drogi, która minimalizuje całą kwadratową odległość pomiędzy punktami informacyjnymi, a tym samym krzywą regresji (patrz rysunek poniżej). W maksymalnym oszacowaniu prawdopodobieństwa chcielibyśmy zmaksymalizować całe prawdopodobieństwo informacji. Gdy przyjmuje się rozkład normalny, największe prawdopodobieństwo występuje, gdy punkty informacyjne spotykają się ze średnią. Ponieważ rozkład normalny jest symetryczny, często jest to jak minimalizacja przestrzeni pomiędzy punktami informacyjnymi, a tym samym średniej.