Historia analizy prognostycznej i bieżących postępów

Choć analiza prognostyczna trwa już od dziesięcioleci, to jest to technologia, której czas nadszedł. Coraz więcej organizacji zwraca się w stronę analizy prognostycznej, aby zwiększyć swoje zyski i przewagę konkurencyjną. Dlaczego teraz?

Ilość i rodzaje danych rosną, a zainteresowanie wykorzystaniem ich do uzyskania cennych informacji jest coraz większe.

Szybsze, tańsze komputery.

Łatwiejsze w użyciu oprogramowanie.

Trudniejsze warunki ekonomiczne i potrzeba zróżnicowania konkurencyjnego.

Wraz z rosnącą popularnością interaktywnego i łatwego w użyciu oprogramowania, analiza prognostyczna nie jest już tylko domeną matematyków i statystyków. Z technologii tych korzystają również analitycy biznesowi i eksperci z linii biznesowej.

Dlaczego analiza predykcyjna jest ważna?

Organizacje zwracają się ku analizie prognostycznej, aby pomóc w rozwiązywaniu trudnych problemów i odkrywaniu nowych możliwości. Powszechnie stosuje się je między innymi:

Wykrywanie oszustw. Połączenie wielu metod analizy może poprawić wykrywanie wzorców i zapobiec zachowaniom przestępczym. Ponieważ bezpieczeństwo cybernetyczne staje się coraz większym problemem, analiza behawioralna oparta na wynikach bada wszystkie działania w sieci w czasie rzeczywistym w celu zidentyfikowania anomalii, które mogą sugerować oszustwo, podatności typu zero-day oraz zaawansowanych trwałych zagrożeń.

Optymalizacja kampanii marketingowych. Analiza predykcyjna jest wykorzystywana do określenia reakcji klientów lub zakupów, a także do promowania możliwości sprzedaży krzyżowej. Modele predykcyjne pomagają firmom przyciągnąć, utrzymać i rozwijać bardziej dochodowych klientów.

Ulepszają działalność. Wiele firm stosuje modele predykcyjne do przewidywania zapasów i zarządzania aktywami. Linie lotnicze wykorzystują analizę prognostyczną do ustalania cen biletów. Hotele starają się przewidzieć liczbę gości na noc, aby zmaksymalizować obłożenie i zwiększyć przychody. Analiza prognostyczna pozwala organizacjom na bardziej efektywne funkcjonowanie.

Zmniejszenie ryzyka. Oceny kredytowe są wykorzystywane do oceny prawdopodobieństwa niewywiązania się nabywcy z płatności za zakupy i stanowią znany przykład analizy prognostycznej. Punktacja kredytowa jest liczbą generowaną przez model predykcyjny, który zawiera wszystkie dane istotne dla zdolności kredytowej danej osoby. Inne zastosowania związane z ryzykiem obejmują roszczenia ubezpieczeniowe i windykację należności.

Kto korzysta z tego modelu?

Każda branża może korzystać z analizy prognostycznej w celu ograniczenia ryzyka, optymalizacji działalności i zwiększenia przychodów. Oto kilka przykładów.

Usługi bankowe i finansowe

Branża finansowa, dysponująca ogromną ilością danych i pieniędzy, od dawna stosuje analizę prognostyczną w celu wykrywania i ograniczania oszustw, mierzenia ryzyka kredytowego, maksymalizowania możliwości sprzedaży krzyżowej/up-sell i zatrzymywania wartościowych klientów. Commonwealth Bank wykorzystuje analizy do przewidywania prawdopodobieństwa wystąpienia oszustwa dla każdej transakcji przed jej zatwierdzeniem – w ciągu 40 milisekund od jej rozpoczęcia.

Sprzedaż detaliczna

Z niesławnego obecnie badania, które wykazało, że mężczyźni kupujący pieluchy często kupują piwo w tym samym czasie, detaliści na całym świecie wykorzystują analizę prognostyczną do planowania towarów i optymalizacji cen, do analizy efektywności imprez promocyjnych i do określenia, które oferty są najbardziej odpowiednie dla konsumentów. Firma Staples zyskała wgląd w klienta dzięki analizie zachowań, dostarczeniu pełnego obrazu swoich klientów i osiągnięciu 137% zwrotu z inwestycji.

Ropa naftowa, gaz i przedsiębiorstwa użyteczności publicznej

Niezależnie od tego, czy chodzi o przewidywanie awarii sprzętu i przyszłych potrzeb w zakresie zasobów, łagodzenie ryzyka związanego z bezpieczeństwem i niezawodnością, czy też poprawę ogólnej wydajności, branża energetyczna energicznie stosuje analizę prognostyczną. Projekt Salt River jest drugim największym publicznym przedsiębiorstwem energetycznym w Stanach Zjednoczonych i jednym z największych dostawców wody w Arizonie. Analiza danych z czujników maszyn przewiduje, kiedy turbiny wytwarzające energię elektryczną wymagają konserwacji.

Rządy i sektor publiczny

Rządy były kluczowymi graczami w rozwoju technologii informatycznych. Amerykańskie Biuro Spisu Powszechnego od dziesięcioleci analizuje dane w celu zrozumienia trendów demograficznych. Rządy wykorzystują obecnie analizę prognostyczną, podobnie jak wiele innych branż – w celu poprawy usług i wydajności, wykrywania i zapobiegania oszustwom oraz lepszego zrozumienia zachowań konsumentów. Korzystają również z analizy prognostycznej w celu poprawy bezpieczeństwa informacji.

Jak to działa

Modele predykcyjne wykorzystują znane wyniki do opracowania (lub treningu) modelu, który może być wykorzystany do przewidywania wartości dla różnych lub nowych danych. Modelowanie dostarcza wyników w formie przewidywań, które przedstawiają prawdopodobieństwo zmiennej docelowej (np. przychodów) w oparciu o szacowane znaczenie zestawu zmiennych wejściowych.

Różni się to od modeli opisowych, które pomagają zrozumieć, co się stało, lub modeli diagnostycznych, które pomagają zrozumieć kluczowe zależności i określić, dlaczego coś się stało. Całe książki poświęcone są metodom i technikom analitycznym. Kompleksowe programy uniwersyteckie dogłębnie badają ten temat. Ale na początek, oto kilka podstaw.

Istnieją dwa rodzaje modeli predykcyjnych. Modele klasyfikacyjne obejmują przynależność do klasy. Na przykład, starają się sklasyfikować, czy ktoś prawdopodobnie odejdzie, czy zareaguje na nagabywanie, czy jest to dobre czy złe ryzyko kredytowe, itp. Zazwyczaj wyniki modelu mają postać 0 lub 1, a 1 jest zdarzeniem docelowym. Modele regresji przewidują liczbę – na przykład, ile klient wygeneruje w następnym roku lub liczbę miesięcy przed awarią elementu w maszynie.

Najczęściej stosowanymi technikami modelowania predykcyjnego są drzewa decyzyjne, regresja i sieci neuronowe.

Drzewa decyzyjne to modele klasyfikacyjne, które dzielą dane na podzbiory w oparciu o kategorie zmiennych wejściowych. Pomaga to zrozumieć ścieżkę czyichś decyzji. Drzewo decyzyjne jest przedstawiane jako drzewo, w którym każda gałąź reprezentuje wybór pomiędzy zestawem alternatyw a każdym liściem reprezentującym klasyfikację lub decyzję. Przygląda się danym i próbuje znaleźć jedyną zmienną, która dzieli dane na logiczne grupy, które są najbardziej zróżnicowane. Drzewa decyzyjne są popularne, ponieważ są łatwe do zrozumienia i interpretacji. Dobrze radzą sobie również z brakującymi wartościami i są przydatne do wstępnego doboru zmiennych. Tak więc, jeśli masz dużo brakujących wartości lub chcesz szybko i łatwo zinterpretować odpowiedź, możesz zacząć od drzewa.

Regresja (liniowa i logistyczna) jest jedną z najbardziej popularnych metod w statystyce. Analiza regresji pozwala oszacować relacje między zmiennymi. Przeznaczona dla danych ciągłych, które można założyć, że przebiegają zgodnie z rozkładem normalnym, znajduje kluczowe wzorce w dużych zbiorach danych i jest często wykorzystywana do określenia, jak konkretne czynniki, takie jak cena, wpływają na ruch danego składnika aktywów. W przypadku analizy regresji chcemy przewidzieć liczbę, nazywaną odpowiedzią lub zmienną Y. W przypadku regresji liniowej do wyjaśnienia i/lub przewidzenia wyniku Y stosowana jest niezależna zmienna. Regresja wielokrotna wykorzystuje dwie lub więcej niezależnych zmiennych do przewidzenia wyniku. W przypadku regresji logistycznej, nieznane zmienne zmiennej dyskretnej są przewidywane w oparciu o znaną wartość innych zmiennych. Zmienna odpowiedzi jest kategoryczna, co oznacza, że może ona przyjąć tylko ograniczoną liczbę wartości. Zmienna odpowiedzi ma tylko dwie wartości, takie jak 0 lub 1 w binarnej regresji logistycznej. Zmienna odpowiedzi może mieć różne poziomy, takie jak niski, średni i wysoki lub 1, 2 i 3 w regresji wielokrotnej logistycznej. Są one popularne, ponieważ są potężne i elastyczne. Potęga wynika z ich zdolności do radzenia sobie z nieliniowymi relacjami w danych, co jest coraz bardziej powszechne w miarę gromadzenia większej ilości danych. Są one często wykorzystywane do potwierdzania wyników prostych technik, takich jak regresja i drzewa decyzyjne. Sieci neuronowe są oparte na rozpoznawaniu modeli i niektórych procesach IA, które w sposób graficzny “modelują” parametry. Działają one dobrze, gdy nie ma znanego wzoru matematycznego, który powiązałby dane wejściowe z danymi wyjściowymi, prognozowanie jest ważniejsze od wyjaśnienia lub istnieje wiele danych szkoleniowych. Sztuczne sieci neuronowe zostały pierwotnie opracowane przez naukowców, którzy starali się naśladować neurofizjologię ludzkiego mózgu.

Inne popularne techniki, o których można usłyszeć

Analiza bayesowska. Metody bayesowskie traktują parametry jako zmienne losowe i definiują prawdopodobieństwo jako “stopień przekonania” (tzn. prawdopodobieństwo zdarzenia jest stopniem, w jakim zdarzenie jest uznawane za prawdziwe). Wykonując analizę bayesowską, zaczynasz od poprzedniego przekonania dotyczącego rozkładu prawdopodobieństwa nieznanego parametru. Po zapoznaniu się z informacjami pochodzącymi z posiadanych danych, zmianie lub aktualizacji przekonania dotyczącego nieznanego parametru.

Złóż modele. Tworzenie modeli polega na szkoleniu kilku podobnych modeli i łączeniu ich wyników w celu poprawy dokładności, zmniejszenia zniekształceń, zmniejszenia wariancji i określenia najlepszego modelu do wykorzystania z nowymi danymi.

Zwiększanie gradientu. Jest to podejście stymulujące, które polega na kilkukrotnym próbkowaniu zbioru danych w celu wygenerowania wyników, które tworzą średnią ważoną ponownie próbkowanego zbioru danych. Podobnie jak w przypadku drzew decyzyjnych, podejście polegające na zwiększaniu nie zakłada rozkładu danych. Podbijanie jest mniej podatne na przewymiarowanie danych niż pojedyncze drzewo decyzyjne, a jeśli drzewo decyzyjne wystarczająco dobrze pasuje do danych, to podbijanie często poprawia ich dopasowanie. (Przesadzanie danych oznacza, że używasz zbyt wielu zmiennych, a model jest zbyt złożony. Niedopasowanie oznacza przeciwieństwo: nie ma wystarczającej liczby zmiennych, a model jest zbyt prosty. Obie redukują dokładność przewidywania).

Reakcja inkrementalna (zwana również modelami podnoszenia lub podnoszenia netto). Modele te reprezentują zmianę prawdopodobieństwa spowodowaną działaniem. Są one szeroko stosowane w celu zmniejszenia odpływu i odkrycia efektów różnych programów marketingowych.

K-nearest near (knn). Jest to nieparametryczna metoda klasyfikacji i regresji, która obejmuje wartości przynależności do obiektu lub klasy na podstawie przykładów treningu k-nearest near.

Rozumowanie oparte na pamięci. Rozumowanie oparte na pamięci jest techniką klasyfikującą lub prognozującą obserwacje w oparciu o k-nearest neighbor.

Częściowe kwadratowe minimum. Ta elastyczna technika statystyczna może być stosowana do danych o dowolnej formie. Modeluje ona relacje pomiędzy wejściami i wyjściami nawet wtedy, gdy wejścia są powiązane i głośne, jest więcej wyjść lub jest więcej wejść niż obserwacji. Metoda częściowych minimów kwadratowych poszukuje czynników, które wyjaśniają zarówno zmiany odpowiedzi, jak i przewidywania.

Analiza głównych składników. Celem analizy głównych składników jest uzyskanie małej liczby niezależnych liniowych kombinacji (głównych składników) zbioru zmiennych, które zachowują jak najwięcej informacji w zmiennych pierwotnych.

Obsługa maszyn wektorowych. Ta nadzorowana technika uczenia maszynowego wykorzystuje powiązane algorytmy uczenia się do analizy danych i rozpoznawania wzorców. Może być wykorzystywana zarówno do klasyfikacji, jak i regresji.

Eksploracji danych szeregów czasowych. Dane szeregów czasowych są zbierane w czasie i gromadzone w określonym przedziale czasowym (sprzedaż w miesiącu, połączenia na dzień, wizyty w sieci na godzinę, itp.) Eksploracja danych szeregów czasowych łączy w sobie tradycyjne techniki eksploracji danych i prognozowania. Techniki eksploracji danych, takie jak próbkowanie, grupowanie i drzewa decyzyjne, są stosowane do danych gromadzonych w czasie w celu poprawy prognozowania.