Prawdopodobnie już teraz wiesz, że w pracy powinieneś w miarę możliwości podejmować decyzje oparte na danych. W każdym razie, czy zdajesz sobie sprawę z tego, jak przetworzyć większość dostępnych ci informacji? Na szczęście prawdopodobnie nie musisz sam obliczać (dzięki Bogu!), ale musisz skutecznie zrozumieć i przetłumaczyć egzamin przeprowadzony przez Twoich partnerów.
Aby lepiej zrozumieć tę strategię i sposób, w jaki organizacje ją stosują, rozmawiałem z Tomem Redmanem, autorem Data Driven: Korzystanie z najważniejszych zasobów biznesowych. Dodatkowo podpowiada stowarzyszeniom o ich projektach informacyjnych i jakości informacji.
Co to jest analiza regresji?
Redman oferuje tę modelową sytuację: Przypuśćmy, że jesteś kierownikiem projektu, który próbuje przewidzieć jeden miesiąc od teraz numerów. Zdajesz sobie sprawę, że garstka, może nawet wiele elementów, od klimatu do awansu przeciwnika do plotki o tak dobrym jak zawsze modelu, może mieć wpływ na liczbę. Może osoby w twoim stowarzyszeniu mają nawet hipotezę o tym, co będzie miało największy wpływ na transakcje. “Zaufaj mi. Im więcej deszczu mamy, tym więcej sprzedajemy.” “6 tygodni po promocji zawodnika, skok sprzedaży.”
Analiza regresji jest sposobem matematycznego uporządkowania, które z tych zmiennych rzeczywiście mają wpływ. Odpowiada na pytania: Które czynniki mają największe znaczenie? Co możemy zignorować? Jak te czynniki oddziałują na siebie? I, być może, co najważniejsze, jak bardzo jesteśmy pewni tych wszystkich czynników?
W analizie regresji czynniki te nazywane są zmiennymi.
W badaniu nawrotów choroby elementy te nazywane są czynnikami. Masz swoją zmienną zależną – główny czynnik, który starasz się zrozumieć lub przewidzieć. W modelu Redmana od końca, zmienną zależną są transakcje z miesiąca na miesiąc. A potem masz swoje czynniki autonomiczne – elementy, które twoim zdaniem wpływają na zmienną zależną.
Jak to działa?
Aby ukierunkować dochodzenie w sprawie nawrotu choroby, należy zebrać dane na temat danych zmiennych, o których mowa. (Aktualizacja: Prawdopodobnie nie musisz tego robić bez niczyjej pomocy, ale przydaje się do zrozumienia procedury, którą twój egzaminator informacji wykorzystuje). Bierzesz większość numerów transakcji z miesiąca na miesiąc za, stan, poprzednie trzy lata i wszelkie informacje o wolnych czynnikach, na których Ci zależy. Tak więc, dla tej sytuacji, załóżmy, że odkryjesz normalne opady z miesiąca na miesiąc już od trzech lat. W tym momencie wykreślasz większość tych danych na wykresie, który jest podobny do tego:

y-pivot jest miarą ofert (zmienna zależna, rzecz, na której jesteś zainteresowany, jest konsekwentnie na y-hubie), a x-hub to wszystkie opady. Każdy niebieski punkt mówi o jednym miesiącu informacji – o tym, ile wyniósł on w danym miesiącu i ile ofert złożyłeś w tym samym miesiącu.
Patrząc na te informacje, najprawdopodobniej zauważasz, że transakcje są wyższe w dniach, kiedy pada tona. To fascynujące wiedzieć, ale o jakiej kwocie? Jeśli będzie padać 3 cale, wiesz, ile sprzedasz? A jeśli będzie padać 4 cale?
Obecnie przewiduje się narysowanie na wykresie linii przechodzącej przez środek znacznej liczby ognisk informacyjnych. Ta linia pozwoli Ci odpowiedzieć, z pewnym przekonaniem, na kwotę, którą normalnie sprzedajesz, gdy pada konkretna suma.

Nazywa się to linią regresji i jest ona rysowana (przy użyciu programu statystycznego takiego jak SPSS lub STATA lub nawet Excel), aby pokazać linię, która najlepiej pasuje do danych. Tak jakby, wyjaśnia Redman, “Czerwona linia jest najlepszym wyjaśnieniem związku pomiędzy zmienną autonomiczną a zmienną okręgową”.
Oprócz narysowania linii, Twój program statystyczny wypuszcza również formułę, która wyjaśnia nachylenie linii i wygląda coś w tym stylu:
Na razie zignoruj termin błędu. Odnosi się to do faktu, że regresja nie jest idealnie precyzyjna. Po prostu skup się na modelu:

Na razie zignoruj termin błędu. Odnosi się to do faktu, że regresja nie jest idealnie precyzyjna. Po prostu skup się na modelu:
Ten wzór mówi ci, że jeśli nie ma “x”, to Y = 200. W ten sposób, co jest możliwe do sprawdzenia, kiedy nie padało przez żaden odcinek wyobraźni, zrobiłeś średnio 200 sprzedaży i możesz mieć nadzieję, że zrobisz odpowiednik, oczekując, że różne czynniki pozostaną równoważne. Ponadto, wcześniej, za każdy dodatkowy centymetr ulewy, zrobiłeś normalne pięć dodatkowych transakcji. “Za każdy dodatek, który x idzie w górę jeden, y idzie w górę o pięć”, mówi Redman.
Obecnie powinniśmy wrócić do terminu błędu. Możesz być zachęcony do stwierdzenia, że ulewa ma duży wpływ na transakcje, jeśli na każdy centymetr dostaniesz pięć dodatkowych transakcji, ale czy ta zmienna zasługuje na uwagę będzie polegać na terminie błędu. Linia regresji zawsze ma pojęcie błędu, ponieważ w rzeczywistości niezależne zmienne nigdy nie są doskonałymi predykatorami zmiennych zależnych. A może linia jest miernikiem zależnym od dostępnych informacji. Tak więc pojęcie błędu zdradza ci, jak bardzo możesz być pewien przepisu. Im większa jest, tym mniej pewna jest linia nawrotu.
Powyższy model wykorzystuje tylko jedną zmienną do przewidywania czynnika intrygi – w tej sytuacji ulewa do przewidywania transakcji. Zazwyczaj rozpoczyna się analizę aregresji, która wymaga zrozumienia efektu kilku niezależnych zmiennych. Możesz więc uwzględnić zarówno ulewę, jak i informacje o awansie przeciwnika. “Robisz to do momentu, w którym pojęcie błędu jest małe”, mówi Redman. “Próbujesz uzyskać linię, która najlepiej pasuje do twoich informacji”. Chociaż mogą istnieć niebezpieczeństwa związane z próbą uwzględnienia nadmiernej liczby czynników w dochodzeniu w sprawie nawrotu choroby, utalentowani śledczy mogą ograniczyć te niebezpieczeństwa. Co więcej, myślenie o wpływie różnych czynników bez chwili zwłoki jest chyba największą swobodą w nawrocie choroby.