Waarschijnlijk weet u inmiddels dat u waar mogelijk datagestuurde beslissingen op het werk moet nemen. Beseft u in ieder geval hoe u het grootste deel van de voor u toegankelijke informatie kunt doornemen? Gelukkig hoeft u waarschijnlijk niet zelf te rekenen (godzijdank!), maar u moet het onderzoek van uw partners wel goed begrijpen en vertalen.

Om deze strategie en de manier waarop organisaties deze gebruiken beter te begrijpen, sprak ik met Tom Redman, schrijver van Data Driven: Profiteren van uw belangrijkste bedrijfsmiddel. Hij roept bovendien associaties op met hun informatie- en informatiekwaliteitsprojecten.

Wat is regressieanalyse?

Redman biedt deze modelsituatie aan: Stel, u bent een projectbegeleider die probeert een maand te voorspellen vanaf de cijfers van nu. Je realiseert je dat handjevol, misschien zelfs veel componenten van het klimaat tot de doorstroming van een mededinger naar de roddel van een zo goed als ooit model het getal kunnen beïnvloeden. Misschien hebben individuen in jouw vereniging zelfs een hypothese over wat de grootste impact zal hebben op deals. “Vertrouw me. Hoe meer regen we hebben, hoe meer we verkopen.” “Zes weken na de promotie van de concurrent, de verkoopsprong.”

Regressie-analyse is een manier om wiskundig uit te zoeken welke van die variabelen inderdaad een impact hebben. Het beantwoordt de vragen: Welke factoren zijn het belangrijkst? Welke kunnen we negeren? Hoe werken die factoren op elkaar in? En, misschien wel het belangrijkste, hoe zeker zijn we van al deze factoren?

In de regressieanalyse worden die factoren variabelen genoemd.

Bij terugvalonderzoek worden die elementen factoren genoemd.  Je hebt je afhankelijke variabele – de belangrijkste factor die je probeert te begrijpen of te voorspellen. In Redman’s model over, is de afhankelijke variabele maand tot maand deals. En daarna heb je je autonome factoren – de elementen waarvan je denkt dat ze je afhankelijke variabele beïnvloeden.

Hoe werkt het?

Om een terugvalonderzoek te sturen, verzamel je de gegevens over de variabelen in kwestie. (Update: je hoeft dit waarschijnlijk niet te doen zonder hulp van iemand anders, maar toch is het nuttig voor je om de procedure te begrijpen die je informatiesamensteller gebruikt). Je neemt het grootste deel van je maand tot maand aanbiedingen voor, geeft aan, de afgelopen drie jaar en alle informatie over de gratis factoren waar je op gebrand bent. Dus, voor deze situatie, stel dat je de normale maand tot maand neerslag ontdekt voor zo ver terug als drie jaar ook. Op dat moment zet je het merendeel van die gegevens in op een grafiek die daarop lijkt:

De y-pivot is de maat van het aanbod (de afhankelijke variabele, het ding waar je op gebrand bent, is consequent op de y-hub) en de x-hub is de all out neerslag. Elke blauwe plek spreekt tot de informatie van een maand – de hoeveelheid die die maand is neergegoten en het aantal aanbiedingen dat je die equivalente maand hebt gedaan.

Als je naar deze informatie kijkt, merk je waarschijnlijk dat de aanbiedingen hoger zijn op dagen dat het een ton regent. Dat is fascinerend om te weten, maar met welk bedrag? Als het 3 centimeter regent, weet u dan hoeveel u zult verkopen? Wat als het 4 inch regent?

Op dit moment denk je dat het tekenen van een lijn door de grafiek over, een die loopt over het algemeen door het midden van het aanzienlijke aantal informatie richt zich. Deze lijn zal u in staat stellen om te antwoorden, met enige mate van overtuiging, het bedrag dat u normaal gesproken verkoopt als het regent een specifieke som.

Dit wordt de regressielijn genoemd en deze wordt getekend (met behulp van een statistiekprogramma zoals SPSS of STATA of zelfs Excel) om de lijn te laten zien die het beste bij de gegevens past. Verduidelijkt Redman als het ware: “De rode lijn is de beste verduidelijking van het verband tussen de autonome variabele en de stationsvariabele”.

Naast het tekenen van de lijn geeft je statistiekprogramma ook een formule uit die de helling van de lijn verklaart en er zo uit ziet:

Negeer de foutterm voor nu. Het verwijst naar het feit dat regressie niet perfect nauwkeurig is. Concentreer je gewoon op het model:

Negeer de foutterm voor nu. Het verwijst naar het feit dat regressie niet helemaal precies is. Concentreer je gewoon op het model:

Wat deze formule je vertelt is dat als er geen “x” is, dan is Y = 200. Op deze manier, verifieerbaar, toen het niet regende door een stuk van de verbeelding, je maakte een gemiddelde van 200 verkoop en je kunt hopen om het equivalent te doen gaan in de verwachting dat verschillende factoren blijven het equivalent. Ook, voordat, voor elke extra centimeter stortbui, maakte u een normale van vijf extra aanbiedingen. “Voor elke toevoeging die x gaat een, y gaat omhoog met vijf,” zegt Redman.

Op dit moment moeten we terugkomen op de foutterm. Je kunt geneigd zijn om te zeggen dat de stortbui grote invloed heeft op de deals als je voor elke centimeter vijf extra deals krijgt, maar of deze variabele je overweging verdient zal afhangen van de fouttermijn. Een regressielijn heeft altijd een foutterm omdat onafhankelijke variabelen in de praktijk nooit perfecte voorspellers zijn van de afhankelijke variabelen. Of misschien is de lijn wel een maatstaf die afhankelijk is van de toegankelijke informatie. De foutenterm geeft dus aan hoe zeker je van het recept kunt zijn. Hoe groter het is, hoe minder zeker de terugvallijn is.

Het bovenstaande model gebruikt slechts één enkele variabele om de factor van de intrige te voorzien – voor deze situatie is het een stortbui om te anticiperen op deals. Normaal gesproken begin je met een aregressieanalyse waarbij je het effect van een paar onafhankelijke variabelen moet begrijpen. U kunt dus zowel de stortbui als informatie over de voortgang van een mededinger opnemen. “Je blijft dit doen tot de fouttermijn klein is,” zegt Redman. “Je probeert de lijn te krijgen die het beste bij je informatie past.” Hoewel er gevaren kunnen zijn om te proberen een te groot aantal factoren in een terugvalonderzoek op te nemen, kunnen getalenteerde rechercheurs die gevaren beperken. Bovendien is het denken over het effect van verschillende factoren zonder een moment vertraging misschien wel het grootste beetje speelruimte voor een terugval.