Você provavelmente já sabe que, sempre que possível, você deve estar tomando decisões sobre dados no trabalho. Em qualquer caso, você sabe como analisar a maioria das informações acessíveis a você? Felizmente você provavelmente não precisa fazer o cálculo sozinho (graças a Deus!), mas precisa compreender e traduzir eficazmente o exame feito pelos seus parceiros.

Para compreender mais facilmente esta estratégia e como as organizações a utilizam, conversei com Tom Redman, escritor de Data Driven: Lucrar com o seu activo empresarial mais importante. Além disso, ele solicita às associações informações e projetos de qualidade de informação sobre eles.

O que é a análise de regressão?

Redman oferece esta situação modelo: Suponha que é um supervisor de projecto a tentar prever os números daqui a um mês. Você percebe que poucos, talvez até muitos componentes do clima para o avanço de um concorrente para a fofoca de um modelo tão bom quanto sempre pode afetar o número. Talvez os indivíduos da sua associação tenham até uma hipótese sobre o que terá o maior impacto nos negócios. “Confie em mim. Quanto mais chuva tivermos, mais vendemos.” “Seis semanas após a promoção do concorrente, as vendas saltam.”

A análise de regressão é uma forma de classificar matematicamente quais dessas variáveis têm de facto um impacto. Ela responde às perguntas: Que factores são mais importantes? Quais podemos ignorar? Como é que esses factores interagem uns com os outros? E, talvez o mais importante, o quão certos estamos sobre todos esses fatores?

Na análise de regressão, esses fatores são chamados de variáveis.

No exame de recidiva, esses elementos são chamados de fatores. Você tem a sua variável dependente – o principal fator que você está tentando entender ou prever. No modelo de Redman acabou, a variável dependente é o negócio de mês a mês. E depois disso, você tem seus fatores autônomos – os elementos que você acha que afetam sua variável dependente.

Como é que funciona?

Para dirigir uma investigação de recidiva, você monta os dados sobre as variáveis em questão. (Atualização: você provavelmente não precisa fazer isso sem a ajuda de ninguém, mas é útil para você compreender o procedimento que seu associado examinador de informação usa). Você tira a maioria dos números dos seus negócios mensais para, declarar, os três anos anteriores e qualquer informação sobre os fatores gratuitos que você está interessado. Assim, para esta situação, suponha que você descobre a precipitação normal de um mês para o outro também já há três anos. Nesse momento, você traça a maioria desses dados em um gráfico que se assemelha a este:

O y-pivot é a medida das ofertas (a variável dependente, a coisa que você está interessado, é consistentemente no y-hub) e o x-hub é a precipitação total fora. Cada mancha azul fala com a informação de um mês – a quantidade que desceu nesse mês e o número de ofertas que você fez nesse mês equivalente.

Olhando para esta informação, você provavelmente notará que os negócios são mais altos nos dias em que chove uma tonelada. Isso é fascinante de se saber, no entanto, em que quantidade? Se chover 3 polegadas, você sabe quanto você vai vender? E se chover 4 polegadas?

Actualmente, prevê-se desenhar uma linha através do gráfico, uma linha que passa geralmente pelo centro do considerável número de focos de informação. Esta linha permitir-lhe-á responder, com algum nível de convicção, à quantidade que normalmente vende quando chove uma determinada soma.

Esta é chamada linha de regressão e é desenhada (usando um programa de estatística como SPSS ou STATA ou mesmo Excel) para mostrar a linha que melhor se adapta aos dados. Por assim dizer, esclarece Redman, “A linha vermelha é o melhor esclarecimento da conexão entre a variável autônoma e a variável de ala”.

Além de desenhar a linha, seu programa de estatísticas também produz uma fórmula que explica a inclinação da linha e se parece com isto:

Ignora o termo de erro, por agora. Refere-se ao facto de que a regressão não é perfeitamente precisa. Concentra-te apenas no modelo:

Ignora o termo de erro, por agora. Refere-se ao facto de que a regressão não é perfeitamente precisa. Concentra-te apenas no modelo:

O que esta fórmula lhe está dizendo é que se não há “x” então Y = 200. Desta forma, verificávelmente, quando não choveu por qualquer parte da imaginação, você fez uma média de 200 vendas e você pode esperar fazer o equivalente indo em frente, esperando que fatores diferentes permaneçam o equivalente. Além disso, antes, para cada centímetro extra de chuva, você fez um normal de cinco negócios adicionais. “Para cada adição que x sobe um, y sobe por cinco”, diz Redman.

Neste momento, devemos voltar ao termo de erro. Você pode ser seduzido a afirmar que a chuva forte afeta muito as ofertas se, para cada polegada, você receber cinco ofertas adicionais, mas se esta variável merece sua consideração dependerá do termo de erro. Uma linha de regressão tem sempre um termo de erro porque, na vida real, variáveis independentes nunca são preditoras perfeitas das variáveis dependentes. Ou talvez a linha seja um indicador dependente da informação acessível. Portanto, o termo de erro revela o quão certo você pode estar sobre a receita. Quanto maior for, menos certa é a linha de recidiva.

O modelo acima usa apenas uma única variável para prever o fator de intriga – para que esta situação desça para antecipar negócios. Normalmente você começa uma análise de agressão, precisando compreender o efeito de algumas variáveis independentes. Assim, você pode incorporar o downpour, bem como informações sobre o avanço de um contendor. “Você continua fazendo isso até que o termo de erro seja pouco”, diz Redman. “Você está a tentar obter a linha que melhor se encaixa com a sua informação.” Enquanto pode haver perigos em tentar incorporar um número excessivo de fatores numa investigação de recaída, investigadores talentosos podem limitar esses perigos. Além disso, pensar no efeito de vários fatores sem um momento de atraso é talvez a maior margem de manobra para uma recaída.