Coursera Learner working on a presentation with Coursera logo and

O que é a Regra Empírica?

Coursera Learner working on a presentation with Coursera logo and

Esta regra nas estatísticas sugere que todos os dados que pode observar se enquadrarão em três desvios padrão diferentes da média numa distribuição normal. Poderá também conhecer a regra empírica como a regra 68-95-99.7 ou regra de três sigma. De acordo com a regra, 68% dos dados cairão no primeiro desvio padrão, 95% cairão no primeiro e segundo desvio e 99,7% dos dados cairão em todos os três desvios:
68% – (µ ± σ),
95% – (µ ± 2σ)
99,7% – (µ ± 3σ)
Se tivermos uma distribuição normal dos dados num gráfico no eixo x, a curva do sino estará no centro. O primeiro desvio padrão inclui a metade positiva (µ + σ) e a metade negativa (µ – σ). Ambas as metades do primeiro desvio padrão serão colectivamente 68%, mas se considerarmos apenas a metade positiva, seria 34%, e a metade negativa seria a mesma. Da mesma forma, se considerarmos o segundo desvio padrão, podemos adicionar a metade positiva do primeiro e segundo desvio com o lado negativo de ambos os desvios, tornando-o 95% completo. O fenómeno será o mesmo também no terceiro desvio.

Distribuição Normal

Esta é provavelmente uma distribuição essencial das probabilidades nas estatísticas. Por exemplo, conjuntos de dados como frequência cardíaca, tensão arterial, altura e pontuação de QI formarão uma curva de sino de distribuição normal.

A simetria da Distribuição Normal

A distribuição normal é para variáveis contínuas. As variáveis contínuas têm valores infinitos. Elas incluem estes valores na distribuição. Uma distribuição normal ajuda a descrever a forma como se distribuem as variáveis. A maioria das variáveis, dados, ou observações agrupam-se ao centro numa distribuição normal, causando um pico. É por isso que a maioria das distribuições normais tem a forma de um sino.
Além disso, numa distribuição normal, a média, a mediana, e a moda são iguais. Há uma curva no centro, que é a média. Contudo, os valores da esquerda e da direita são iguais. Pode-se definir a distribuição normal pela média e pelo desvio padrão. Estes são os dois factores essenciais que afectam a curva. 68 percentagem da área cai sob um único desvio padrão da média.

Parâmetros de Distribuição Normal

Média

Podemos encontrar a média do conjunto de dados adicionando todos os valores e dividindo o total pelo número de valores.

Mediana

Quando se encomenda o conjunto de dados do mais baixo para o maior, o valor médio é a mediana.

Modo

O modo é aquele valor que aparece muito frequentemente no conjunto de dados.

Desvio padrão

O desvio padrão mede a amplitude dos valores dos dados. O símbolo do desvio padrão é sigma. O desvio-padrão é apenas a raiz quadrada das variações. Por exemplo, quando se mede a taxa anual do retorno do investimento, pode-se encontrar a volatilidade histórica do investimento. Esta abordagem é uma medida estatística ou desvio padrão.

Desvios

As variações também medem a generalização dos valores. No entanto, este termo refere-se a quão longe estão os números no conjunto de dados da média e outros números

Z-Scores

Z-score é uma representação numérica da relação entre a média de um grupo e o valor. Pode-se calcular o Z-score como desvios padrão com a ajuda da média. Quando a pontuação Z é igual a zero, a pontuação da média e a pontuação dos dados são iguais. A pontuação Z pode ser negativa e positiva. Se a pontuação Z for negativa, é abaixo da média, e se a pontuação Z for acima da média, é positiva.

Compreensão do conceito de68-95-99.7 Regra

A distribuição normal dos dados refere-se normalmente à regra 68-95-99.7. Pode-se encontrar 68% dos dados no primeiro desvio padrão, 95% dos dados no segundo desvio, e 99,7% dos dados no terceiro desvio da média.

Função Densidade de Probabilidade

Para descobrir a percentagem, deve saber o que significa a função de densidade de probabilidade ou PDF. Com a ajuda do PDF, pode especificar a probabilidade variável aleatória que se enquadra numa gama específica de valores, em vez de tomar qualquer valor diferente. Pode calcular a probabilidade retirando o integral do PDF da variável no intervalo. Isto significa que a área está na função de densidade, mas entre os valores mais altos e mais baixos e sobre o eixo horizontal da gama.

No primeiro desvio padrão, há 68% dos dados. Portanto, se se quiser encontrar a probabilidade de aterragem do ponto de dados aleatório no primeiro desvio padrão, é necessário calcular a média dos dados de -1 a 1 desvio padrão.

No segundo desvio-padrão, há 95% dos dados. Portanto, se quiser encontrar a probabilidade de aterragem do ponto de dados aleatório no segundo desvio padrão, precisa de calcular a média dos dados de -2 a 2 desvios padrão.

O terceiro desvio-padrão tem 99,7% dos dados. Assim, se quiser encontrar a probabilidade de aterragem do ponto de dados aleatório no terceiro desvio padrão, precisa de calcular a média dos dados de -3 a 3 desvios padrão.

Conclusão

Podemos obter rapidamente uma estimativa aproximada da probabilidade dos dados através da regra 68-95-99.7. Pode-se usar este método como um teste simples quando a população dos dados é normal. No entanto, se a população de dados não for normal, pode usar este método como um teste de normalidade.