O que é a Regra Empírica?
Esta regra nas estatísticas sugere que todos os dados que pode observar se enquadrarão em três desvios padrão diferentes da média numa distribuição normal. Poderá também conhecer a regra empírica como a regra 68-95-99.7 ou regra de três sigma. De acordo com a regra, 68% dos dados cairão no primeiro desvio padrão, 95% cairão no primeiro e segundo desvio e 99,7% dos dados cairão em todos os três desvios:
68% – (µ ± σ),
95% – (µ ± 2σ)
99,7% – (µ ± 3σ)
Se tivermos uma distribuição normal dos dados num gráfico no eixo x, a curva do sino estará no centro. O primeiro desvio padrão inclui a metade positiva (µ + σ) e a metade negativa (µ – σ). Ambas as metades do primeiro desvio padrão serão colectivamente 68%, mas se considerarmos apenas a metade positiva, seria 34%, e a metade negativa seria a mesma. Da mesma forma, se considerarmos o segundo desvio padrão, podemos adicionar a metade positiva do primeiro e segundo desvio com o lado negativo de ambos os desvios, tornando-o 95% completo. O fenómeno será o mesmo também no terceiro desvio.
Distribuição Normal
Esta é provavelmente uma distribuição essencial das probabilidades nas estatísticas. Por exemplo, conjuntos de dados como frequência cardíaca, tensão arterial, altura e pontuação de QI formarão uma curva de sino de distribuição normal.
A simetria da Distribuição Normal
A distribuição normal é para variáveis contínuas. As variáveis contínuas têm valores infinitos. Elas incluem estes valores na distribuição. Uma distribuição normal ajuda a descrever a forma como se distribuem as variáveis. A maioria das variáveis, dados, ou observações agrupam-se ao centro numa distribuição normal, causando um pico. É por isso que a maioria das distribuições normais tem a forma de um sino.
Além disso, numa distribuição normal, a média, a mediana, e a moda são iguais. Há uma curva no centro, que é a média. Contudo, os valores da esquerda e da direita são iguais. Pode-se definir a distribuição normal pela média e pelo desvio padrão. Estes são os dois factores essenciais que afectam a curva. 68 percentagem da área cai sob um único desvio padrão da média.
Parâmetros de Distribuição Normal
Média
Podemos encontrar a média do conjunto de dados adicionando todos os valores e dividindo o total pelo número de valores.
Mediana
Quando se encomenda o conjunto de dados do mais baixo para o maior, o valor médio é a mediana.
Modo
O modo é aquele valor que aparece muito frequentemente no conjunto de dados.
Desvio padrão
O desvio padrão mede a amplitude dos valores dos dados. O símbolo do desvio padrão é sigma. O desvio-padrão é apenas a raiz quadrada das variações. Por exemplo, quando se mede a taxa anual do retorno do investimento, pode-se encontrar a volatilidade histórica do investimento. Esta abordagem é uma medida estatística ou desvio padrão.
Desvios
As variações também medem a generalização dos valores. No entanto, este termo refere-se a quão longe estão os números no conjunto de dados da média e outros números
Z-Scores
Z-score é uma representação numérica da relação entre a média de um grupo e o valor. Pode-se calcular o Z-score como desvios padrão com a ajuda da média. Quando a pontuação Z é igual a zero, a pontuação da média e a pontuação dos dados são iguais. A pontuação Z pode ser negativa e positiva. Se a pontuação Z for negativa, é abaixo da média, e se a pontuação Z for acima da média, é positiva.
Compreensão do conceito de68-95-99.7 Regra
A distribuição normal dos dados refere-se normalmente à regra 68-95-99.7. Pode-se encontrar 68% dos dados no primeiro desvio padrão, 95% dos dados no segundo desvio, e 99,7% dos dados no terceiro desvio da média.
Função Densidade de Probabilidade
Para descobrir a percentagem, deve saber o que significa a função de densidade de probabilidade ou PDF. Com a ajuda do PDF, pode especificar a probabilidade variável aleatória que se enquadra numa gama específica de valores, em vez de tomar qualquer valor diferente. Pode calcular a probabilidade retirando o integral do PDF da variável no intervalo. Isto significa que a área está na função de densidade, mas entre os valores mais altos e mais baixos e sobre o eixo horizontal da gama.
No primeiro desvio padrão, há 68% dos dados. Portanto, se se quiser encontrar a probabilidade de aterragem do ponto de dados aleatório no primeiro desvio padrão, é necessário calcular a média dos dados de -1 a 1 desvio padrão.
No segundo desvio-padrão, há 95% dos dados. Portanto, se quiser encontrar a probabilidade de aterragem do ponto de dados aleatório no segundo desvio padrão, precisa de calcular a média dos dados de -2 a 2 desvios padrão.
O terceiro desvio-padrão tem 99,7% dos dados. Assim, se quiser encontrar a probabilidade de aterragem do ponto de dados aleatório no terceiro desvio padrão, precisa de calcular a média dos dados de -3 a 3 desvios padrão.
Conclusão
Podemos obter rapidamente uma estimativa aproximada da probabilidade dos dados através da regra 68-95-99.7. Pode-se usar este método como um teste simples quando a população dos dados é normal. No entanto, se a população de dados não for normal, pode usar este método como um teste de normalidade.