Um gráfico de caixa ou um gráfico de caixa e whisker ajuda-o a exibir a distribuição da base de dados num resumo de cinco números. O primeiro quartil Q1 será o mínimo, o terceiro quartil Q3 será a mediana, e o quinto quartil Q5 será o máximo. Pode encontrar os outliers e os seus valores utilizando um gráfico de caixa. Pode também compreender se os seus dados são simétricos ou não, e apertados ou soltos, num grupo ou se tem dados enviesados.

O que é um gráfico de caixa?

O gráfico da caixa e do whisker inclui linhas e caixas para dividir os dados em diferentes grupos numéricos. 50% dos dados centrais virão à volta da linha central da caixa. Este valor é a mediana. As linhas irão capturar os dados restantes, estendendo-se a partir de cada caixa. As linhas pontilhadas que colocar em torno das bordas das linhas serão os outliers.

Alguns Termos Importantes que deve conhecer:

– Pontuação mínima

A pontuação mínima é a pontuação mais baixa e não inclui os valores aberrantes. Esta coluna encontra-se no final do apito da esquerda.

– Quartil inferior

No valor do quartil inferior, encontrará vinte e cinco por cento das pontuações. Este é o primeiro quartil.

– Mediana:

A mediana é o ponto médio dos dados. Representarse-á com uma linha, dividindo a caixa em duas metades. Também se pode chamar a isto o segundo quartil. Metade das pontuações são inferiores à mediana, e a outra metade é maior ou igual.

– Quartil Superior

Abaixo do valor superior ou do terceiro quartil, encontram-se setenta e cinco por cento dos dados. Os restantes dados, ou seja, 25% dos dados, permanecerão acima do valor.

– Pontuação máxima

Encontrará a pontuação mais alta no final do whisker direito. Esta secção não excluirá os outliers.

– Bigodes

Os 25% superiores e os 25% inferiores das pontuações representarão pontuações fora do centro 50%.

– O intervalo interquartílico (ou IQR)

A Interquartil Range da parcela da caixa mostrará os 50% médios. Esta faixa intermédia inclui dados de 25% a 75%.

Exemplo de Loteamento de Caixa: Encontrar o resumo dos cinco números

Aqui estão os pesos da amostra de 101010 caixas de passas de uva. A unidade de medida seria gramas. É necessário encontrar o resumo de cinco números destas caixas de passas de uva.
303030, 292929, 373737, 353535, 383838, 373737, 353535, 282828, 252525, 343434

Fazer um Plot de Caixa com os Dados

Passo 1

Organizar todos os pontos de dados, desde o mais pequeno ao maior. Por isso, podemos começar por organizar os dados:
252525, 282828, 292929, 303030, 343434, 353535, 353535, 373737, 373737, 383838

Passo 2

Agora, é preciso encontrar a mediana. Mantendo-a simples, a mediana é os dois números centrais. Assim, a nossa mediana nestes dados seria:
252525, 282828, 292929, 303030, “grande (34)3434”, “grande (35)3535”, 353535, 373737, 373737, 383838
\frac(30+34)(2)
=32+34 / 2 =32
Isto significa que a mediana seria 323232

Etapa 3

É preciso encontrar os quartis. Considerará o primeiro quartil como a mediana dos pontos de dados. Começará a partir da mediana da esquerda.
252525, 282828, \large(29)2929, 303030
Q_1 = 29
Q1 = 29Q
O subscrito inicial é 1, e o subscrito final será 29.
A mediana do ponto de dados é o terceiro quartil, e a posição será à direita da mediana.
343434, 353535, 353535, 353535, {37)3737, 373737, 383838
Q_3=37
Q3=37Q
O subscrito inicial é três, e o subscrito final será 37.

Passo 4

Agora, complete o resumo dos cinco números e encontre o valor máximo e mínimo da caixa.
O ponto de dados mais pequeno será o valor mínimo. No exemplo do gráfico da caixa acima, esse valor será 252525.
O ponto de dados mais extenso será o valor máximo. No gráfico da caixa acima, esse valor será 383838.
Daí que o resumo dos cinco números seja:
252525, 292929, 323232, 373737, 383838

Comparação entre a Caixa e Whisker Plot

Uma caixa e um gráfico de whisker permite visualizar as diferenças entre vários grupos e amostras. Pode receber informação estatística substancial comparando a caixa e o lote de whisker, tais como outliers, gamas, e medianas.

Passo 1: Comparação das medianas

É necessário comparar as medianas das caixas individuais. Se a linha mediana não estiver dentro da caixa, os dois grupos são diferentes.

Etapa 2: Comparação dos Bigodes e Interquartis de Lotes de Caixas

É necessário comparar os comprimentos das caixas dos intervalos interquartílicos. Desta forma, é possível analisar os dados e como estes se dispersam entre as amostras. A dispersão dos dados depende do comprimento da caixa. No outro extremo, a dispersão será limitada com um pequeno número de dados.
É necessário verificar a dispersão global entre dois bigodes, uma vez que indica valores extremos. Além disso, mostrará o intervalo de pontuações, que é outro tipo de dispersão. Quando os intervalos são extensos, descobre-se uma distribuição mais ampla. Isto dispersa ainda mais os dados.

Passo 3: Procura dos Outliers Potenciais

Ao realizar uma revisão da trama da caixa, considera-se o outlier como o ponto de dados. A localização deste ponto de dados será fora dos bigodes.

Passo 4: Procura de Sinais de Espécie

Agora é necessário procurar o aspecto dos dados. Verifique se é simétrico ou não. Percorrer cada amostra e encontrar o mesmo tipo de assimetria.

Conclusão

Com a ajuda de um boxplot, pode mostrar um resumo de cinco números no gráfico. O objectivo principal do gráfico é mostrar a parte do meio dos dados. Esta parte intermédia é o intervalo interquartil. Encontrará o primeiro quartil no final da caixa na marca de 25%, e na marca de 75%, encontrará o terceiro quartil.
Acrescentará o mínimo nas cinco regiões esquerdas do gráfico. Isto aparece no final no apito da esquerda. O mínimo é o menor número, enquanto o máximo, que se encontra na extrema direita, é o maior número. No centro da caixa, encontrará a mediana. É necessário olhar para a barra vertical para encontrar a mediana. Não utilizará muito a caixa e o whisker na vida real. No entanto, pode usar a ferramenta para encontrar um resumo rápido dos dados.