Un box plot o box and whisker plot ti aiuta a visualizzare la distribuzione del database su un riepilogo di cinque numeri. Il primo quartile Q1 sarà il minimo, il terzo quartile Q3 sarà la mediana e il quinto quartile Q5 sarà il massimo. Puoi trovare i valori anomali e i loro valori usando un box plot. Puoi anche capire se i tuoi dati sono simmetrici o meno, e stretti o sciolti, in un gruppo o se hai dati distorti.
Cos’è un box plot?
Box and whisker plot include linee e caselle per dividere i dati in diversi gruppi numerici. Il 50% dei dati centrali si troverà intorno alla linea centrale del riquadro. Questo valore è la mediana. Le linee cattureranno i dati rimanenti estendendosi da ogni casella. Le linee tratteggiate che posizionate intorno ai bordi delle linee saranno i valori anomali.
Alcuni termini importanti da conoscere:
– Punteggio minimo
Il punteggio minimo è il punteggio più basso e non include i valori anomali. Questa colonna si trova alla fine del baffo sinistro.
– Quartile inferiore
Nel valore del quartile inferiore si trova il venticinque per cento dei punteggi. Questo è il primo quartile.
– Mediana
La mediana è il punto medio dei dati. La rappresenterai con una linea, dividendo la scatola in due metà. Puoi anche chiamarlo il secondo quartile. Metà dei punteggi sono inferiori alla mediana e metà sono maggiori o uguali.
– Quartile superiore
Sotto il valore del terzo quartile o superiore si trova il settantacinque per cento dei dati. I dati rimanenti, cioè il 25% dei dati, rimarranno al di sopra del valore.
– Punteggio massimo
Il punteggio massimo si trova alla fine del baffo destro. Questa sezione non escluderà gli outlier.
– Baffi
Il 25% superiore e il 25% inferiore dei punteggi rappresenteranno i punteggi al di fuori del 50% centrale.
– L’intervallo interquartile (o IQR)
L’Interquartile Range del box plot mostrerà il 50% centrale. Questo intervallo intermedio include i dati dal 25% al 75%.
Esempio di Box Plot: Trovare il riepilogo di cinque numeri
Ecco i pesi del campione di 101010 scatole di uva passa. L’unità di misura sarebbe grammi. Dovete trovare il sommario a cinque numeri di queste scatole di uva passa.
303030, 292929, 373737, 353535, 383838, 373737, 353535, 282828, 252525, 343434
Fare un Box Plot dei dati
Passo 1
Disporre tutti i punti di dati partendo dal più piccolo al più grande. Quindi possiamo iniziare disponendo i dati:
252525, 282828, 292929, 303030, 343434, 353535, 353535, 373737, 373737, 383838
Passo 2
Ora devi trovare la mediana. Mantenendola semplice, la mediana è i due numeri centrali. Quindi la nostra mediana in questi dati sarebbe:
252525, 282828, 292929, 303030, “grande (34)3434”, “grande (35)3535”, 353535, 373737, 373737, 383838
\dfrac(30+34)(2)
=32+34 / 2 =32
Questo significa che la mediana sarebbe 323232
Passo 3
Devi trovare i quartili. Considererai il primo quartile come la mediana dei punti dati. Inizierai dalla sinistra della mediana.
252525, 282828, \grande(29)2929, 303030
Q_1 = 29
Q1 = 29Q
Il pedice iniziale è 1, e il pedice finale sarà 29.
La mediana del punto dati è il terzo quartile, e la posizione sarà alla destra della mediana.
343434, 353535, 353535, \large(37)3737, 373737, 383838
Q_3=37
Q3=37Q
Il pedice iniziale è tre, e il pedice finale sarà 37.
Passo 4
Ora, completa il riepilogo di cinque numeri e trova il valore massimo e minimo della casella.
Il punto di dati più piccolo sarà il valore minimo. Nell’esempio del box plot di cui sopra, questo valore sarà 252525.
Il punto di dati più esteso sarà il valore massimo. Nel box plot di cui sopra, questo valore sarà 383838.
Quindi il riepilogo di cinque numeri è:
252525, 292929, 323232, 373737, 383838
Confronto del diagramma a scatola e baffi
Un box and whisker plot permette di visualizzare le differenze tra vari gruppi e campioni. È possibile ottenere informazioni statistiche sostanziali confrontando il diagramma a scatola e baffi, come i valori anomali, gli intervalli e le mediane.
Passo 1: Confronto delle mediane
È necessario confrontare le mediane delle singole caselle. Se la linea mediana non è all’interno della scatola, i due gruppi sono diversi.
Passo 2: Confrontare i baffi e gli intervalli interquartili dei grafici a scatola
Devi confrontare le lunghezze delle caselle degli intervalli interquartili. In questo modo, puoi analizzare i dati e come si disperdono tra i campioni. La dispersione dei dati dipende dalla lunghezza della scatola. Dall’altro lato, la dispersione sarà limitata con un piccolo numero di dati.
È necessario controllare la dispersione complessiva tra due baffi in quanto indica i valori estremi. Inoltre, mostrerà la gamma di punteggi, che è un altro tipo di dispersione. Quando le gamme sono estese, si scopre una distribuzione più ampia. Questo disperde ancora di più i dati.
Passo 3: Cercare i potenziali outlier
Quando si esegue un’analisi del box plot, si considera l’outlier come punto di dati. La posizione di questo punto dati sarà al di fuori dei baffi.
Passo 4: Cercare segni di asimmetria
Ora è necessario cercare l’aspetto dei dati. Controllate se sono simmetrici o no. Passare attraverso ogni campione e trovare lo stesso tipo di asimmetria.
Conclusione
Con l’aiuto di un boxplot, potete mostrare un riassunto di cinque numeri nel grafico. Lo scopo principale del grafico è quello di mostrare la parte centrale dei dati. Questa parte centrale è l’intervallo interquartile. Troverai il primo quartile alla fine del riquadro al 25%, e al 75% troverai il terzo quartile.
Aggiungerai il minimo alle cinque regioni di sinistra del grafico. Questo appare sul baffo sinistro alla fine. Il minimo è il numero più piccolo, mentre il massimo, che si trova all’estrema destra, è il numero più grande. Al centro del riquadro si trova la mediana. Devi guardare la barra verticale per trovare la mediana. Non userete molto il box and whisker plot nella vita reale. Tuttavia, puoi usare lo strumento per trovare un rapido riassunto dei dati.