Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Nelle statistiche descrittive, un box plot o boxplot è un metodo per rappresentare graficamente gruppi di dati numerici attraverso i loro quartili. I box plot possono anche avere linee che si estendono verticalmente dai box (baffi) che indicano la variabilità al di fuori dei quartili superiori e inferiori, da cui i termini box-and-whisker plot e box-and-whisker diagram. Gli outlier possono essere tracciati come punti individuali. I box plot non sono parametrici: essi mostrano la variazione di campioni di una popolazione statistica senza fare alcuna ipotesi sulla distribuzione statistica sottostante (anche se il boxplot di Tukey assume la simmetria per i baffi e la normalità per la loro lunghezza). Le spaziature tra le diverse parti del riquadro indicano il grado di dispersione (diffusione) e di asimmetria nei dati, e mostrano i valori anomali. Oltre ai punti stessi, permettono di stimare visivamente vari L-estimatori, in particolare l’intervallo interquartile, midhinge, range, mid-range e trimeo. I diagrammi a scatola possono essere disegnati sia orizzontalmente che verticalmente. I box plot hanno ricevuto il loro nome dal box al centro.

Tipi

Figura 2. Boxplot con baffi da minimo a massimo

Figura 3. Stesso Boxplot con baffi con un massimo di 1,5 IQR

Box e baffi tracciano quartili, e la banda all’interno della scatola è sempre il secondo quartile (la mediana). Ma le estremità dei baffi possono rappresentare diversi possibili valori alternativi, tra questi:

il minimo e il massimo di tutti i dati[1] (come in figura 2)

il dato più basso ancora entro 1.5 IQR del quartile inferiore, e il dato più alto ancora entro 1.5 IQR del quartile superiore (spesso chiamato Tukey boxplot) (come in figura 3)

una deviazione standard al di sopra e al di sotto della media dei dati il 9° percentile e il 91° percentile il 2° e il 98° percentile.

Tutti i dati non inclusi tra i baffi dovrebbero essere tracciati come un outlier con un punto, un piccolo cerchio o una stella, ma occasionalmente questo non viene fatto.

Alcuni box plot includono un carattere aggiuntivo per rappresentare la media dei dati.

Su alcune trame di scatole viene posto un tratteggio trasversale su ogni baffo, prima della fine del baffo.

Raramente, le trame delle scatole possono essere presentate senza baffi.

A causa di questa variabilità, è opportuno descrivere la convenzione utilizzata per i baffi e gli outlier nella didascalia della trama.

Gli insoliti percentili 2%, 9%, 91%, 98% sono talvolta utilizzati per i baffi incrociati e le estremità dei baffi per mostrare il riepilogo dei sette numeri. Se i dati sono normalmente distribuiti, le posizioni dei sette segni sul grafico della scatola saranno equamente distanziate.

Il tipo fondamentale della trama del caso, che utilizza un contenitore per passare sul go interquartile, è stato presentato da Mary Eleanor Spear nel 1952[6] e di nuovo nel 1969[7].

Da quando, nel 1969, il matematico John W. Tukey ha avanzato questa sorta di mostra di informazioni visive, sono state ritratte alcune piccole differenze rispetto alla consueta trama a scatola. Due dei più riconosciuti sono i box plot a larghezza variabile e i box plot a punteggio (vedi Figura 4).

I riquadri a larghezza variabile delineano la dimensione di ogni raccolta le cui informazioni vengono tracciate rendendo la larghezza del caso relativa alla dimensione della raccolta. Uno spettacolo mainstream è quello di fare la larghezza del contenitore in relazione alla base quadrata della dimensione del gruppo.[1]

Le trame a scatola segnata applicano un “trattino” o un restringimento del caso intorno al centro. I punteggi sono utili per offrire un manuale sgradevole per la distinzione delle mediane; se i trattini di due riquadri non coprono, questo offre la prova di un contrasto misurabilmente critico tra le mediane.[1] L’ampiezza dei trattini corrisponde all’estensione interquartile (IQR) dell’esempio e viceversa rispetto alla base quadrata delle dimensioni dell’esempio. Sia come sia, c’è una vulnerabilità sul moltiplicatore più appropriato (poiché questo può cambiare a seconda della somiglianza delle differenze degli esempi

 Una convenzione è quella di utilizzare

La trama del container permette una valutazione grafica rapida di almeno un indice informativo. I box plot possono sembrare più grezzi di un istogramma o di uno spessimetro a bit, tuttavia hanno alcuni punti di interesse. Occupano meno spazio e sono, in questo senso, particolarmente utili per esaminare le disseminazioni tra pochi raduni o insiemi di informazioni (vedi Figura 1 per un modello). La decisione del numero e della larghezza dei sistemi di contenitori può avere un forte impatto sulla presenza di un istogramma, e la decisione della velocità di trasferimento può avere un forte impatto sulla presenza di un misuratore di spessore del pezzo.

Poiché dare un’occhiata ad una dispersione misurabile è più tipico che dare un’occhiata ad un diagramma di un contenitore, il contrasto del diagramma di cassa con il lavoro di spessore della probabilità (istogramma ipotetico) per una circolazione ordinaria di N(0,σ2) potrebbe essere un valido strumento per comprendere il diagramma di cassa (Figura 5).