En statistique descriptive, un box plot ou boxplot est une méthode permettant de représenter graphiquement des groupes de données numériques à travers leurs quartiles. Les box plots peuvent également comporter des lignes s’étendant verticalement à partir des boîtes (whiskers), indiquant une variabilité en dehors des quartiles supérieur et inférieur, d’où les termes de box-and-whisker plot et de diagramme en boîtes et whiskers. Les valeurs aberrantes peuvent être représentées sous forme de points individuels. Les diagrammes en boîtes sont non-paramétriques : ils montrent la variation des échantillons d’une population statistique sans faire d’hypothèses sur la distribution statistique sous-jacente (bien que le diagramme en boîtes de Tukey suppose une symétrie pour les moustaches et une normalité pour leur longueur). Les espaces entre les différentes parties de la boîte indiquent le degré de dispersion (étalement) et d’asymétrie des données, et montrent les valeurs aberrantes. En plus des points eux-mêmes, ils permettent d’estimer visuellement divers L-estimateurs, notamment l’écart interquartile, le milieu de fourchette, l’écart, le milieu de fourchette et le trimean. Les diagrammes en boîtes peuvent être tracés soit horizontalement, soit verticalement. Les Box plots ont reçu leur nom de la boîte du milieu.

Types

Figure 2. Boxplot avec moustaches du minimum au maximum

Figure 3. Même Boxplot avec des moustaches ayant un IQR de 1,5 maximum

La boîte et les moustaches représentent des quartiles, et la bande à l’intérieur de la boîte est toujours le deuxième quartile (la médiane). Mais l’extrémité des moustaches peut représenter plusieurs valeurs alternatives possibles, parmi lesquelles

le minimum et le maximum de toutes les données[1] (comme dans la figure 2)

la donnée la plus basse se situant toujours à 1,5 IQR du quartile inférieur, et la donnée la plus élevée se situant toujours à 1,5 IQR du quartile supérieur (souvent appelé le boxplot de Tukey) (comme dans la figure 3)

un écart-type au-dessus et au-dessous de la moyenne des données le 9e centile et le 91e centile le 2e centile et le 98e centile.

Toute donnée non comprise entre les moustaches doit être représentée par un point, un petit cercle ou une étoile, mais il arrive que cela ne soit pas fait.

Certains graphiques en boîte comprennent un caractère supplémentaire pour représenter la moyenne des données.

Sur certaines parcelles, une hachure est placée sur chaque moustache, avant l’extrémité de la moustache.

Rarement, les box plots peuvent être présentés sans aucune moustache.

En raison de cette variabilité, il convient de décrire la convention utilisée pour les moustaches et les aberrations dans la légende de la parcelle.

Les percentiles inhabituels 2 %, 9 %, 91 %, 98 % sont parfois utilisés pour les hachures croisées et les extrémités des moustaches pour montrer le résumé en sept chiffres. Si les données sont normalement distribuées, les emplacements des sept marques sur le diagramme en boîte seront espacés de manière égale.

Le type fondamental de l’étude de cas, utilisant un conteneur pour transmettre le go interquartile, a été présenté par Mary Eleanor Spear en 1952 [6] et à nouveau en 1969 [7].

Depuis que le mathématicien John W. Tukey a mis au point ce type de spectacle d’information visuelle en 1969, quelques écarts mineurs par rapport à la trame habituelle ont été dépeints. Deux des plus connus sont les box plots à largeur variable et les box plots à points (voir figure 4).

Des cases de largeur variable délimitent la taille de chaque collecte dont les informations sont tracées en faisant la largeur de la case par rapport à la taille de la collecte. Un spectacle classique consiste à faire la largeur du conteneur par rapport à la base carrée de la taille du groupe[1].

Les cases marquées d’un point appliquent un “retrait” ou un rétrécissement de l’affaire autour du milieu. Les notes sont utiles pour offrir un manuel désagréable de distinction des médianes ; si les indentations de deux cases ne couvrent pas, cela prouve un contraste critique mesurable entre les médianes[1]. La largeur des indentations correspond à l’extension interquartile (IQR) de l’exemple et inversement par rapport à la base carrée de la taille de l’exemple. Quoi qu’il en soit, il existe une vulnérabilité quant au multiplicateur le plus approprié (car celui-ci peut changer en fonction de la similitude des différences entre les exemples

 Une convention consiste à utiliser

Le graphique du conteneur permet une évaluation graphique rapide d’au moins un index informationnel. Les box plots peuvent sembler plus bruts qu’un histogramme ou qu’une jauge d’épaisseur de bit, mais ils présentent quelques points d’intérêt. Ils occupent moins de place et sont de ce fait particulièrement utiles pour examiner les diffusions entre quelques rassemblements ou ensembles d’informations (voir la figure 1 pour un modèle). La décision du nombre et de la largeur des systèmes de récipients peut avoir un impact intense sur la présence d’un histogramme, et la décision de la vitesse de transfert peut avoir un impact vigoureux sur la présence d’une jauge d’épaisseur de pièce.

Comme il est plus courant de jeter un coup d’œil à une dispersion mesurable qu’à un graphique de conteneur, la comparaison du graphique de cas avec le travail d’épaisseur de probabilité (histogramme hypothétique) pour une circulation N(0,σ2) ordinaire pourrait être un instrument précieux pour comprendre le graphique de cas (figure 5).