Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Un box plot ou un box and whisker plot vous aide à afficher la répartition de la base de données sur un résumé en cinq chiffres. Le premier quartile Q1 sera le minimum, le troisième quartile Q3 sera la médiane et le cinquième quartile Q5 sera le maximum. Vous pouvez trouver les valeurs aberrantes et leurs valeurs en utilisant un box plot. Vous pouvez également comprendre si vos données sont symétriques ou non, et serrées ou non, dans un groupe ou si vous avez des données biaisées.

Qu’est-ce qu’un box plot ?

Le box plot et le whisker plot comprennent des lignes et des cases pour diviser les données en différents groupes numériques. 50% des données centrales se trouvent autour de la ligne centrale de la boîte. Cette valeur est la médiane. Les lignes captureront les données restantes en s’étendant à partir de chaque boîte. Les lignes pointillées que vous placerez autour des bords de la ligne seront les valeurs aberrantes.

Quelques termes importants que vous devez connaître :

– Score minimum

Le score minimum est le score le plus bas et n’inclut pas les valeurs aberrantes. Cette colonne se trouve à la fin de la moustache gauche.

– Quartile inférieur

Dans le quartile inférieur, vous trouverez vingt-cinq pour cent des scores. C’est le premier quartile.

– Médiane

La médiane est le point médian des données. Vous la représenterez par une ligne, divisant la boîte en deux moitiés. Vous pouvez également appeler cela le deuxième quartile. Les demi-points sont inférieurs à la médiane, et les demi-points sont supérieurs ou égaux.

– Quartile supérieur

En dessous de la valeur du troisième quartile, soixante-quinze pour cent des données se trouvent. Les données restantes, c’est-à-dire 25 % des données, resteront au-dessus de la valeur.

– Score maximum

Vous trouverez le score le plus élevé au bout du poil droit. Cette section n’exclut pas les valeurs aberrantes.

– Moustaches

Les 25 % supérieurs et les 25 % inférieurs des notes représenteront les notes en dehors des 50 % du centre.

– L’écart interquartile (ou IQR)

L’écart interquartile du box plot indiquera les 50% du milieu. Cet intervalle intermédiaire comprend des données allant de 25 % à 75 %.

Exemple de Box Plot : Trouver le résumé à cinq chiffres

Voici les poids de l’échantillon de 101010 boîtes de raisins secs. L’unité de mesure serait le gramme. Vous devez trouver le résumé en cinq chiffres de ces boîtes de raisins secs.
303030, 292929, 373737, 353535, 383838, 373737, 353535, 282828, 252525, 343434

Faites un Box Plot des données

Étape 1

Disposez tous les points de données en commençant par le plus petit jusqu’au plus grand. Nous pouvons donc commencer par classer les données :
252525, 282828, 292929, 303030, 343434, 353535, 353535, 373737, 373737, 383838

Étape 2

Maintenant, vous devez trouver la médiane. Pour faire simple, la médiane est constituée des deux chiffres du milieu. Donc notre médiane dans ces données serait :
252525, 282828, 292929, 303030, “grand (34)3434”, “grand (35)3535”, 353535, 373737, 373737, 383838
\dfrac(30+34)(2)
=32+34 / 2 =32
Cela signifie que la médiane serait de 323232

Étape 3

Vous devez trouver les quartiles. Vous considérerez le premier quartile comme la médiane des points de données. Vous commencerez par la gauche de la médiane.
252525, 282828, \large(29)2929, 303030
Q_1 = 29
Q1 = 29Q
L’indice de départ est 1, et l’indice final sera 29.
La médiane du point de données est le troisième quartile, et la position sera à droite de la médiane.
343434, 353535, 353535, \large(37)3737, 373737, 383838
Q_3=37
Q3=37Q
L’indice de départ est de trois, et l’indice final sera de 37.

Étape 4

Maintenant, complétez le résumé en cinq chiffres et trouvez la valeur maximale et minimale de la case.
Le plus petit point de données sera la valeur minimale. Dans l’exemple de box plot ci-dessus, cette valeur sera 252525.
Le point de données le plus étendu sera la valeur maximale. Dans l’exemple de box plot ci-dessus, cette valeur sera 383838.
Le résumé en cinq chiffres est donc le suivant :
252525, 292929, 323232, 373737, 383838

Comparaison entre le Box et le Whisker Plot

Un diagramme en boîtes et en moustaches vous permet de visualiser les différences entre les différents groupes et échantillons. Vous pouvez obtenir des informations statistiques substantielles en comparant le box and whisker plot, telles que les valeurs aberrantes, les fourchettes et les médianes.

Étape 1 : Comparaison des médianes

Vous devez comparer les médianes des différentes cases. Si la ligne médiane n’est pas à l’intérieur de la case, les deux groupes sont différents.

Étape 2 : Comparaison des moustaches et des intervalles interquartiles des carrés

Vous devez comparer les longueurs des cases des intervalles interquartiles. De cette façon, vous pouvez analyser les données et la façon dont elles se dispersent entre les échantillons. La dispersion des données dépend de la longueur de la boîte. A l’inverse, la dispersion sera limitée avec un petit nombre de données.
Vous devez vérifier la dispersion globale entre deux moustaches car elle indique des valeurs extrêmes. En outre, il indiquera la fourchette des scores, ce qui est un autre type de dispersion. Lorsque les fourchettes sont étendues, vous découvrez une distribution plus large. Cela permet de disperser encore plus les données.

Étape 3 : Recherche des valeurs aberrantes potentielles

Lorsque vous effectuez un examen de box plot, vous considérez la valeur aberrante comme le point de données. L’emplacement de ce point de données sera à l’extérieur des moustaches.

Étape 4 : Rechercher des signes d’asymétrie

Vous devez maintenant rechercher l’apparence des données. Vérifiez si elle est symétrique ou non. Passez en revue chaque échantillon et trouvez le même type d’asymétrie.

Conclusion

À l’aide d’un boxplot, vous pouvez afficher un résumé en cinq chiffres dans le tableau. L’objectif principal du graphique est de montrer la partie centrale des données. Cette partie centrale est l’écart interquartile. Vous trouverez le premier quartile à la fin de la boîte à la marque de 25%, et à la marque de 75%, vous trouverez le troisième quartile.
Vous ajouterez le minimum aux cinq régions de gauche du tableau. Cela apparaît sur la moustache gauche à la fin. Le minimum est le chiffre le plus petit, tandis que le maximum, qui se trouve à l’extrême droite, est le chiffre le plus grand. Au centre de la boîte, vous trouverez la médiane. Vous devez regarder la barre verticale pour trouver la médiane. Vous n’utiliserez pas beaucoup la boîte et le diagramme à moustaches dans la vie réelle. Néanmoins, vous pouvez utiliser l’outil pour trouver un résumé rapide des données.

 

Langages

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.