Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Un gráfico de caja o un gráfico de caja y bigotes le ayudan a mostrar la distribución de la base de datos en un resumen de cinco números. El primer cuartil Q1 será el mínimo, el tercer cuartil Q3 será la mediana y el quinto cuartil Q5 será el máximo. Puede encontrar los valores atípicos y sus valores utilizando un gráfico de caja. También puede entender si sus datos son simétricos o no, y ajustados o flojos, en un grupo o si tiene datos sesgados.

¿Qué es un gráfico de caja?

El gráfico de cajas y bigotes incluye líneas y cajas para dividir los datos en diferentes grupos numéricos. El 50% de los datos centrales vendrán alrededor de la línea central de la caja. Este valor es la mediana. Las líneas capturarán los datos restantes extendiéndose desde cada caja. Las líneas punteadas que se colocan alrededor de los bordes de las líneas serán los valores atípicos.

Algunos términos importantes que debe conocer:

– Puntuación mínima

La puntuación mínima es la puntuación más baja y no incluye los valores atípicos. Esta columna se encuentra al final del bigote izquierdo.

– Cuartil inferior

En el valor del cuartil inferior se encuentra el veinticinco por ciento de las puntuaciones. Este es el primer cuartil.

– Mediana

La mediana es el punto medio de los datos. La representarás con una línea, dividiendo la caja en dos mitades. También puede llamarse segundo cuartil. La mitad de las puntuaciones son menores que la mediana, y la otra mitad son mayores o iguales.

– Cuartil superior

Por debajo del valor del cuartil superior o tercero se encuentra el setenta y cinco por ciento de los datos. El resto de los datos, es decir, el 25% de los datos, quedarán por encima del valor.

– Puntuación máxima

La puntuación máxima se encuentra al final del bigote derecho. Esta sección no excluirá los valores atípicos.

– Bigotes

El 25% superior y el 25% inferior de las puntuaciones representarán puntuaciones fuera del 50% central.

– El Rango Intercuartil (o IQR)

El rango intercuartil del gráfico de caja mostrará el 50% central. Este rango medio incluye los datos del 25% al 75%.

Ejemplo de diagrama de caja: Encontrar el resumen de cinco números

Aquí están los pesos de la muestra de 101010 cajas de pasas. La unidad de medida sería gramos. Necesitas encontrar el resumen de cinco números de estas cajas de pasas.
303030, 292929, 373737, 353535, 383838, 373737, 353535, 282828, 252525, 343434

Hacer un gráfico de cajas de los datos

Paso 1

Ordena todos los puntos de datos empezando por el más pequeño hasta el más grande. Podemos empezar por ordenar los datos:
252525, 282828, 292929, 303030, 343434, 353535, 353535, 373737, 373737, 383838

Segundo paso

Ahora tienes que encontrar la mediana. Simplificando, la mediana son los dos números del medio. Así que nuestra mediana en estos datos sería:
252525, 282828, 292929, 303030, “grande (34)3434”, “grande (35)3535”, 353535, 373737, 373737, 383838
\dfrac(30+34)(2)
=32+34 / 2 =32
Esto significa que la mediana sería 323232

Tercer paso

Tienes que encontrar los cuartiles. Considerarás el primer cuartil como la mediana de los puntos de datos. Empezarás por la izquierda de la mediana.
252525, 282828, \Ngrande(29)2929, 303030
Q_1 = 29
Q1 = 29Q
El subíndice inicial es 1, y el subíndice final será 29.
La mediana del punto de datos es el tercer cuartil, y la posición estará a la derecha de la mediana.
343434, 353535, 353535, \large(37)3737, 373737, 383838
Q_3=37
Q3=37Q
El subíndice inicial es tres, y el subíndice final será 37.

Paso 4

Ahora, completa el resumen de cinco números y encuentra el valor máximo y mínimo de la caja.
El punto de datos más pequeño será el valor mínimo. En el ejemplo de la gráfica de caja anterior, ese valor será 252525.
El punto de datos más extenso será el valor máximo. En el diagrama de caja anterior, ese valor será 383838.
Por lo tanto, el resumen de cinco números es:
252525, 292929, 323232, 373737, 383838

Comparación del gráfico de cajas y bigotes

Un gráfico de cajas y bigotes le permite visualizar las diferencias entre varios grupos y muestras. Puede recibir información estadística sustancial comparando la gráfica de caja y bigotes, como los valores atípicos, los rangos y las medianas.

Paso 1: Comparación de las medianas

Debe comparar las medianas de las cajas individuales. Si la línea de la mediana no está dentro de la caja, los dos grupos son diferentes.

Paso 2: Comparar los bigotes y los rangos intercuartílicos de los gráficos de caja

Debe comparar las longitudes de las cajas de los rangos intercuartílicos. De esta manera, puede analizar los datos y cómo se dispersan entre las muestras. La dispersión de los datos depende de la longitud de la caja. En el otro extremo, la dispersión será limitada con un número pequeño de datos.
Es necesario comprobar la dispersión global entre dos bigotes, ya que indica los valores extremos. Además, mostrará el rango de puntuaciones, que es otro tipo de dispersión. Cuando los rangos son extensos, se descubre una distribución más amplia. Esto dispersa aún más los datos.

Paso 3: Buscar los posibles valores atípicos

Cuando se realiza una revisión del diagrama de caja, se considera que el valor atípico es el punto de datos. La ubicación de este punto de datos estará fuera de los bigotes.

Paso 4: Buscar signos de asimetría

Ahora debe buscar la apariencia de los datos. Compruebe si son simétricos o no. Revise cada muestra y encuentre el mismo tipo de asimetría.

Conclusión

Con la ayuda de un boxplot, puedes mostrar un resumen de cinco números en el gráfico. El propósito principal del gráfico es mostrar la parte media de los datos. Esta parte media es el rango intercuartil. Encontrarás el primer cuartil al final del cuadro en la marca del 25%, y en la marca del 75%, encontrarás el tercer cuartil.
Añadirá el mínimo en las cinco regiones izquierdas del gráfico. Éste aparece en el bigote izquierdo del final. El mínimo es el número más pequeño, mientras que el máximo, que está en el extremo derecho, es el número más grande. En el centro del cuadro, se encuentra la mediana. Tienes que fijarte en la barra vertical para encontrar la mediana. El gráfico de caja y bigotes no se utiliza mucho en la vida real. Sin embargo, puedes utilizar la herramienta para encontrar un resumen rápido de los datos.