Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

En la estadística descriptiva, un box plot o gráfico de cajas es un método para representar gráficamente grupos de datos numéricos a través de sus cuartiles. Los gráficos de cajas también pueden tener líneas que se extiendan verticalmente desde las cajas (bigotes) indicando la variabilidad fuera de los cuartiles superiores e inferiores, de ahí los términos gráfico de caja y bigotes y diagrama de caja y bigotes. Los valores atípicos pueden ser trazados como puntos individuales. Los diagramas de caja no son paramétricos: muestran la variación de las muestras de una población estadística sin hacer ninguna suposición de la distribución estadística subyacente (aunque el diagrama de caja de Tukey asume la simetría para los bigotes y la normalidad para su longitud). Los espacios entre las diferentes partes del cuadro indican el grado de dispersión (propagación) y el sesgo de los datos, y muestran los valores atípicos. Además de los puntos en sí, permiten estimar visualmente varios estimadores L, en particular el rango intercuartílico, el rango medio, el rango medio y el trimeano. Los cuadros pueden ser dibujados horizontal o verticalmente. Las parcelas de las cajas recibieron su nombre de la caja del medio.

Tipos

Figura 2. Boxplot con bigotes de mínimo a máximo

Figura 3. El mismo Boxplot con bigotes con un máximo de 1.5 IQR

La caja y el bigote trazan cuartiles, y la banda dentro de la caja es siempre el segundo cuartil (la mediana). Pero los extremos de los bigotes pueden representar varios valores alternativos posibles, entre ellos:

el mínimo y el máximo de todos los datos[1] (como en la figura 2)

el dato más bajo todavía dentro de 1,5 IQR del cuartil inferior, y el dato más alto todavía dentro de 1,5 IQR del cuartil superior (a menudo llamado el boxplot de Tukey) (como en la figura 3)

una desviación estándar por encima y por debajo de la media de los datos el percentil 9 y el percentil 91 el percentil 2 y el percentil 98.

Cualquier dato no incluido entre los bigotes debe ser trazado como un atípico con un punto, un círculo pequeño o una estrella, pero ocasionalmente esto no se hace.

Algunos gráficos de recuadro incluyen un carácter adicional para representar la media de los datos.

En algunas parcelas de cajas, se coloca un sombreado cruzado en cada bigote, antes del final del bigote.

Rara vez, las parcelas de las cajas se pueden presentar sin ningún tipo de bigotes.

Debido a esta variabilidad, es apropiado describir la convención que se utiliza para los bigotes y los valores atípicos en la leyenda de la trama.

Los inusuales percentiles 2%, 9%, 91%, 98% se utilizan a veces para los cruces de bigote y los extremos de bigote para mostrar el resumen de siete números. Si los datos se distribuyen normalmente, las ubicaciones de las siete marcas en la gráfica de la caja estarán igualmente espaciadas.

El tipo fundamental de la trama del caso, utilizando un contenedor para pasar el intercuartil, fue presentado por Mary Eleanor Spear en 1952[6] y nuevamente en 1969[7].

Desde que el matemático John W. Tukey avanzó este tipo de espectáculo de información visual en 1969, se han retratado algunas pequeñas desviaciones de la trama habitual de las cajas. Dos de las más reconocidas son las parcelas de caja de anchura variable y las parcelas de caja de puntuación (véase la figura 4).

Los gráficos de caja de ancho variable delinean el tamaño de cada recopilación cuya información se está trazando haciendo el ancho de la caja en relación con el tamaño de la recopilación. Un espectáculo principal es hacer el ancho del contenedor relativo a la base cuadrada del tamaño del grupo.[1]

Los cuadros marcados aplican un “sangrado” o estrechamiento del caso alrededor del medio. Las puntuaciones son útiles para ofrecer un desagradable manual de distinción de las medianas; si los sangrados de dos cajas no cubren, esto ofrece la prueba de un contraste crítico mensurable entre las medianas[1]. La anchura de los sangrados corresponde a la extensión intercuartil (IQR) del ejemplo e inversamente a la base cuadrada del tamaño del ejemplo. Sea como fuere, existe una vulnerabilidad en cuanto al multiplicador más adecuado (ya que esto puede cambiar en función de la similitud de las diferencias de los ejemplos

 Una convención es usar

El diagrama del contenedor permite una evaluación gráfica rápida de al menos un índice de información. Los gráficos de cajas pueden parecer más crudos que un histograma o un medidor de espesor de bits, pero tienen algunos puntos de interés. Ocupan menos espacio y, en este sentido, son especialmente valiosas para examinar las divulgaciones entre unas pocas reuniones o conjuntos de información (véase la figura 1 para un modelo). La decisión sobre el número y la anchura de los sistemas de receptáculos puede influir intensamente en la presencia de un histograma, y la decisión sobre la velocidad de transferencia puede influir vigorosamente en la presencia de un medidor de espesor de la pieza.

Dado que echar un vistazo a una dispersión medible es más típico que echar un vistazo a un diagrama de un contenedor, contrastar el diagrama de casos con el trabajo de espesor de probabilidad (histograma hipotético) para una circulación ordinaria de N(0,σ2) podría ser un instrumento valioso para comprender el diagrama de casos (Figura 5).

Languages

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.