K-means Clustering (K-medias) es una forma de aprendizaje no supervisado. Los científicos de datos lo usan cuando tienen montones de datos sin etiquetar (cualquier información sin grupos o categorías definidos). K significa que el objetivo de la agrupación es buscar datos para varios grupos. La variable alfabética “K” debe representar a cada grupo. Contrariamente a varios algoritmos, ésta trabaja repetidamente para asignar cada punto de datos a un grupo K, considerando las características de que dispone.

Los puntos de datos se agrupan en función de la similitud de sus características. He aquí algunos resultados del algoritmo de agrupación de medios K:

  • Puedes usar el centro de los grupos K para etiquetar los nuevos datos.
  • Cada cúmulo tiene asignadas las etiquetas de datos de entrenamiento.

En lugar de definir los grupos antes de estudiar los datos, este algoritmo le permite buscar y comprender los grupos formados orgánicamente. Encontrará una sección titulada “Selección de K” en este artículo. En ella se describe cómo se puede determinar el número de grupos.

El centroide de cada grupo es una colección de valores que definen los grupos resultantes. Analizar la característica del centroide puede ayudar a interpretar el tipo de grupo representado por cada cúmulo.

Usos comerciales de K-means Clustering

Los científicos de datos utilizan el algoritmo de agrupación de medios K para identificar los grupos que carecen de etiquetas de datos. El procedimiento ayuda a confirmar varios supuestos relacionados con los tipos de grupos existentes. También se puede utilizar para descubrir grupos desconocidos a partir de conjuntos de datos elaborados. Una vez que el algoritmo completa su proceso y define el grupo, puede asignar fácilmente nuevos datos a su respectivo grupo. K significa que la agrupación es un algoritmo muy versátil que ayuda con prácticamente todos los tipos de agrupación. A continuación se presentan algunos ejemplos:

Detección de anomalías o bots

  • Separar los bots de los grupos de actividades útiles
  • El algoritmo ayuda a eliminar la detección de valores atípicos a través de la actividad válida de grupo

Clasificación de las mediciones de los sensores

  • Detección de fotos de grupo
  • Identificación de los grupos de vigilancia de la salud
  • Separar el audio
  • Detección de varias actividades en los sensores de movimiento

Categorización del inventario

  • Inventario de grupo con métricas de fabricación
  • Inventario del grupo con actividad de ventas

Segmentación del comportamiento

  • Definición de personas basadas en intereses
  • Creación de perfiles basados en la supervisión de actividades
  • Segmentar con utilizando el historial de compras
  • Crear segmentos juzgando las actividades en plataformas, sitios web y aplicaciones

Comprensión del algoritmo

K significa que el algoritmo de agrupación produce resultados finales utilizando técnicas de refinamiento iterativas. El conjunto de datos y el número de cúmulos son las entradas del algoritmo. Además, el conjunto de datos es un grupo de características para cada punto de datos. Como ya se ha dicho, el algoritmo comienza con las estimaciones iniciales del centroide K. Pueden ser seleccionadas al azar o generadas al azar a partir del conjunto. Luego el algoritmo repite los siguientes pasos.

Paso de asignación de datos

Cada centroide determina un grupo. En este procedimiento, cada punto de datos se asigna a su centroide más cercano encajado en su distancia euclidiana.

Paso de actualización del centroide

El algoritmo recompone los centroides en este paso. Lo hace recogiendo la media de cada punto de datos asignado al cúmulo del centroide.

El algoritmo repite los pasos uno y dos hasta que cumple un criterio de parada. La K significa que los algoritmos de agrupación garantizan resultados precisos. Sin embargo, el resultado obtenido a veces puede no ser el más deseable. Analizar múltiples algoritmos con centros de partida aleatorios podría proporcionar un mejor resultado.

Seleccionando K

K significa que el propósito principal de la agrupación es encontrar etiquetas de conjuntos de datos y agrupaciones para Ks específicas preescogidas. Por lo tanto, los usuarios deben ejecutar este algoritmo para una amplia variedad de valores de K y analizar cada resultado lado a lado para determinar el número de clusters de datos. No hay un método particular para determinar el valor exacto de Ks. Sin embargo, todavía se pueden obtener estimaciones precisas utilizando las técnicas mencionadas a continuación.
Una métrica popular comúnmente utilizada para comparar los resultados a través de numerosos valores K es la distancia media en el centro del centroide del cúmulo y sus puntos de datos. Dado que el aumento de cúmulos minimizará la distancia entre los puntos de datos, el aumento del número de cúmulos reducirá la distancia de los puntos de datos cada vez. Expandir K disminuirá la métrica y podría hacerla tan baja como cero siempre que K sea similar a la cantidad de puntos de datos.

Por lo tanto, no puedes usar esta métrica como un solo objetivo. Alternativamente, puedes trazar la distancia media del centroide como la función de K, donde la tasa de disminución cambia bruscamente. Esto podría proporcionarle una respuesta aproximada a K. Muchas otras técnicas podrían ayudarle a validar K. Aquí hay una lista de algunos métodos populares usados por experimentados científicos de datos.

  • Algoritmo de la media G
  • El método de la silueta
  • Método de información de salto teórico
  • Criterios de información
  • Método de validación cruzada

Además, la observación de la distribución de los puntos de datos en varios grupos ofrece una valiosa información sobre cómo el algoritmo divide los datos para Ks.

El papel de la ingeniería de características en la agrupación de K-means Clustering

La ingeniería de características es un proceso en el que se utiliza el conocimiento del dominio para seleccionar métricas de datos precisas. La gente utiliza la ingeniería de características para determinar las métricas correctas que deben figurar en sus algoritmos de aprendizaje de la máquina. Sería justo afirmar que este tipo de ingeniería juega un papel crítico en el algoritmo de agrupación de medios K. Le ayuda a distinguir conjuntos que ocurren naturalmente con poca o ninguna molestia.

Los datos categóricos como los tipos de navegador, los países, el género deben ser separados o codificados de manera que se combinen bien con el algoritmo. Las transformaciones de características son especialmente útiles para representar tasas en lugar de mediciones. Es muy útil para normalizar los datos.

K significa agrupar aplicaciones del mundo real

K significa que la agrupación se está haciendo cada vez más popular en varias industrias. Aquí hay algunas aplicaciones populares en el mundo real de este revolucionario algoritmo.


Motores de recomendación

La agrupación es muy beneficiosa para los motores de recomendación. Puedes aprovechar este algoritmo y recomendar canciones o películas a tus amigos en función de sus preferencias.

Segmentación de imágenes

K significa que la agrupación es excelente para segmentar las fotos. Los programas de ilustración y edición pueden beneficiarse de los atributos de segmentación de imágenes de este algoritmo.

Agrupación de documentos

La agrupación puede ayudar a agrupar numerosos documentos en poco o nada de tiempo. Es particularmente útil para las personas que poseen varios documentos que contienen diferentes piezas de información.

Segmentación de clientes

Numerosas industrias utilizan las cualidades de segmentación de clientes de los medios K para racionalizar sus procesos. Las ventas, la publicidad, los deportes, el comercio electrónico, la banca y las telecomunicaciones son algunos de los campos que aprovechan este algoritmo.