K-means Clustering est une forme d’apprentissage non supervisé. Les scientifiques l’utilisent lorsqu’ils disposent d’un grand nombre de données non étiquetées (toute information sans groupes ou catégories définis.) K signifie que le but du regroupement est de rechercher des données pour différents groupes. La variable alphabétique “K” doit représenter chaque groupe. Contrairement à plusieurs algorithmes, celui-ci travaille de manière répétitive pour attribuer chaque point de données à un groupe K tout en considérant les caractéristiques dont il dispose.

Les points de données sont regroupés en fonction de la similarité de leurs caractéristiques. Voici quelques résultats de l’algorithme de regroupement des moyens K :

  • Vous pouvez utiliser le centre des K groupes pour étiqueter de nouvelles données.
  • Les étiquettes de données d’entraînement sont attribuées à chaque grappe.

Au lieu de définir des groupes avant d’étudier les données, cet algorithme vous permet de rechercher et de comprendre les groupes formés organiquement. Vous trouverez une section intitulée “Sélectionner K” dans cet article. Elle décrit comment vous pouvez déterminer le nombre de groupes.

Le centroïde de chaque groupe est un ensemble de valeurs définissant les groupes résultants. L’analyse de la caractéristique du centroïde peut aider à interpréter le type de groupe représenté par chaque grappe.

Les utilisations commerciales de K-means Clustering

Les spécialistes des données utilisent l’algorithme de regroupement K pour identifier les groupes qui manquent d’étiquettes de données. La procédure permet de confirmer diverses hypothèses liées aux entreprises concernant les types de groupes existants. Vous pouvez également l’utiliser pour découvrir des groupes inconnus à partir d’ensembles de données élaborés. Une fois que l’algorithme a terminé son processus et défini le groupe, vous pouvez facilement attribuer de nouvelles données à son groupe respectif. K signifie que le regroupement est un algorithme très polyvalent qui permet de s’adapter à pratiquement tous les types de groupes. Voici quelques exemples :

Repérage des anomalies ou des bots

  • Séparer les bots des groupes d’activités utiles
  • L’algorithme permet d’éliminer la détection des valeurs aberrantes grâce à une activité de groupe valide

Classifier les mesures des capteurs

  • Détection des photos de groupe
  • Identification des groupes de surveillance de la santé
  • Séparation audio
  • Détection de diverses activités dans les capteurs de mouvement

Catégorisation de l’inventaire

  • Inventaire de groupe avec mesures de fabrication
  • Inventaire de groupe avec activité de vente

Segmentation comportementale

  • Définir les personnalités fondées sur les intérêts
  • Création de profils basés sur le suivi des activités
  • Segmenter avec en utilisant l’historique des achats
  • Créer des segments en jugeant les activités sur les plateformes, les sites web et les applications

Comprendre l’algorithme

K signifie que l’algorithme de regroupement produit des résultats finaux en utilisant des techniques de raffinement itératives. L’ensemble des données et le nombre de grappes constituent les entrées de l’algorithme. De plus, l’ensemble de données est un groupe de caractéristiques pour chaque point de données. Comme nous l’avons vu précédemment, l’algorithme commence par les estimations initiales du centroïde K. Elles peuvent être sélectionnées de manière aléatoire ou générées de manière aléatoire à partir de l’ensemble. L’algorithme répète ensuite les étapes suivantes.

Étape d’affectation des données

Chaque centroïde détermine un groupe. Dans cette procédure, chaque point de données est attribué à son centroïde le plus proche en fonction de sa distance euclidienne.

Étape de mise à jour des centroïdes

L’algorithme recalcule les centroïdes à cette étape. Pour ce faire, il collecte la moyenne de chaque point de données attribué au groupe de centroïdes.

L’algorithme répète les étapes un et deux jusqu’à ce qu’il réponde à un critère d’arrêt. Les algorithmes de regroupement des moyennes K garantissent des résultats précis. Cependant, le résultat obtenu n’est parfois pas le plus souhaitable. L’analyse d’algorithmes multiples avec des centroïdes de départ aléatoires pourrait donner un meilleur résultat.

La sélection de K

K signifie que le but premier du regroupement est de trouver des étiquettes d’ensembles de données et des clusters pour des K spécifiques pré-choisis. Ainsi, les utilisateurs doivent exécuter cet algorithme pour une grande variété de valeurs K et analyser chaque résultat côte à côte pour déterminer le nombre de grappes de données. Il n’existe pas de méthode particulière pour déterminer la valeur exacte de Ks. Cependant, vous pouvez toujours obtenir des estimations précises en utilisant les techniques mentionnées ci-dessous.


Une mesure populaire couramment utilisée pour comparer les résultats de nombreuses valeurs K est la distance moyenne au milieu du centroïde du groupe et de ses points de données. Comme l’augmentation des grappes minimise la distance entre les points de données, l’augmentation du nombre de grappes réduit à chaque fois la distance des points de données. L’expansion de K diminuera la métrique et pourrait la faire descendre jusqu’à zéro tant que K est similaire à la quantité de points de données.

Vous ne pouvez donc pas utiliser cette mesure comme une cible unique. Vous pouvez aussi tracer la distance moyenne du centroïde comme une fonction de K, où le taux de diminution se déplace fortement. Cela pourrait vous fournir une réponse approximative à K. De nombreuses autres techniques pourraient vous aider à valider K. Voici une liste de quelques méthodes populaires utilisées par des scientifiques expérimentés en matière de données.

  • Algorithme de la moyenne G
  • La méthode de la silhouette
  • Méthode d’information sur les sauts théoriques
  • Critères d’information
  • Méthode de validation croisée

En outre, l’observation de la distribution des points de données dans les différents groupes offre un aperçu précieux de la manière dont l’algorithme divise les données pour Ks.

Le rôle de l’ingénierie des caractéristiques dans K signifie la mise en grappe

L’ingénierie des caractéristiques est un processus qui consiste à utiliser la connaissance du domaine pour sélectionner des mesures de données précises. Les gens utilisent l’ingénierie des caractéristiques pour déterminer les mesures correctes à intégrer dans leurs algorithmes d’apprentissage machine. Il serait juste de prétendre que ce type d’ingénierie joue un rôle essentiel dans l’algorithme de regroupement des moyens K. Il vous aide à distinguer les ensembles naturels avec peu ou pas de problèmes.

Les données catégorielles comme les types de navigateurs, les pays, le sexe doivent être séparées ou codées de manière à se fondre dans l’algorithme. Les transformations de caractéristiques sont particulièrement utiles pour représenter les taux plutôt que les mesures. Elles sont très utiles pour normaliser les données.

K signifie regrouper les applications du monde réel

K signifie que le regroupement est de plus en plus populaire dans diverses industries. Voici quelques applications populaires de cet algorithme révolutionnaire dans le monde réel.

Moteurs de recommandation

Le clustering est tout à fait bénéfique pour les moteurs de recommandation. Vous pouvez profiter de cet algorithme et recommander des chansons ou des films à vos amis en fonction de leurs préférences.

Segmentation des images

K signifie que le regroupement est excellent pour segmenter les photos. Les programmes d’illustration et d’édition peuvent bénéficier des attributs de segmentation des images de cet algorithme.

Regroupement de documents

Le regroupement peut vous aider à regrouper de nombreux documents en peu de temps, voire en un rien de temps. Il est particulièrement utile pour les personnes qui possèdent plusieurs documents contenant différents éléments d’information.

Segmentation de la clientèle

De nombreuses industries utilisent les qualités de segmentation de la clientèle de K means clustering pour rationaliser leurs processus. La vente, la publicité, le sport, le commerce électronique, la banque et les télécommunications sont quelques-uns des domaines qui tirent parti de cet algorithme.