Utilité universelle
Le terme d’analyse par grappes (utilisé pour la première fois par Tryon, 1939) comprend divers calculs et techniques pour rassembler des objets de type comparatif dans des classifications particulières. Une question générale à laquelle sont confrontés les analystes dans de nombreuses régions de demande est la manière d’organiser les informations surveillées en structures significatives, c’est-à-dire de créer des classifications scientifiques. En fin de compte, l’investigation par grappes est un appareil d’examen exploratoire de l’information qui vise à organiser divers articles en grappes de telle sorte que le niveau de relation entre deux articles soit maximal dans le cas où ils ont une place avec une collecte similaire et négligeable en général. Compte tenu de ce qui précède, l’enquête de groupe peut être utilisée pour trouver des structures dans l’information sans donner de clarification/compréhension. En fin de compte, l’examen de groupe permet essentiellement de trouver des structures dans l’information sans en préciser la raison d’être.
Nous arrivons à nous regrouper dans presque tous les domaines de la vie quotidienne. Par exemple, un groupe de hamburgers ayant une table similaire dans un café peut être considéré comme un groupe d’individus. Dans les magasins d’alimentation, les choses de nature comparable, par exemple, les différentes sortes de viande ou de légumes sont représentées dans des zones équivalentes ou proches. Il existe un nombre incalculable de modèles dans lesquels le regroupement assume un travail important. Par exemple, le chercheur doit disposer les différents types de créatures avant qu’une représentation significative des contrastes entre les créatures ne soit concevable. Selon le système moderne utilisé en biologie, l’homme appartient aux primates, aux mammifères, aux amniotes, aux vertébrés et aux animaux… Notez que dans cette disposition, plus le degré de total est élevé, moins les individus de la classe séparée sont comparables. L’homme a plus en commun avec tous les autres primates (par exemple, les singes) qu’avec les membres plus “éloignés” des mammifères (par exemple, les chiens), etc. Pour un audit des classes générales de stratégies d’investigation de groupe, voir Joining (Tree Bunching), Two-way Joining (Square Grouping), et k-Means Bunching. En clair, quelle que soit l’idée que vous vous faites de votre entreprise, vous vous heurterez parfois à un problème de regroupement d’une certaine structure.
Test d’éloignement factuel
Notez que les échanges ci-dessus font allusion à des calculs de regroupement et ne font pas référence à quoi que ce soit sur les tests d’essentialité factuelle. À vrai dire, l’examen de groupe n’est pas un test mesurable ordinaire, mais plutôt un “rassemblement” de divers calculs qui “mettent les objets en grappes selon la ressemblance caractérisée tout autour fait le spectacle”. Le fait est que, contrairement à d’autres systèmes factuels, les stratégies d’investigation en groupe sont pour la plupart utilisées lorsque nous ne disposons pas des spéculations antérieures, mais qu’elles sont encore dans la période exploratoire de notre examen. En quelque sorte, l’examen de la bande trouve “l’arrangement le plus critique possible”. Ainsi, les tests d’essentialité mesurables ne sont vraiment pas appropriés ici, même dans les situations où les p-niveaux sont pris en compte (comme dans le regroupement des k-implies).
Adhésion (regroupement d’arbres)
Arbre nivelé divers
Mesures de séparation
Règles de fusion ou de liaison
Justification générale
Le modèle de la présentation universellement utile montre l’objectif du calcul de l’assemblage ou du regroupement d’arbres. La raison de ce calcul est de regrouper des objets (par exemple des créatures) en grappes de plus en plus grandes, en utilisant une certaine proportion de proximité ou de séparation. Ce type de regroupement a pour conséquence de faire varier le niveau de l’arbre.
Arbre à niveaux divers
Considérons une parcelle d’arbres de niveau Even Various (voir le diagramme ci-dessous), à gauche de la parcelle, nous commençons par chaque élément d’une classe indépendante de toute autre. Imaginez actuellement que, par petites avancées, nous “déroulions” notre base concernant ce qui est et n’est pas unique. En d’autres termes, nous nous mettons à l’épreuve en ce qui concerne le choix du moment où il faut proclamer qu’au moins deux éléments sont des individus d’un groupe similaire.
Ainsi, nous relions un nombre toujours croissant d’éléments entre eux et nous totalisons (amalgamons) des groupes de plus en plus grands de composants progressivement différents. Enfin, dans la dernière avance, tous les articles sont combinés. Dans ces graphiques, le pivot pair signifie la séparation de la liaison (dans les graphiques verticaux en forme de glaçon, le pivot vertical indique la séparation de la liaison). De cette façon, pour chaque moyeu du diagramme (où un autre groupe est formé), nous pouvons lire la séparation standard à laquelle les composants particuliers ont été reliés ensemble en un autre groupe unique. Au moment où les informations contiennent une “structure” sans équivoque en ce qui concerne les groupes d’articles qui se ressemblent, cette structure sera régulièrement reflétée dans l’arbre à plusieurs niveaux sous forme de branches particulières. Comme conséquence d’un examen efficace avec la technique d’assemblage, nous pouvons distinguer des grappes (branches) et traduire ces branches.
MESURES de séparation
La technique d’assemblage ou de regroupement des arbres utilise les dissemblances (ressemblances) ou les séparations entre les objets pour former les groupes. Les similitudes sont un grand nombre de décisions qui servent de critères pour rassembler ou isoler les choses. Dans le modèle précédent, la norme pour rassembler les différents soupers était de savoir s’ils avaient une table similaire ou non. Ces séparations (ressemblances) peuvent être fondées sur une mesure solitaire ou sur diverses mesures, chaque mesure correspondant à une norme ou à une condition de rassemblement des objets. Par exemple, si l’on se retrouvait à rassembler des aliments rapides, on pourrait prendre en compte le nombre de calories qu’ils contiennent, leur valeur, les évaluations émotionnelles du goût, etc. La méthode la plus claire pour traiter les séparations entre les objets dans un espace multidimensionnel est d’enregistrer les séparations euclidiennes. Dans le cas où nous aurions quelques espaces à quelques dimensions, cette mesure est la séparation géométrique réelle entre les objets dans l’espace (c’est-à-dire comme si elle était estimée avec une règle). Dans tous les cas, le calcul de jonction ne “réfléchit pas”, que les séparations qui lui sont “nourries” soient de véritables séparations ou une autre proportion déterminée de séparation qui est de plus en plus importante pour l’analyste ; et il dépend du spécialiste pour choisir la stratégie correcte pour son application particulière.
Séparation euclidienne. C’est probablement le type de séparation le plus souvent choisi. Il s’agit simplement de la séparation géométrique dans l’espace multidimensionnel. Elle est traitée comme :
distance(x,y) = {Σi (xi – yi)2 }½
Notez que les séparations euclidiennes (et euclidiennes au carré) sont généralement traitées à partir d’informations brutes, et non à partir d’informations institutionnalisées. Cette technique a certains points de convergence (par exemple, la séparation entre deux articles quelconques n’est pas influencée par l’extension de nouveaux articles à l’examen, qui pourraient être des exceptions). Quoi qu’il en soit, les séparations peuvent être influencées de manière significative par les contrastes d’échelle entre les mesures à partir desquelles les séparations sont enregistrées. Par exemple, dans le cas où l’une des mesures correspond à une longueur délibérée en centimètres et que vous la convertissez en millimètres (en multipliant les qualités par 10), les séparations euclidiennes ou euclidiennes au carré qui suivent (calculées à partir de diverses mesures) peuvent être incroyablement influencées (c’est-à-dire qu’elles peuvent être unilatérales par les mesures qui ont une échelle plus grande), et les conséquences des enquêtes sur les lots peuvent donc être tout à fait différentes. Dans la plupart des cas, il est très pratique de modifier les mesures afin qu’elles aient des échelles comparables.
Séparation euclidienne au carré. Il se peut que vous ayez besoin d’élever au carré la séparation euclidienne standard afin de charger logiquement plus remarquablement les objets qui sont séparés davantage. Cette séparation est enregistrée comme (voir en outre la note dans le passage précédent) :
Séparation ville-place (Manhattan). Cette séparation est essentiellement le contraste normal en croix sur les mesures. La plupart du temps, cette mesure de séparation donne des résultats similaires à la simple séparation euclidienne. Néanmoins, il faut noter que dans cette mesure, l’impact des seuls contrastes énormes (anomalies) est atténué (puisqu’ils ne sont pas carrés). La séparation ville-carré est représentée comme suit :
distance(x,y) = I |xi – yi|
Séparation de Tchebychev. Cette mesure de séparation pourrait convenir dans les situations où nous devons caractériser deux articles comme “divers” au cas où ils seraient différents sur l’une des mesures. La séparation de Tchebychev est représentée par :
distance(x,y) = Maximum|xi – yi|
Séparation des pouvoirs. De temps à autre, nous pourrions avoir besoin d’augmenter ou de diminuer le poids dynamique qui est appliqué aux mesures sur lesquelles les articles individuels sont totalement différents. Cela peut se faire au moyen de la séparation des pouvoirs. La séparation de puissance est représentée par la figure suivante :
distance(x,y) = (I |xi – yi|p)1/r
où r et p sont des paramètres caractérisés par le client. Quelques calculs de modèle peuvent montrer comment cette mesure “se poursuit”. Le paramètre p contrôle le poids dynamique qui est mis sur les contrastes des mesures individuelles, le paramètre r contrôle le poids dynamique qui est mis sur les contrastes plus importants entre les objets. Dans le cas où r et p sont équivalents à 2, à ce point, cette séparation est équivalente à la séparation euclidienne.
Différence en pourcentage. Cette mesure est particulièrement précieuse si les informations relatives aux mesures incorporées dans l’examen sont de nature non atténuée. Cette séparation est représentée sous la forme :
distance(x,y) = (Nombre de xi yi)/I