Universell einsetzbar

Der Begriff Clusteranalyse (erstmals verwendet von Tryon, 1939) umfasst verschiedene Berechnungen und Techniken zur Erfassung von Objekten vergleichender Art in bestimmten Klassifikationen. Eine allgemeine Frage, mit der sich Analytiker in zahlreichen Regionen konfrontiert sehen, ist die Art und Weise, wie beobachtete Informationen zu signifikanten Strukturen arrangiert, d.h. wissenschaftliche Klassifikationen erstellt werden können. Am Ende des Tages ist die Bündeluntersuchung ein explorativer Apparat zur Untersuchung von Informationen, der darauf abzielt, verschiedene Artikel in Bündeln so anzuordnen, dass der Grad der Beziehung zwischen zwei Objekten maximal ist, falls sie einen Ort mit einer ähnlichen Sammlung haben und im Allgemeinen vernachlässigbar sind. Angesichts des oben Gesagten kann die Gruppenuntersuchung genutzt werden, um Strukturen in Informationen zu finden, ohne eine Klärung bzw. ein Verständnis zu geben. Am Ende des Tages findet die Gruppenuntersuchung im Grunde Strukturen in Informationen, ohne zu klären, warum sie existieren.

Wir schaffen es, so ziemlich jeden Teil des täglichen Lebens in Gruppen zusammenzufassen. Zum Beispiel könnte man eine Versammlung von Burgerbuden mit einem ähnlichen Tisch in einem Café als einen Haufen Einzelpersonen betrachten. In Lebensmittelgeschäften werden Dinge vergleichbarer Art gezeigt, z.B. verschiedene Fleisch- oder Gemüsesorten in den entsprechenden oder nahe gelegenen Bereichen. Es gibt eine unüberschaubare Anzahl von Modellen, in denen die Gruppierung eine wichtige Aufgabe übernimmt. Beispielsweise muss der Forscher die verschiedenen Arten von Lebewesen ordnen, bevor eine signifikante Darstellung der Kontraste zwischen den Lebewesen denkbar ist. Nach dem modernen System der Biologie gehört der Mensch zu den Primaten, den Säugetieren, den Amnioten, den Wirbeltieren und den Tieren. Man beachte, dass in dieser Anordnung die Individuen der einzelnen Klassen umso weniger vergleichbar sind, je höher der Gesamtgrad ist. Der Mensch hat mit allen anderen Primaten (z.B. Affen) mehr gemeinsam als mit den “entfernteren” Mitgliedern der Säugetiere (z.B. Hunde) usw. Für eine Prüfung der allgemeinen Klassen von Gruppenuntersuchungsstrategien siehe Zusammenfügen (Baumbündelung), Zweiwege-Zusammenfügen (Quadratische Gruppierung) und k-Mittel-Bündelung. Um es einfach auszudrücken: Was auch immer die Idee Ihres Unternehmens ist, irgendwann werden Sie auf ein Gruppierungsproblem mit einer gewissen Struktur stoßen.

Tatsächliche Prüfung der Größe

Beachten Sie, dass die obigen Austausche auf Gruppierungsberechnungen anspielen und sich nicht auf die Prüfung der sachlichen Wesentlichkeit beziehen. Um ehrlich zu sein, ist die Gruppenprüfung nicht so sehr ein gewöhnlicher messbarer Test, sondern vielmehr eine “Ansammlung” verschiedener Berechnungen, die “Objekte zu Bündeln zusammenfassen, wie es die rundum charakterisierte Ähnlichkeit erfordert”. Es geht hier darum, dass die Strategien der Gruppenuntersuchung, die für einige andere Tatsachensysteme nicht normal sind, zumeist dann angewendet werden, wenn wir keine aus den früheren Spekulationen haben, sondern uns noch in der Sondierungsphase unserer Untersuchung befinden. Die Bündeluntersuchung findet sozusagen die “kritischste denkbare Anordnung”. Daher ist eine messbare Wesentlichkeitsprüfung hier wirklich nicht geeignet, auch nicht in Situationen, in denen p-Niveaus berücksichtigt werden (wie bei der Gruppierung nach k-Implikationen).

Beitreten (Baumgruppierung)

Verschieden nivellierter Baum

Trennungsmaßnahmen

Zusammenschluss- oder Verknüpfungsregeln

ALLGEMEINE Begründungen

Das Modell in der Universell einsetzbaren Präsentation zeigt das Ziel der Berechnung der Verbindung oder Baumgruppierung. Der Grund für diese Berechnung besteht darin, Objekte (z.B. Lebewesen) zu immer größeren Bündeln zusammenzufassen, wobei ein gewisses Verhältnis von Nähe oder Trennung ausgenutzt wird. Eine Konsequenz dieser Art der Gruppierung ist der unterschiedlich eingeebnete Baum.

Verschiedene nivellierte BÄUME

Betrachten Sie eine Baumdarstellung mit geraden, unterschiedlich nivellierten Bäumen (siehe Diagramm unten), auf der linken Seite der Darstellung beginnen wir mit jedem Element in einer Klasse unabhängig von allen anderen. Stellen Sie sich vor, dass wir in kleinen Fortschritten unsere Basis bezüglich dessen, was einzigartig ist und was nicht, “abwickeln”. Anders ausgedrückt, wir verringern unseren Vorsprung in Bezug auf die Entscheidung, wann wir mindestens zwei Gegenstände als Individuen aus einem ähnlichen Bündel proklamieren.

Auf diese Weise verbinden wir eine immer größere Anzahl von Gegenständen miteinander und summieren (verschmelzen) immer größere Gruppen von nach und nach verschiedenen Komponenten. Endlich, im letzten Vormarsch, werden alle Artikel zusammengefasst. In diesen Darstellungen bedeutet der gerade Drehpunkt die Trennung der Verbindung (in den vertikalen Eiszapfen-Darstellungen zeigt die vertikale Nabe die Trennung der Verbindung an). Auf diese Weise können wir für jede Nabe im Diagramm (wo ein weiteres Bündel geformt wird) den Standardabstand ablesen, bei dem die einzelnen Komponenten zu einer weiteren Einzelgruppe verbunden wurden. An dem Punkt, an dem die Information eine unverkennbare “Struktur” bis hin zu Gruppen von Artikeln enthält, die einander ähnlich sind, wird sich diese Struktur regelmäßig in den verschiedenen nivellierten Bäumen als bestimmte Zweige widerspiegeln. Als Nachwirkung einer effektiven Untersuchung mit der Verbindungstechnik können wir Bündel (Äste) unterscheiden und diese Äste übersetzen.

Trennungsmassnahmen

Die Technik des Zusammenfügens oder Baumbündelns nutzt die Unähnlichkeiten (Ähnlichkeiten) oder Trennungen zwischen Objekten bei der Gestaltung der Gruppen aus. Similituden sind viele Entscheidungen, die als Kriterien für das Sammeln oder Isolieren von Dingen herangezogen werden. Im früheren Modell war der Standard für das Sammeln verschiedener Abendessen, ob sie einen ähnlichen Tisch hatten oder nicht. Diese Trennungen (Ähnlichkeiten) können auf einer Einzelmessung oder auf verschiedenen Messungen beruhen, wobei jede Messung einem Standard oder einer Bedingung für das Sammeln von Objekten entspricht. Wenn wir zum Beispiel auf irgendeine Art und Weise Schnellgerichte zusammenstellen, könnten wir die Anzahl der Kalorien, die sie enthalten, ihren Wert, emotionale Bewertungen des Geschmacks und so weiter berücksichtigen. Die deutlichste Methode zur Verarbeitung von Trennungen zwischen Objekten in einem mehrdimensionalen Raum ist die Registrierung euklidischer Trennungen. Für den Fall, dass wir ein paar-dimensionale Räume hätten, ist dieses Maß die reale geometrische Trennung zwischen Objekten im Raum (d.h. wie mit einem Lineal geschätzt). In jedem Fall “denkt” die Verbindungsberechnung nicht “nach”, unabhängig davon, ob es sich bei den “genährten” Trennungen um echte Trennungen oder um einen anderen bestimmten Anteil der Trennung handelt, der für den Analytiker immer wichtiger wird; und es hängt vom Spezialisten ab, die richtige Strategie für seine spezielle Anwendung zu wählen.

Euklidische Trennung. Dies ist wahrscheinlich die am häufigsten gewählte Art der Trennung. Es ist einfach die geometrische Trennung im mehrdimensionalen Raum. Sie wird verarbeitet als:

Abstand(x,y) = {

i (xi – yi)2 }½

Beachten Sie, dass euklidische (und quadratische euklidische) Trennungen typischerweise aus Rohinformationen und nicht aus institutionalisierten Informationen verarbeitet werden. Diese Technik hat bestimmte Schwerpunkte (z.B. wird die Trennung zwischen zwei beliebigen Items nicht durch die Ausweitung neuer Artikel auf die Untersuchung beeinflusst, was Ausnahmen sein können). Wie dem auch sei, die Trennungen können durch Skalenkontraste zwischen den Messungen, von denen die Trennungen registriert werden, erheblich beeinflusst werden. Wenn z.B. eine der Messungen eine absichtliche Länge in Zentimetern bedeutet und Sie diese zu diesem Zeitpunkt in Millimeter umrechnen (indem Sie die Qualitäten um 10 verdoppeln), können die nachfolgenden euklidischen oder quadratischen euklidischen Trennungen (aus verschiedenen Messungen) unglaublich beeinflusst werden (d.h. einseitig durch diejenigen Messungen, die einen größeren Maßstab haben), und daher können die Konsequenzen von Bündeluntersuchungen ganz anders ausfallen. In den meisten Fällen ist es gute Praxis, die Messungen so zu verändern, dass sie vergleichbare Skalen haben.

Quadratische euklidische Trennung. Möglicherweise müssen Sie die euklidische Standardtrennung quadrieren, um eine logisch bemerkenswertere Belastung für weiter separierte Objekte zu erreichen. Diese Trennung wird registriert als (siehe zusätzlich den Hinweis in der vorigen Passage):

Stadt-Quadrat (Manhattan) Trennung. Diese Trennung ist im Wesentlichen der normale Kontrast quer über die Messungen. In den meisten Fällen liefert diese Trennungsmessung Ergebnisse wie die einfache euklidische Trennung. Dennoch ist zu beachten, dass bei diesem Maß die Auswirkungen einzelner großer Kontraste (Anomalien) verschlungen werden (da sie nicht quadratisch sind). Die Stadtquadrat-Trennung wird wie folgt angegeben:

Abstand(x,y) = I |xi – yi|

Tschebyschow-Trennung. Diese Trennungsmaßnahme könnte in Situationen geeignet sein, in denen wir zwei Artikel als “verschieden” charakterisieren müssen, falls sie bei einer der Messungen unterschiedlich sind. Die Tschebyscheff-Trennung wird wie folgt dargestellt:

Abstand(x,y) = Maximum|xi – yi|

Trennung der Macht. Hin und wieder kann es notwendig sein, das dynamische Gewicht zu erhöhen oder zu verringern, das auf Messungen gelegt wird, bei denen die einzelnen Artikel völlig unterschiedlich sind. Dies lässt sich mit Hilfe der Gewaltentrennung kultivieren. Die Krafttrennung wird wie folgt dargestellt:

Abstand(x,y) = (I |xi – yi|p)1/r

wobei r und p durch den Kunden charakterisierte Parameter sind. Einige Modellberechnungen können zeigen, wie dieses Maß “weitergeht”. Parameter p steuert das dynamische Gewicht, das auf Kontraste bei einzelnen Messungen gelegt wird, Parameter r steuert das dynamische Gewicht, das auf größere Kontraste zwischen Objekten gelegt wird. Für den Fall, dass r und p äquivalent zu 2 sind, ist diese Trennung an diesem Punkt äquivalent zur euklidischen Trennung.

Prozentuale Differenz. Dieses Maß ist besonders wertvoll, wenn die Informationen für die Messungen, die in die Untersuchung einfließen, ungemilderter Natur sind. Diese Trennung wird figuriert als:

Abstand(x,y) = (Anzahl von xi yi)/I