Universalmente utile

Il termine cluster analysis (utilizzato per la prima volta da Tryon, 1939) comprende vari calcoli e tecniche per raccogliere oggetti di tipo comparativo in particolari classificazioni. Una domanda generale che si pone agli analisti di numerose regioni di richiesta è il modo di organizzare le informazioni osservate in strutture significative, cioè di creare classificazioni scientifiche. Alla fine della giornata l’indagine a grappolo è un apparato esplorativo di esame delle informazioni che mira a sistemare i vari articoli in grappoli in modo tale che il livello di relazione tra due oggetti sia massimo nel caso in cui essi abbiano un posto con una raccolta simile e trascurabile in generale. Alla luce di quanto sopra, l’indagine di gruppo può essere utilizzata per trovare strutture informative senza dare un chiarimento/capitolazione. Alla fine della giornata, l’esame di gruppo fondamentalmente trova strutture nelle informazioni senza chiarire il motivo della loro esistenza.

Riusciamo a raggruppare praticamente ogni parte della vita quotidiana. Per esempio, un raduno di locali di hamburger con un tavolo simile in un caffè può essere visto come un gruppo di individui. Nei negozi di alimenti, ad esempio, nelle aree equivalenti o nelle vicinanze vengono mostrati vari tipi di carne o di verdura. Esiste un numero incalcolabile di modelli in cui il raggruppamento presuppone un lavoro significativo. Ad esempio, il ricercatore deve disporre i vari tipi di creature prima che sia concepibile una rappresentazione significativa dei contrasti tra le creature. Secondo il sistema moderno impiegato in biologia, l’uomo appartiene ai primati, ai mammiferi, agli amnioti, ai vertebrati e agli animali… Si noti come in questa disposizione, più alto è il grado di totale e meno comparativi sono gli individui nella classe separata. L’uomo ha più cose in comune con tutti gli altri primati (ad esempio, le scimmie) che con i membri più “lontani” dei mammiferi (ad esempio, i cani), ecc. Per una verifica delle classi generali delle strategie di indagine di gruppo, vedi Joining (Tree Bunching), Two-way Joining (Square Grouping), e k-Means Bunching. Per dirla in modo chiaro, qualunque sia l’idea della vostra attività, a volte vi imbatterete in un problema di raggruppamento di qualche struttura.

Prove di fatto di grande efficacia

Si noti che gli scambi di cui sopra alludono a calcoli di raggruppamento e non fanno riferimento a nulla che riguardi la verifica dell’essenzialità dei fatti. A dire il vero, l’esame di gruppo non è un normale test misurabile, ma è una “raccolta” di vari calcoli che “mette gli oggetti in grappoli come da tutte le altre caratteristiche che li caratterizzano”. Il punto qui è che non è normale per alcuni altri sistemi di fatto, le strategie di indagine di gruppo sono per la maggior parte utilizzate quando non ne abbiamo nessuna delle precedenti speculazioni, eppure sono ancora nel periodo esplorativo del nostro esame. Per così dire, l’esame del gruppo trova “l’accordo più critico concepibile”. Così, la verifica dell’essenzialità misurabile non è veramente adatta in questo caso, anche in situazioni in cui i p-livelli sono presi in considerazione (come nel k-implies grouping).

Partecipazione (Raggruppamento ad albero)

Albero livellato vario

Misure di separazione

Regole per l’amalgama o il collegamento

Motivazione generale

Il modello della Presentazione Universalmente utile mostra l’obiettivo del calcolo di giunzione o del raggruppamento ad albero. Il motivo di questo calcolo è quello di consolidare gli oggetti (per esempio, le creature) in grappoli progressivamente più grandi, utilizzando una certa proporzione di vicinanza o separazione. Una conseguenza di questo tipo di raggruppamento è l’albero livellato.

Varie ALBERI livellati

Consideriamo un Grafico ad albero livellato Even Even Various Tree Plot (vedi diagramma sotto), a sinistra del grafico, iniziamo con ogni elemento di una classe indipendente da tutti gli altri. Attualmente immaginiamo che, con piccoli progressi, “srotoliamo” le nostre basi su ciò che è e non è unico nel suo genere. In altre parole, abbassiamo il nostro margine rispetto alla scelta di proclamare almeno due oggetti come individui di un gruppo simile.

In questo modo colleghiamo un numero sempre crescente di elementi tra loro e totali (amalgamiamo) gruppi sempre più grandi di componenti progressivamente diversi. Finalmente, nell’ultimo anticipo, tutti gli articoli vengono combinati. In questi appezzamenti, il perno pari indica la separazione del collegamento (negli appezzamenti verticali Icicle Plots, il mozzo verticale indica la separazione del collegamento). In questo modo, per ogni mozzo del diagramma (in cui si forma un altro mazzo), possiamo sfogliare la separazione standard alla quale i particolari componenti sono stati collegati insieme in un altro singolo gruppo. Nel punto in cui l’informazione contiene una “struttura” inconfondibile per quanto riguarda i gruppi di articoli che sono simili l’uno all’altro, a quel punto questa struttura si rifletterà regolarmente nei vari alberi livellati come rami particolari. Come conseguenza di un esame efficace con la tecnica di giunzione, possiamo distinguere i grappoli (rami) e tradurre questi rami.

MISURE di separazione

La tecnica della giunzione o del raggruppamento ad albero utilizza le dissimiglianze (somiglianze) o le separazioni tra gli oggetti durante la formazione dei gruppi. Le similitudini sono un sacco di decisioni che riempiono come criteri per raccogliere o isolare le cose. Nel modello precedente, lo standard per la raccolta di varie cene era se avevano o meno una tavola simile. Queste separazioni (somiglianze) possono essere fondate su una misurazione solitaria o su varie misurazioni, con ogni misurazione che parla ad uno standard o condizione per la raccolta di oggetti. Per esempio, se in qualche modo ci capitasse di raccogliere nutrimenti veloci, potremmo considerare il numero di calorie che contengono, il loro valore, le valutazioni emozionali del gusto, e così via. Il metodo più chiaro per elaborare le separazioni tra gli oggetti in uno spazio multidimensionale è quello di registrare le separazioni euclidee. Nel caso in cui avessimo degli spazi poco dimensionali questa misura è la reale separazione geometrica tra gli oggetti nello spazio (cioè, come se fosse stimata con un righello). In ogni caso, il calcolo di giunzione non “ripensa”, indipendentemente dal fatto che le separazioni che gli vengono “alimentate” siano vere e proprie separazioni o qualche altra determinata proporzione di separazione che è sempre più importante per l’analista; e dipende dallo specialista per scegliere la strategia corretta per la sua particolare applicazione.

Separazione euclidea. Questo è probabilmente il tipo di separazione più comunemente scelto. È proprio la separazione geometrica nello spazio multidimensionale. Viene elaborata come:

distanza(x,y) = {Σi (xi – yi)2 }½

Si noti che le separazioni euclidee (e euclidee al quadrato) sono tipicamente elaborate a partire da informazioni grezze, e non da informazioni istituzionalizzate. Questa tecnica ha alcuni punti focali (ad esempio, la separazione tra due elementi non è influenzata dall’espansione di nuovi articoli all’esame, che potrebbero essere eccezioni). Comunque sia, le separazioni possono essere influenzate in modo significativo dai contrasti di scala tra le misure da cui le separazioni sono registrate. Ad esempio, nel caso in cui una delle misure significhi una lunghezza deliberata in centimetri, e a quel punto la si converta in millimetri (duplicando le qualità per 10), le successive separazioni euclidee o quadrate euclidee (figurate da varie misure) possono essere incredibilmente influenzate (cioè, unilateralmente da quelle misure che hanno una scala più grande), e quindi le conseguenze delle indagini di gruppo potrebbero essere del tutto diverse. Per la maggior parte, è un’ottima pratica cambiare le misure in modo che abbiano scale comparabili.

Separazione euclidea al quadrato. Potrebbe essere necessario squadrare la separazione euclidea standard in modo da mettere un carico logicamente più degno di nota sugli oggetti che sono ulteriormente separati. Questa separazione è registrata come (vedi anche la nota nel passaggio precedente):

Separazione della piazza della città (Manhattan). Questa separazione è essenzialmente il normale contrasto trasversale sulle misure. Per la maggior parte del tempo, questa misura di separazione produce risultati come la semplice separazione euclidea. Nonostante ciò, si noti che in questa misura, l’impatto di singoli enormi contrasti (anomalie) è dosato (poiché non sono al quadrato). La separazione città-quadrato è rappresentata come:

distanza(x,y) = I |xi – yi|

Separazione di Chebychev. Questa misura di separazione potrebbe essere adatta in situazioni in cui dobbiamo caratterizzare due articoli come “vari” nel caso in cui siano diversi su una qualsiasi delle misure. La separazione di Chebychev è considerata come:

distanza(x,y) = Massimo|xi – rendimento

Separazione di potenza. Di tanto in tanto potrebbe essere necessario aumentare o diminuire il peso dinamico che viene messo su misure su cui i singoli articoli sono del tutto diversi. Questo può essere coltivato mediante la separazione di potenza. La separazione di potenza è rappresentata come:

distanza(x,y) = (I |xi – yi|p)1/r

dove r e p sono parametri caratterizzati dal cliente. Un paio di calcoli di modello possono mostrare come questa misura “continua”. Il parametro p controlla il peso dinamico che viene messo sui contrasti sulle singole misure, il parametro r controlla il peso dinamico che viene messo sui contrasti più grandi tra gli oggetti. Nel caso in cui r e p siano equivalenti a 2, a quel punto, questa separazione è equivalente alla separazione euclidea.

Differenza percentuale. Questa misura è particolarmente preziosa se le informazioni per le misure incorporate nell’esame sono di natura non sminuita. Questa separazione è rappresentata come:

distanza(x,y) = (Numero di xi yi)/I