Universalmente útil

O termo análise de agrupamento (utilizado inicialmente por Tryon, 1939) inclui vários cálculos e técnicas para reunir objetos de um tipo comparativo em classificações particulares. Uma questão geral que os analistas enfrentam em numerosas regiões de solicitação é a forma de organizar a informação observada em estruturas significativas, ou seja, de criar classificações científicas. No final do dia, a investigação de grupo é um aparelho exploratório de exame de informação que visa organizar vários artigos em grupos, de modo que o nível de relacionamento entre dois itens seja máximo no caso de terem um lugar com uma reunião semelhante e negligenciável em geral. Dado o acima mencionado, a investigação de grupo pode ser utilizada para encontrar estruturas na informação sem dar um esclarecimento/entendimento. No final do dia, o exame em grupo encontra basicamente estruturas na informação sem esclarecer o motivo da sua existência.

Conseguimos agrupar em praticamente todas as partes do dia-a-dia. Por exemplo, uma reunião de hambúrgueres com uma mesa semelhante num café pode ser vista como um bando de indivíduos. Em lojas de alimentação, por exemplo, vários tipos de carne ou vegetais são mostrados no equivalente ou perto de áreas. Há um número incalculável de modelos nos quais o agrupamento assume um trabalho significativo. Por exemplo, o pesquisador precisa organizar os vários tipos de criaturas antes que uma representação significativa dos contrastes entre as criaturas seja concebível. Segundo o sistema moderno empregado em biologia, o homem pertence aos primatas, aos mamíferos, aos amniotes, aos vertebrados e aos animais. Observe como, neste arranjo, quanto maior o grau de total, menos comparativos são os indivíduos da classe separada. O homem tem mais em comum com todos os outros primatas (por exemplo, os macacos) do que com os membros mais “distantes” dos mamíferos (por exemplo, os cães), etc. Para uma auditoria das classes gerais de estratégias de investigação de grupo, veja Joining (Tree Bunching), Two-way Joining (Square Grouping), e k-Means Bunching. Para colocar em termos simples, qualquer que seja a idéia do seu negócio, um dia você se deparará com um problema de agrupamento de alguma estrutura.

Teste de grandeza factual

Note que as trocas acima aludem a cálculos de agrupamento e não fazem referência a nada sobre testes de essencialidade factual. Verdade seja dita, o exame de grupo não é um teste tão comum e mensurável quanto uma “reunião” de vários cálculos que “colocam os objetos em cachos como por toda a similaridade caracterizada faz o show”. A questão aqui é que não é normal para alguns outros sistemas factuais, as estratégias de investigação de grupo são, na maioria das vezes, utilizadas quando não temos nenhuma das especulações anteriores, mas ainda estão no período exploratório do nosso exame. Por assim dizer, o exame de grupo encontra o “arranjo mais crítico concebível”. Assim, testes de essencialidade mensuráveis não são realmente adequados aqui, mesmo em situações em que os níveis p são contabilizados (como no agrupamento k-implies).

Adesão (Agrupamento de Árvores)

Árvore de vários níveis

Medidas de separação

Regras de Amalgamação ou Ligação

JUSTIFICATIVA GERAL

O modelo na Apresentação Universalmente Útil mostra o objetivo do cálculo da união ou agrupamento em árvore. A razão para este cálculo é consolidar objetos (por exemplo, criaturas) em cachos progressivamente maiores, utilizando alguma proporção de aproximação ou separação. Uma consequência deste tipo de agrupamento é a árvore de vários níveis.

Várias ÁRVORES NIVELADAS

Considere um Lote de Árvore Mesmo Vários Nivelados (veja diagrama abaixo), à esquerda do lote, começamos com cada item em uma classe independente de qualquer outra pessoa. Atualmente, vislumbramos que, em pequenos avanços, nós “desenrolamos” nossa base sobre o que é e o que não é único. Colocando de outra forma, nós derrubamos nossa vantagem em relação à escolha de quando proclamar pelo menos dois itens para serem indivíduos de um grupo semelhante.

Assim, conectamos um número cada vez maior de itens juntos e totalizamos (amalgamamos) grupos cada vez maiores de componentes progressivamente diferentes. Finalmente, no último avanço, todos os artigos são combinados. Nestas parcelas, o pivô uniforme significa a separação da ligação (em Lotes Verticais, o cubo vertical indica a separação da ligação). Desta forma, para cada cubo do diagrama (onde outro grupo é formado), podemos examinar a separação padrão na qual os componentes particulares foram ligados entre si num outro grupo. No ponto em que a informação contém uma “estrutura” inconfundível até aos grupos de artigos que se assemelham uns aos outros, nessa altura esta estrutura será regularmente reflectida nas várias árvores niveladas como ramos particulares. Como efeito secundário de um exame eficaz com a técnica de união, podemos distinguir cachos (ramos) e traduzir esses ramos.

MEDIDAS de Separação

A técnica de união ou agrupamento de árvores utiliza as dissimilitudes (semelhanças) ou separações entre objetos ao moldar os grupos. Similitudes são muitas decisões que se preenchem como critérios para reunir ou isolar coisas. No modelo anterior, o padrão para reunir várias jantares era se eles tinham ou não uma mesa semelhante. Estas separações (semelhanças) podem ser fundadas em uma medida solitária ou várias medidas, com cada medida falando a um padrão ou condição para juntar objetos. Por exemplo, se de alguma forma acontecesse de juntarmos alimentos rápidos, poderíamos considerar o número de calorias que eles contêm, seu valor, avaliações emocionais do gosto, e assim por diante. O método mais claro para processar as separações entre objetos em um espaço multidimensional é registrar as separações euclidianas. No caso de termos tido alguns espaços multidimensionais esta medida é a separação geométrica real entre objetos no espaço (ou seja, como se fosse estimada com uma régua). Em qualquer caso, o cálculo da união não “lhe dá uma segunda reflexão”, independentemente das separações que lhe são “nutridas” serem separações genuínas ou alguma outra determinada proporção de separação que é cada vez mais importante para o analista; e depende do especialista escolher a estratégia correcta para a sua aplicação particular.

Separação euclidiana. Este é provavelmente o tipo de separação mais comumente escolhido. É apenas a separação geométrica no espaço multidimensional. É processada como:

distância(x,y) = {Σ i (xi – yi)2 }½

Note que as separações Euclidianas (e Euclidianas quadradas) são normalmente processadas a partir de informação bruta, e não a partir de informação institucionalizada. Esta técnica tem certos pontos focais (por exemplo, a separação entre quaisquer dois itens não é influenciada pela expansão de novos artigos para o exame, que podem ser exceções). Seja como for, as separações podem ser significativamente influenciadas por contrastes de escala entre as medidas a partir das quais as separações são registradas. Por exemplo, no caso de uma das medidas significar um comprimento deliberado em centímetros, e você, nesse momento, convertê-lo em milímetros (duplicando as qualidades em 10), as subsequentes separações euclidianas ou euclidianas quadrangulares (figura a partir de várias medidas) podem ser incrivelmente influenciadas (ou seja, unilaterais por aquelas medidas que têm uma escala maior), e, portanto, as consequências das investigações de grupo podem ser totalmente diferentes. Na maioria das vezes, é uma grande prática mudar as medições para que tenham escalas comparáveis.

Separação Euclidiana quadriculada. Talvez seja necessário ajustar a separação euclidiana padrão de forma a colocar uma carga logicamente mais notável nos objetos que estão mais separados. Esta separação é registada como (ver também a nota na passagem anterior):

Separação entre a cidade e o quadrado (Manhattan). Esta separação é essencialmente o contraste normal cruzado sobre as medidas. Na maior parte do tempo, esta medida de separação produz resultados como a separação Euclidiana simples. Não obstante, note que nesta medida, o impacto de enormes contrastes (anomalias) é hostilizado (uma vez que não são quadrados). A separação entre a cidade e o quadrado é calculada como:

distância(x,y) = I |xi – yi|

Separação de Chebychev. Esta medida de separação pode ser adequada em situações em que precisamos caracterizar dois artigos como “vários”, caso eles sejam diversos em qualquer uma das medidas. A separação de Chebychev é figura como:

distância(x,y) = Máximo|xi – yi|

Separação de energia. De vez em quando podemos precisar de aumentar ou diminuir o peso dinâmico que é colocado nas medidas em que os artigos individuais são completamente diferentes. Isto pode ser cultivado por meio da separação de energia. A separação de energia é figura como:

distância(x,y) = (I |xi – yi|p)1/r

onde r e p são parâmetros caracterizados pelo cliente. Um par de cálculos do modelo pode exibir como esta medida “continua”. O parâmetro p controla o peso dinâmico que é colocado em contrastes em medições individuais, o parâmetro r controla o peso dinâmico que é colocado em contrastes maiores entre objetos. Caso r e p sejam equivalentes a 2, nesse momento, essa separação é equivalente à separação euclidiana.

Diferença percentual. Esta medida é especialmente valiosa se as informações para as medições incorporadas no exame não forem mitigadas na natureza. Esta separação é figura como:

distância(x,y) = (Número de xi yi)/I