Universalmente útil…

El término análisis de conglomerados (utilizado por primera vez por Tryon, 1939) incluye varios cálculos y técnicas para reunir objetos de tipo comparativo en clasificaciones particulares. Una cuestión general a la que se enfrentan los analistas en numerosas regiones de solicitud es la forma de organizar la información observada en estructuras significativas, es decir, crear clasificaciones científicas. A fin de cuentas, la investigación en racimos es un aparato exploratorio de examen de la información que tiene por objeto organizar diversos artículos en racimos de manera que el nivel de relación entre dos artículos sea máximo en el caso de que tengan un lugar con una reunión similar e insignificante en general. Habida cuenta de lo anterior, la investigación en grupo puede utilizarse para encontrar estructuras en la información sin dar una aclaración/entendimiento. A fin de cuentas, el examen en grupo básicamente encuentra estructuras en la información sin aclarar por qué existen.

Nos las arreglamos para agruparnos en casi todos los aspectos de la vida cotidiana. Por ejemplo, una reunión de hamburgueserías que tienen una mesa similar en un café podría ser visto como un grupo de individuos. En las tiendas de alimentación se muestran cosas de naturaleza comparable, por ejemplo, varios tipos de carne o verduras en las zonas equivalentes o cercanas. Hay un número incalculable de modelos en los que la agrupación asume un trabajo significativo. Por ejemplo, el investigador necesita ordenar los diversos tipos de criaturas antes de que se pueda concebir una representación significativa de los contrastes entre las criaturas. Según el sistema moderno empleado en la biología, el hombre pertenece a los primates, los mamíferos, los amniotas, los vertebrados y los animales… Obsérvese cómo en esta disposición, cuanto más alto es el grado de total menos comparativos son los individuos de la clase separada. El hombre tiene más en común con todos los demás primates (por ejemplo, los simios) que con los miembros más “lejanos” de los mamíferos (por ejemplo, los perros), etc. Para una auditoría de las clases generales de estrategias de investigación de grupo, véase Uniendo (Agrupación de árboles), Uniendo en dos direcciones (Agrupación cuadrada), y Agrupación de k-Means. Para decirlo claramente, cualquiera que sea la idea de su negocio, alguna vez se encontrará con un asunto de agrupación de alguna estructura.

Prueba de la magnitud de los hechos

Nótese que los intercambios anteriores aluden a los cálculos de agrupación y no hacen referencia a nada sobre las pruebas de esencialidad de los hechos. La verdad es que el examen de grupo no es tanto una prueba ordinaria medible como una “reunión” de varios cálculos que “ponen los objetos en ramos como por toda la semejanza caracterizada dirige el espectáculo”. El punto aquí es que no es normal para algunos otros sistemas de hechos, las estrategias de investigación en grupo son en su mayoría utilizadas cuando no tenemos ninguna de las especulaciones anteriores, sin embargo todavía están en el período exploratorio de nuestro examen. Por así decirlo, el examen del racimo encuentra el “arreglo más crítico concebible”. Por lo tanto, la prueba de esencialidad medible no es realmente adecuada aquí, incluso en situaciones en las que se tienen en cuenta los niveles p (como en la agrupación de las implicaciones k).

Uniéndose (Agrupación de árboles)

Árbol de varios niveles

Medidas de separación

Reglas de amalgama o vinculación

Justificación general

El modelo de la Presentación de utilidad universal muestra el objetivo del cálculo de la unión o agrupación de árboles. La razón de este cálculo es consolidar los objetos (por ejemplo, las criaturas) en racimos progresivamente más grandes, utilizando alguna proporción de cercanía o separación. Una consecuencia de este tipo de agrupación es el árbol de varios niveles.

Árbol de varios niveles

Considere una parcela de árbol de varios niveles (ver diagrama abajo), a la izquierda de la parcela, empezamos con cada elemento de una clase independiente de cualquier otro. Actualmente prevemos que, en pequeños avances, “desenrollamos” nuestra base sobre lo que es y no es único. Dicho de otra manera, bajamos nuestra ventaja con respecto a la elección de cuándo proclamar al menos dos artículos para ser individuos de un grupo similar.

Así, conectamos un número cada vez mayor de elementos juntos y totalizamos (amalgamamos) grupos cada vez más grandes de componentes progresivamente diferentes. Por fin, en el último avance, todos los artículos se combinan. En estos gráficos, el pivote par significa la separación de la unión (en los gráficos de carámbanos verticales, el eje vertical indica la separación de la unión). De esta manera, para cada núcleo del diagrama (donde se forma otro grupo), podemos examinar con detenimiento la separación estándar en la que los componentes particulares se conectaron juntos en otro grupo único. En el momento en que la información contiene una “estructura” inconfundible en cuanto a grupos de artículos que se parecen entre sí, en ese momento esta estructura se reflejará regularmente en los diversos árboles nivelados como ramas particulares. Como consecuencia de un examen eficaz con la técnica de unión, podemos distinguir los racimos (ramas) y traducir esas ramas.

MEDIDAS DE SEPARACIÓN

La técnica de unión o agrupación de árboles utiliza las disimilitudes (similitudes) o separaciones entre los objetos al dar forma a los grupos. Las similitudes son un montón de decisiones que se rellenan como criterios para reunir o aislar cosas. En el modelo anterior, la norma para reunir varias cenas era si tenían una mesa similar o no. Estas separaciones (semejanzas) pueden basarse en una medida solitaria o en varias medidas, y cada medida habla de una norma o condición para reunir objetos. Por ejemplo, si de alguna manera pasáramos a juntar comidas rápidas, podríamos considerar el número de calorías que contienen, su valor, evaluaciones emocionales del sabor, y así sucesivamente. El método más claro para procesar las separaciones entre objetos en un espacio multidimensional es registrar las separaciones euclidianas. En el caso de que tuviéramos espacios de pocas dimensiones, esta medida es la separación geométrica real entre los objetos del espacio (es decir, como si se estimara con una regla). En cualquier caso, el cálculo de la unión no “le da un segundo pensamiento”, independientemente de si las separaciones que le son “alimentadas” son separaciones genuinas o alguna otra proporción determinada de separación que es cada vez más importante para el analista; y depende del especialista elegir la estrategia correcta para su aplicación particular.

Separación euclidiana. Esta es probablemente la clase de separación más comúnmente escogida. Es la separación geométrica en el espacio multidimensional. Se procesa como:

distancia(x,y) = {ttp://www.statsoft.com/textbook/graphics/sigmablu.gifi (xi – yi)2 }½

Obsérvese que las separaciones euclidianas (y euclidianas al cuadrado) se procesan típicamente a partir de información cruda, y no de información institucionalizada. Esta técnica tiene ciertos puntos focales (por ejemplo, la separación entre dos elementos cualesquiera no se ve influida por la ampliación de nuevos artículos al examen, lo que podría ser una excepción). Sea como fuere, las separaciones pueden verse considerablemente influidas por los contrastes de escala entre las mediciones a partir de las cuales se registran las separaciones. Por ejemplo, en el caso de que una de las medidas signifique una longitud deliberada en centímetros, y usted en ese punto la convierta en milímetros (duplicando las calidades por 10), las subsiguientes separaciones euclidianas o euclidianas cuadradas (calculadas a partir de varias medidas) pueden estar increíblemente influenciadas (es decir, unilateralmente por aquellas medidas que tienen una escala mayor), y por lo tanto, las consecuencias de las investigaciones de los racimos podrían ser totalmente diferentes. En su mayor parte, es una gran práctica cambiar las mediciones para que tengan escalas comparables.

Separación euclidiana al cuadrado. Puede que necesites cuadrar la separación euclidiana estándar para poner una carga lógicamente más notable en los objetos que están más separados. Esta separación se registra como (véase además la nota del pasaje anterior):

Separación de la plaza de la ciudad (Manhattan). Esta separación es esencialmente el contraste normal cruzado sobre las medidas. La mayor parte del tiempo, esta medida de separación da resultados como la separación euclidiana directa. No obstante, nótese que en esta medida, el impacto de los enormes contrastes (anomalías) individuales está regado (ya que no son cuadrados). La separación ciudad-cuadrado se calcula como:

distancia(x,y) = I |xi – yi|

Separación de Chebychev. Esta medida de separación podría ser adecuada en situaciones en las que necesitemos caracterizar dos artículos como “varios” en el caso de que sean diversos en cualquiera de las medidas. La separación de Chebychev se calcula como:

distancia(x,y) = Máximo|xi – yi|

Separación de poderes. De vez en cuando podríamos necesitar incrementar o disminuir el peso dinámico que se pone en las medidas en las que los artículos individuales son totalmente diferentes. Esto puede cultivarse mediante la separación de poderes. La separación de poderes se calcula como:

distancia(x,y) = (I |xi – yi|p)1/r

donde r y p son parámetros característicos del cliente. Un par de cálculos del modelo pueden mostrar cómo esta medida “continúa”. El parámetro p controla el peso dinámico que se pone en los contrastes de las mediciones individuales, el parámetro r controla el peso dinámico que se pone en los contrastes más grandes entre los objetos. En el caso de que r y p sean equivalentes a 2, en ese punto, esta separación es equivalente a la separación euclidiana.

Diferencia porcentual. Esta medida es especialmente valiosa si la información para las mediciones incorporadas en el examen es de naturaleza no mitigada. Esta separación se calcula como:

distancia(x,y) = (Número de xi yi)/I