El análisis de agrupación o simplemente la agrupación es esencialmente una técnica de aprendizaje sin ayuda que divide la información centrada en varios grupos o agrupaciones explícitas, con el objetivo final de que la información centrada en agrupaciones similares tenga propiedades comparables y la información centrada en varias agrupaciones tenga varias propiedades en algún sentido. Contiene una amplia gama de estrategias que dependen de diversos avances.

Por ejemplo, K-Means (separación entre focos), Proliferación de Liking (separación de gráficos), Mean-move (separación entre focos), DBSCAN (separación entre focos más cercanos), mezclas Gaussianas (separación de Mahalanobis a focos), Agrupación inusual (separación de diagramas) y así sucesivamente.

A un nivel muy básico, todas las técnicas de agrupación utilizan una metodología similar, por ejemplo, primero se calculan las similitudes y después se utiliza para agrupar la información centrada en las agrupaciones. Aquí nos concentraremos en la estrategia de agrupación espacial basada en el grosor de los usos con conmoción (DBSCAN).

Los grupos son locales gruesos en el espacio de la información, aislados por áreas de menor espesor de los focos. El cálculo del DBSCAN depende de esta idea natural de “racimos” y “conmoción”. La clave, sin embargo, es que para cada propósito de un grupo, el área de un barrido dado necesita contener en todo caso un número base de focos.

¿Por qué DBSCAN?

Estrategias de parcelación (K-implies, PAM bunching) y trabajo de agrupamiento progresivo para encontrar racimos de forma circular o racimos arqueados. Como tal, son razonables sólo para racimos conservadores y bien aislados. Además, están seriamente influenciados por la cercanía de la conmoción y las anomalías en la información.

La información genuina puede contener anormalidades, como…

I) Los ramos pueden tener una forma discrecional, por ejemplo, los que aparecen en la figura de abajo.

ii) La información puede contener clamores.

las figuras de abajo muestran un índice informativo que contiene grupos no convexos y anomalías/clamas. Dada esa información, k-implica que el cálculo experimenta problemas para distinguir esos racimos con formas discrecionales.

El cálculo del DBSCAN requiere dos parámetros –

En este algoritmo, tenemos 3 tipos de puntos de datos.

Core Point: Un punto es un punto central si tiene más que puntos MinPts dentro de eps.

Border Point: Un punto que tiene menos de MinPts dentro de eps pero está en la vecindad de un punto central.

Ruido o atípico: Un punto que no es un punto central o un punto fronterizo.

eps: Caracteriza el área alrededor de un punto de información, por ejemplo, en el caso de que la separación entre dos sea menor o equivalente a ‘eps’ en ese punto se consideran como vecinos. En la remota posibilidad de que la estima de eps se recoja excesivamente poco, en ese punto una gran parte de la información se considerará como excepciones. En la remota posibilidad de que se recoja una cantidad enorme, en ese punto, los grupos se consolidarán y la mayor parte de los focos de información estarán en grupos similares. Un enfoque para descubrir la estima de las eps depende del diagrama de separación k.

A continuación se muestra el algoritmo de agrupación del DBSCAN en pseudocódigo:

DBSCAN(dataset, eps, MinPts){

# índice de cúmulos

C = 1

para cada punto no visitado p en el conjunto de datos {

         mark p como visitado

         # encontrar vecinos

         Vecinos N = encontrar los puntos vecinos de p

         si |N|>=MinPts:

             N = N U N’

             si p’ no es miembro de ningún grupo:

                 añadir p’ al grupo C