Disminución de la dimensionalidad

Por si acaso has trabajado con un conjunto de datos antes con muchos puntos destacados, puedes comprender que es tan difícil de comprender o investigar las conexiones entre los puntos destacados. Esto hace que el procedimiento EDA sea problemático, así como influye en la presentación del modelo de IA, ya que las probabilidades son de que usted pueda exceder su modelo o dañar una parte de las sospechas del cálculo, similar a la autonomía de los puntos destacados en una recaída directa. Este es el lugar donde entra la disminución de la dimensionalidad. En la IA, la disminución de la dimensionalidad es la forma de disminuir el número de factores irregulares viables al obtener un montón de factores de cabeza. Al disminuir el componente de tu espacio elemental, tienes menos conexiones entre los puntos culminantes para pensar en cuáles pueden ser investigados e imaginados de manera efectiva y además eres más reacio a sobreajustar tu modelo.

La disminución de la dimensionalidad se puede lograr de la manera que lo acompaña:

Resalta el final: Disminuye el espacio del elemento prescindiendo de los resaltados. Esto tiene una carga, sin embargo, ya que no obtienes datos de esos resaltados que has dejado caer.

Destaque Determinación: Aplicas algunas pruebas de hechos para clasificarlos según su significado y después seleccionas un subconjunto de puntos destacados para tu trabajo. Esto de nuevo experimenta la desgracia de los datos y es menos estable ya que varias pruebas dan diversos resultados de importancia a los puntos destacados. Puedes comprobar más sobre esto aquí.

Destaque Extracción: Haces nuevos resaltados gratis, donde cada nuevo componente autónomo es una mezcla de cada uno de los viejos resaltados autónomos. Estos sistemas pueden además ser separados en procedimientos de disminución dimensional directos y no directos.

Investigación de la parte delantera (PCA)

La investigación de la cabeza o PCA es una estrategia de extracción de componentes. Se trata de un mapeo directo de la información a un espacio de baja dimensión, de modo que la fluctuación de la información en el retrato de baja dimensión es mayor. Lo hace como tal, calculando los vectores propios del marco de covarianza. Los vectores propios que se relacionan con los mayores valores propios (las partes más importantes) se utilizan para recrear una porción notable de la diferencia de la primera información.

En términos más sencillos, PCA consolida su información incluye con un cierto objetivo en mente que se puede dejar caer el componente menos significativo mientras que aún se mantienen las piezas más importantes de la totalidad de los aspectos destacados. Como ventaja adicional, cada uno de los nuevos puntos destacados o segmentos hechos después de PCA son en conjunto autónomos entre sí.

Implante de vecinos estocásticos dispersos (t-SNE)

El Implante de Vecinos Estocásticos Dispersos (t-SNE) es una estrategia no directa para la disminución de la dimensionalidad que es especialmente apropiada para la percepción de conjuntos de datos de alta dimensión. Se aplica ampliamente en el manejo de imágenes, PNL, información genómica y preparación del discurso. Para mantener las cosas claras, aquí hay un diagrama conciso del funcionamiento del t-SNE:

Los cálculos comienzan por calcular la probabilidad de cercanía de los focos en el espacio de altas dimensiones y determinar la probabilidad de comparabilidad de los focos en el espacio de bajas dimensiones correspondiente. La cercanía de los focos se determina como la probabilidad contingente de que un punto A elija el punto B como su vecino si los vecinos se eligieran en relación con su grosor de probabilidad bajo un Gaussiano (diseminación típica) centrado en A.

En ese punto intenta limitar el contraste entre estas probabilidades restrictivas (o similitudes) en el espacio de dimensiones superiores e inferiores para una representación ideal de la información que se centra en el espacio de dimensiones inferiores.

Para cuantificar la minimización del agregado de la distinción de la probabilidad contingente t-SNE limita el total de la disparidad Kullback-Leibler de en la información general se centra en la utilización de una estrategia de caída en picado de ángulo.

Observe que la diferencia Kullback-Leibler o la singularidad KL es una proporción de cómo una dispersión de probabilidad se desvía de una segunda apropiación de probabilidad anticipada.

Los individuos que están interesados en conocer el funcionamiento punto por punto de un cálculo pueden aludir a este trabajo de examen.

En términos más sencillos, el implante de vecinos estocásticos t-Diseminados (t-SNE) limita la diferencia entre dos apropiaciones: un transporte que mide las semejanzas por pares de los objetos de información y una circulación que mide las semejanzas por pares de los focos de baja dimensión comparados en la instalación.

Así, el t-SNE mapea la información multidimensional a un espacio de dimensiones más bajas y se esfuerza por descubrir diseños en la información distinguiendo los ramos observados que dependen de la cercanía de la información que se centra en diferentes puntos destacados. En cualquier caso, después de este procedimiento, los puntos destacados de la información no son nunca más reconocibles, y no se puede hacer ninguna derivación dependiente del rendimiento del t-SNE. A partir de ahora es, en su mayor parte, un método de investigación y representación de la información.

PCA versus t-SNE

Aunque tanto PCA como t-SNE tienen sus propias preferencias y cargas, algunos contrastes clave entre PCA y t-SNE pueden ser señalados como perseguidos:

El t-SNE es costoso desde el punto de vista computacional y puede llevar unas pocas horas en millones de datos de ejemplo donde PCA se completará de inmediato o en minutos.

PCA es un procedimiento numérico, sin embargo, t-SNE es un procedimiento probabilístico.

Los cálculos de disminución de la dimensionalidad recta, como el PCA, se centran en establecer focos de información únicos muy separados en un retrato de medición inferior. Sea como fuere, para hablar de la información de alta medición en la baja medición, complejo no recto, es fundamental que los enfoques de la información comparativa se hablen cerca uno del otro, que es algo que t-SNE no PCA.

Algunas veces en el t-SNE varias corridas con hiperparámetros similares pueden dar varios resultados, por lo que se deben ver diferentes gráficos antes de hacer cualquier evaluación con el t-SNE, mientras que esta no es la situación con el PCA.

Dado que el PCA es un cálculo directo, no tendrá la opción de descifrar la intrincada conexión polinómica entre las luces, mientras que el t-SNE está hecho para captar precisamente eso.