Diminuição da Dimensionalidade
Na hipótese remota de você já ter trabalhado com um conjunto de dados antes com muitos destaques, você pode compreender que é tão difícil compreender ou investigar as conexões entre os destaques. Isso torna o procedimento do EDA problemático, bem como influencia a apresentação do modelo de IA, uma vez que as chances são de que você possa ajustar demais o seu modelo ou danificar uma parte das suspeitas do cálculo, semelhante à autonomia dos destaques em recidivas retas. Este é o local onde entra a diminuição da dimensionalidade. Na IA, a diminuição da dimensionalidade é o caminho para diminuir o número de fatores irregulares viáveis ao se obter muitos fatores de cabeça. Ao diminuir o componente do espaço do seu elemento, você tem menos conexões entre os destaques para pensar quais podem ser investigados e retratados efetivamente e, além disso, você é mais avesso a sobreajustar o seu modelo.
A diminuição da dimensionalidade pode ser realizada de forma acompanhada:
Fim em Destaque: Você diminui o espaço dos elementos ao dispensar os destaques. Isto tem um fardo, no entanto, pois você não ganha dados com aqueles destaques que você deixou cair.
Determinação de Destaques: Você aplica alguns testes factuais de forma a classificá-los conforme indicado pelo seu significado e, posteriormente, seleciona um subconjunto de destaques para o seu trabalho. Isto mais uma vez experimenta o infortúnio dos dados e é menos estável, pois vários testes dão diversos pontos de significância aos destaques. Você pode conferir mais sobre isso aqui.
Destaque Extração: Você faz novos destaques livres, onde cada novo componente autônomo é uma mistura de cada um dos antigos destaques autônomos. Estes sistemas podem adicionalmente ser separados em procedimentos de diminuição de dimensionalidade direta e não-direta.
Investigação da Peça Cabeça (PCA)
O Head Part Investigation ou PCA é uma estratégia de extração de componentes retos. Ele executa um mapeamento direto das informações para um espaço de menor dimensão, de forma que a flutuação das informações no retrato de menor dimensão seja aumentada. Ele faz como tal, figurando os autovectores a partir do quadro de covariância. Os autovetores que se relacionam com os maiores autovalores (as partes mais importantes) são utilizados para recriar uma parte notável da diferença da primeira informação.
Em termos mais simples, a PCA consolida suas informações com um certo objetivo em mente que você pode deixar cair o componente menos significativo enquanto ainda mantém as partes mais importantes da totalidade dos destaques. Como uma vantagem adicional, cada um dos novos destaques ou segmentos feitos após o PCA são, em geral, autônomos uns dos outros.
Implante Estocástico Disperso Vizinho (t-SNE)
O Implante Estocástico Vizinho Disperso (t-SNE) é uma estratégia não direta de diminuição da dimensionalidade que é especialmente apropriada para a percepção de conjuntos de dados de alta dimensão. É amplamente aplicado na manipulação de imagens, PNL, informação genômica e preparação do discurso. Para manter as coisas claras, aqui está um diagrama conciso de trabalho do t-SNE:
Os cálculos começam pelo cálculo da probabilidade de proximidade dos focos no espaço de alta dimensão e pela determinação da probabilidade de comparabilidade dos focos no espaço relacionado de baixa dimensão. A proximidade dos focos é determinada como a probabilidade contingente de um ponto A escolher o ponto B como seu vizinho se vizinhos fossem escolhidos em relação à sua espessura de probabilidade sob um gaussiano (disseminação típica) focalizado em A.
Tenta, então, limitar o contraste entre essas probabilidades restritivas (ou similitudes) no espaço de maior e menor dimensão para um retrato ideal da informação que se concentra no espaço de menor dimensão.
Para quantificar a minimização do agregado da distinção da probabilidade contingente t-SNE limita o total da disparidade Kullback-Leibler de informações gerais, o foco é a utilização de uma estratégia de queda angular.
Note que a diferença Kullback-Leibler ou singularidade KL é uma proporção de como uma dispersão de verosimilhança veia de uma segunda, a apropriação de verosimilhança antecipada.
Os indivíduos que estão interessados em conhecer o trabalho ponto a ponto de um cálculo podem fazer alusão a este exame.
Em termos mais simples, o implante estocástico vizinho disseminado em t (t-SNE) limita a diferença entre duas apropriações: um transporte que mede as semelhanças dos objetos de informação em pares e uma circulação que mede as similitudes em pares dos focos de comparação de baixa dimensão na instalação.
Assim, o t-SNE mapeia as informações multidimensionais para um espaço de menor dimensão e procura descobrir desenhos nas informações, distinguindo os cachos observados em função da proximidade de informações que se concentram em diferentes destaques. Em qualquer caso, após este procedimento, os destaques de informação nunca mais são reconhecidos, e você não pode fazer nenhuma derivação dependente do rendimento do t-SNE. A partir daí, é, em sua maioria, um método de investigação e representação da informação.
PCA versus t-SNE
Embora tanto o PCA quanto o t-SNE tenham suas próprias preferências e encargos, alguns contrastes fundamentais entre o PCA e o t-SNE podem ser notados como perseguições:
O t-SNE é computacionalmente caro e pode levar algumas horas em milhões de conjuntos de dados-exemplo onde o PCA irá completar imediatamente ou minutos.
O PCA é um procedimento numérico, entretanto, o t-SNE é um procedimento probabilístico.
Cálculos de redução de dimensionalidade reta, como o PCA, focam na definição de informações únicas, muito separadas em um retrato de medição inferior. Seja como for, para falar com informações de medições altas em medições baixas, não complexas, é fundamental que os focos de informações comparativas sejam falados uns com os outros, o que é algo que o t-SNE não faz PCA.
Algumas das vezes no t-SNE várias corridas com hiperparâmetros semelhantes podem produzir vários resultados, consequentemente gráficos diferentes devem ser vistos antes de fazer qualquer avaliação com o t-SNE, enquanto esta não é a situação com o PCA.
Como o PCA é um cálculo reto, ele não terá a opção de decifrar a intrincada conexão polinomial entre os destaques enquanto o t-SNE é feito para capturar exatamente isso.