Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

O Implante Estocástico Vizinho Disperso (t-SNE) é um sistema (premiado) de diminuição da dimensionalidade que é especialmente apropriado para a percepção de conjuntos de dados de alta dimensão. O procedimento pode ser executado por meio de aproximações Barnes-Cottage, permitindo que seja aplicado a enormes conjuntos de dados do mundo real. Aplicamo-lo em coleções informacionais com até 30 milhões de modelos. O procedimento e suas variações são apresentados nos trabalhos que o acompanham:

L.J.P. van der Maaten. Acelerando o t-SNE usando Algoritmos Baseados em Árvore. Journal of Machine Learning Research 15(Oct):3221-3245, 2014.  PDF [Material suplementar].

L.J.P. van der Maaten e G.E. Hinton. Visualizando Semelhanças Não-Métricas em Mapas Múltiplos. Machine Learning 87(1):33-55, 2012.  PDF

L.J.P. van der Maaten. Aprendizagem de um Emblema Paramétrico pela Preservação da Estrutura Local. Em Anais da Décima Segunda Conferência Internacional de Inteligência Artificial & Estatística (AI-STATS), JMLR W&CP 5:384-391, 2009.  PDF

L.J.P. van der Maaten e G.E. Hinton. Visualização de Dados em Alta Dimensão usando o t-SNE. Journal of Machine Learning Research 9(Nov):2579-2605, 2008.  PDF [Material suplementar] [Fale].

Execuções

Abaixo, o uso do t-SNE em diferentes dialetos é acessível para download. Uma parte dessas execuções foi criada por mim, e outras por clientes diferentes. Para a técnica t-SNE padrão, o uso em Matlab, C++, CUDA, Python, Light, R, Julia e JavaScript estão acessíveis. Além disso, damos uma execução do t-SNE paramétrico Matlab (aqui descrito). Finalmente, damos uma execução Barnes-Hovel do t-SNE que é a mais rápida utilização do t-SNE até hoje, e que se adapta muito melhor a enormes coleções informacionais.

Você está autorizado a utilizar, alterar ou redistribuir este produto em qualquer capacidade que você precisar, porém apenas para fins não comerciais. A utilização do produto está em seu próprio risco; os criadores não são responsáveis por qualquer dano subseqüente de erros no produto.

OBS: O t-SNE é atualmente trabalhado em utilidade no Matlab e no SPSS!

Modelos

Algumas consequências de nossos testes com o t-SNE estão acessíveis para download abaixo. Nos gráficos do conjunto de dados Netflix e das palavras conjunto de dados, a terceira medida é codificada por métodos para uma codificação de sombreamento (palavras comparativas/fotografias de movimento estão próximas umas das outras e têm um sombreamento semelhante). A grande maioria dos ‘equívocos’ nos embutimentos, (por exemplo, nos 20 grupos de notícias) são na realidade por causa dos ‘erros’ nos destaques em t-SNE foi aplicada. Em grande número desses modelos, os embeddings têm um erro de 1-NN que é equivalente ao dos primeiros destaques de alta dimensão.

línguas

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.