t-Dispersed Stochastic Neighbor Implanting (t-SNE) è un sistema (premiato) per la riduzione della dimensionalità che è particolarmente appropriato per la percezione di set di dati ad alta dimensione. La procedura può essere eseguita per mezzo di approssimazioni di Barnes-Cottage, consentendo di applicarla ad enormi set di dati mondiali reali. L’abbiamo applicata su collezioni informative con un massimo di 30 milioni di modelli. La procedura e le sue varianti sono presentate nei documenti di accompagnamento:

L.J.P. van der Maaten. Accelerazione di t-SNE utilizzando algoritmi ad albero. Journal of Machine Learning Research 15(Oct):3221-3245, 2014.  PDF [Materiale supplementare]

L.J.P. van der Maaten e G.E. Hinton. Visualizzazione delle somiglianze non metriche in più mappe. Machine Learning 87(1):33-55, 2012.  PDF

L.J.P. van der Maaten. Imparare un’integrazione parametrica preservando la struttura locale. In Atti della dodicesima Conferenza Internazionale di Intelligenza Artificiale e Statistica (AI-STATS), JMLR W&CP 5:384-391, 2009.  PDF

L.J.P. van der Maaten e G.E. Hinton. Visualizzazione di dati ad alta dimensione utilizzando t-SNE. Journal of Machine Learning Research 9(Nov):2579-2605, 2008.  PDF [Materiale supplementare] [Discorso]

Esecuzioni

Sotto, l’uso di t-SNE in diversi dialetti è accessibile per il download. Una parte di queste esecuzioni è stata creata da me, e alcune da diversi mecenati. Per la tecnica standard t-SNE, l’uso in Matlab, C+++, CUDA, Python, Light, R, Julia e JavaScript sono accessibili. Inoltre, diamo una esecuzione Matlab di t-SNE parametrico (qui raffigurato). Infine, diamo un’esecuzione Barnes-Hovel di t-SNE, che è l’uso più veloce di t-SNE fino ad oggi, e che è in grado di scalare molto meglio a enormi raccolte di informazioni.

È consentito utilizzare, modificare o ridistribuire questo prodotto in qualsiasi capacità, ma solo per scopi non commerciali. L’utilizzo del prodotto è a vostro rischio e pericolo; i creatori non sono responsabili per eventuali danni derivanti da errori nel prodotto.

NOTA: t-SNE è attualmente lavorato in utilità in Matlab e in SPSS!

Modelli

Alcune conseguenze dei nostri test con t-SNE sono accessibili per il download. Nelle trame del dataset di Netflix e del dataset di parole, la terza misura è codificata con metodi per una codifica di ombreggiatura (le parole/immagini comparative sono vicine l’una all’altra e hanno un’ombreggiatura simile). La stragrande maggioranza degli “errori” negli embedding, (per esempio, nei 20 newsgroup) sono in realtà dovuti a “errori” nei punti salienti su cui è stata applicata la t-SNE. In moltissimi di questi modelli, gli embeddings hanno un errore di 1-NNN equivalente a quello dei primi highlight ad alta dimensione.