t-Dispersed Stochastic Neighbor Implanting (t-SNE) est un système (primé) de diminution de la dimensionnalité qui est particulièrement approprié pour la perception d’ensembles de données à haute dimension. La procédure peut être exécutée au moyen d’approximations Barnes-Cottage, ce qui permet de l’appliquer à d’énormes ensembles de données du monde réel. Nous l’avons appliquée à des collections d’informations comportant jusqu’à 30 millions de modèles. La procédure et ses variantes sont présentées dans les documents d’accompagnement :

L.J.P. van der Maaten. Accélération de l’ESN-T à l’aide d’algorithmes basés sur les arbres. Journal of Machine Learning Research 15(Oct):3221-3245, 2014.  PDF [Matériel supplémentaire]

L.J.P. van der Maaten et G.E. Hinton. Visualisation des similitudes non métriques sur plusieurs cartes. Machine Learning 87(1):33-55, 2012.  PDF

L.J.P. van der Maaten. Apprendre un ancrage paramétrique en préservant la structure locale. Dans les Actes de la douzième Conférence internationale sur l’intelligence artificielle et les statistiques (AI-STATS), JMLR W&CP 5:384-391, 2009.  PDF

L.J.P. van der Maaten et G.E. Hinton. Visualisation de données en haute dimension à l’aide du t-SNE. Journal of Machine Learning Research 9(Nov):2579-2605, 2008.  PDF [Matériel supplémentaire] [Discours]

Exécutions

En dessous, l’utilisation de l’ETS dans différents dialectes est accessible en téléchargement. Une partie de ces exécutions a été créée par moi, et certaines par différents mécènes. Pour la technique standard de l’ESN-T, l’utilisation en Matlab, C++, CUDA, Python, Light, R, Julia et JavaScript est accessible. De plus, nous donnons une exécution Matlab de l’END paramétrique (représentée ici). Enfin, nous donnons une exécution Barnes-Hovel du t-SNE qui est l’utilisation la plus rapide du t-SNE à ce jour, et qui s’adapte beaucoup mieux à d’énormes collections d’informations.

Vous êtes autorisé à utiliser, modifier ou redistribuer ce produit à n’importe quel titre, mais uniquement à des fins non commerciales. L’utilisation du produit est à vos risques et périls ; les créateurs ne sont pas responsables des dommages qui pourraient résulter ultérieurement d’erreurs dans le produit.

NOTE : le t-SNE est actuellement travaillé en utilité dans Matlab et dans SPSS !

Modèles

Quelques conséquences de nos tests avec le t-SNE sont accessibles en téléchargement ci-dessous. Dans les tracés de l’ensemble de données Netflix et de l’ensemble de données sur les mots, la troisième mesure est codée par des méthodes de codage d’ombrage (les mots/images animées comparatifs sont proches les uns des autres et ont un ombrage similaire). La grande majorité des “bévues” dans les incorporations (par exemple, dans les 20 groupes de discussion) sont en réalité dues à des “erreurs” dans les points forts sur lesquels l’ETS a été appliqué. Dans un grand nombre de ces modèles, les encastrements présentent une erreur 1-NN équivalente à celle des premières mises en évidence en haute dimension.