t-Dispersed Stochastic Neighbor Implanting (t-SNE) ist ein (preisgekröntes) System zur Dimensionsabnahme, das besonders für die Wahrnehmung hochdimensionaler Datensätze geeignet ist. Das Verfahren kann mit Hilfe von Barnes-Cottage-Approximationen ausgeführt werden, wodurch es auf riesige Echtwelt-Datensätze angewendet werden kann. Wir haben es auf Informationssammlungen mit bis zu 30 Millionen Modellen angewandt. Das Verfahren und seine Varianten werden in den Begleitpapieren vorgestellt:
L.J.P. van der Maaten. Beschleunigung von t-SNE mit baumbasierten Algorithmen. Zeitschrift für Forschung zum maschinellen Lernen 15(Okt):3221-3245, 2014. PDF [Ergänzendes Material].
L.J.P. van der Maaten und G.E. Hinton. Visualisierung nicht-metrischer Ähnlichkeiten in mehreren Karten. Maschinelles Lernen 87(1):33-55, 2012. PDF
L.J.P. van der Maaten. Lernen einer parametrischen Einbettung durch Bewahren der lokalen Struktur. In Proceedings of the Twelfth International Conference on Artificial Intelligence & Statistics (AI-STATS), JMLR W&CP 5:384-391, 2009. PDF
L.J.P. van der Maaten und G.E. Hinton. Visualisierung hochdimensionaler Daten mit t-SNE. Zeitschrift für Maschinelle Lernforschung 9(Nov):2579-2605, 2008. PDF [Ergänzendes Material] [Vortrag] [Vortrag
Ausführungen
Darunter ist die Verwendung von t-SNE in verschiedenen Dialekten zum Download verfügbar. Ein Teil dieser Ausführungen wurde von mir erstellt, und einige von verschiedenen Mäzenen. Für die Standard t-SNE-Technik ist die Verwendung in Matlab, C++, CUDA, Python, Light, R, Julia und JavaScript zugänglich. Außerdem geben wir eine Matlab-Ausführung von parametrischem t-SNE (hier abgebildet). Zuletzt geben wir eine Barnes-Hovel-Ausführung von t-SNE, die bis heute die schnellste t-SNE-Nutzung ist und die viel besser zu enormen Informationssammlungen skaliert.
Es ist Ihnen gestattet, dieses Produkt in jeder von Ihnen benötigten Eigenschaft zu nutzen, zu verändern oder weiterzugeben, jedoch nur für nicht geschäftliche Zwecke. Die Verwendung des Produkts erfolgt auf eigene Gefahr; die Urheber haften nicht für Schäden, die sich aus Fehlern im Produkt ergeben.
ANMERKUNG: t-SNE wird derzeit in Matlab und in SPSS auf seine Nützlichkeit hin geprüft!
Modelle
Einige Folgen unserer Tests mit t-SNE stehen unten zum Download bereit. In den Plots des Netflix-Datensatzes und des Wortdatensatzes wird die dritte Messung mit Methoden für eine Schattierungskodierung kodiert (vergleichende Wörter/Bewegungsbilder liegen nahe beieinander und haben eine ähnliche Schattierung). Die überwiegende Mehrheit der “Fehler” in den Einbettungen (z.B. in den 20 Newsgroups) sind in Wirklichkeit auf “Fehler” in den Glanzlichtern zurückzuführen, auf die t-SNE angewendet wurde. Bei einer großen Anzahl dieser Modelle weisen die Einbettungen einen 1-NN-Fehler auf, der dem der ersten hochdimensionalen Glanzlichter entspricht.