El Implante de Vecinos Estocásticos Dispersos (t-SNE) es un sistema (premiado) de disminución de la dimensionalidad que es especialmente apropiado para la percepción de conjuntos de datos de alta dimensión. El procedimiento puede ejecutarse mediante aproximaciones de Barnes-Cottage, lo que permite aplicarlo a enormes conjuntos de datos mundiales genuinos. Lo aplicamos en colecciones de información con hasta 30 millones de modelos. El procedimiento y sus variaciones se presentan en los documentos adjuntos:

L.J.P. van der Maaten. Acelerando el t-SNE usando algoritmos basados en árboles. Journal of Machine Learning Research 15(Oct):3221-3245, 2014.  PDF [Material complementario]

L.J.P. van der Maaten y G.E. Hinton. Visualizando las similitudes no métricas en múltiples mapas. Machine Learning 87(1):33-55, 2012.  PDF

L.J.P. van der Maaten. Aprendiendo una integración paramétrica mediante la preservación de la estructura local. En las actas de la duodécima Conferencia Internacional de Inteligencia Artificial y Estadística (AI-STATS), JMLR W&CP 5:384-391, 2009.  PDF

L.J.P. van der Maaten y G.E. Hinton. Visualizando datos de alta dimensión usando el t-SNE. Journal of Machine Learning Research 9(Nov):2579-2605, 2008.  PDF [Material complementario] [Charla]

Ejecuciones

Debajo, el uso del t-SNE en diferentes dialectos es accesible para su descarga. Una parte de estas ejecuciones fue creada por mí, y algunas por diferentes clientes. Para la técnica estándar del t-SNE, el uso en Matlab, C++, CUDA, Python, Light, R, Julia, y JavaScript son accesibles. Además, damos una ejecución en Matlab del t-SNE paramétrico (representado aquí). Por último, damos una ejecución Barnes-Hovel de t-SNE que es el uso más rápido de t-SNE hasta la fecha, y que escala mucho mejor a enormes colecciones de información.

Se le permite utilizar, cambiar o redistribuir este producto en cualquier capacidad que necesite, aunque sólo sea para fines no comerciales. La utilización del producto es bajo su propio riesgo; los creadores no son responsables de ningún daño posterior por errores en el producto.

NOTA: ¡el t-SNE se trabaja actualmente en utilidad en Matlab y en SPSS!

Modelos

Algunas de las consecuencias de nuestras pruebas con el t-SNE están accesibles para su descarga debajo. En los gráficos del conjunto de datos de Netflix y del conjunto de datos de palabras, la tercera medida está codificada por métodos para una codificación de sombreado (las palabras comparativas/imágenes en movimiento están cerca unas de otras y tienen un sombreado similar). La gran mayoría de los “errores” en las incrustaciones, (por ejemplo, en los 20 grupos de noticias) se deben en realidad a “errores” en los puntos destacados en los que se aplicó el t-SNE. En un gran número de estos modelos, las incrustaciones tienen un error de 1-NN que es equivalente al de las primeras luces de alta dimensión.