Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

El Implante de Vecinos Estocásticos Dispersos (t-SNE) es un sistema (premiado) de disminución de la dimensionalidad que es especialmente apropiado para la percepción de conjuntos de datos de alta dimensión. El procedimiento puede ejecutarse mediante aproximaciones de Barnes-Cottage, lo que permite aplicarlo a enormes conjuntos de datos mundiales genuinos. Lo aplicamos en colecciones de información con hasta 30 millones de modelos. El procedimiento y sus variaciones se presentan en los documentos adjuntos:

L.J.P. van der Maaten. Acelerando el t-SNE usando algoritmos basados en árboles. Journal of Machine Learning Research 15(Oct):3221-3245, 2014.  PDF [Material complementario]

L.J.P. van der Maaten y G.E. Hinton. Visualizando las similitudes no métricas en múltiples mapas. Machine Learning 87(1):33-55, 2012.  PDF

L.J.P. van der Maaten. Aprendiendo una integración paramétrica mediante la preservación de la estructura local. En las actas de la duodécima Conferencia Internacional de Inteligencia Artificial y Estadística (AI-STATS), JMLR W&CP 5:384-391, 2009.  PDF

L.J.P. van der Maaten y G.E. Hinton. Visualizando datos de alta dimensión usando el t-SNE. Journal of Machine Learning Research 9(Nov):2579-2605, 2008.  PDF [Material complementario] [Charla]

Ejecuciones

Debajo, el uso del t-SNE en diferentes dialectos es accesible para su descarga. Una parte de estas ejecuciones fue creada por mí, y algunas por diferentes clientes. Para la técnica estándar del t-SNE, el uso en Matlab, C++, CUDA, Python, Light, R, Julia, y JavaScript son accesibles. Además, damos una ejecución en Matlab del t-SNE paramétrico (representado aquí). Por último, damos una ejecución Barnes-Hovel de t-SNE que es el uso más rápido de t-SNE hasta la fecha, y que escala mucho mejor a enormes colecciones de información.

Se le permite utilizar, cambiar o redistribuir este producto en cualquier capacidad que necesite, aunque sólo sea para fines no comerciales. La utilización del producto es bajo su propio riesgo; los creadores no son responsables de ningún daño posterior por errores en el producto.

NOTA: ¡el t-SNE se trabaja actualmente en utilidad en Matlab y en SPSS!

Modelos

Algunas de las consecuencias de nuestras pruebas con el t-SNE están accesibles para su descarga debajo. En los gráficos del conjunto de datos de Netflix y del conjunto de datos de palabras, la tercera medida está codificada por métodos para una codificación de sombreado (las palabras comparativas/imágenes en movimiento están cerca unas de otras y tienen un sombreado similar). La gran mayoría de los “errores” en las incrustaciones, (por ejemplo, en los 20 grupos de noticias) se deben en realidad a “errores” en los puntos destacados en los que se aplicó el t-SNE. En un gran número de estos modelos, las incrustaciones tienen un error de 1-NN que es equivalente al de las primeras luces de alta dimensión.

Languages

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.