¿Qué es PCA?

Suponga que necesita prever cuál será la producción nacional total (Producto Interior Bruto) de los EE.UU. para 2017. Tienes montones de datos accesibles: el producto interior bruto de los EE.UU. para el trimestre principal de 2017, el producto interior bruto de los EE.UU. para el total de 2016, 2015, etc. Tienes cualquier indicador monetario abiertamente accesible, similar a la tasa de desempleo, la tasa de expansión, etc. Usted tiene información de registro de EE.UU. de 2010 evaluando qué número de estadounidenses trabajan en cada industria y la información de Revisión de grupos de personas estadounidenses que refresca esas evaluaciones en el medio de cada estadística. Usted sabe qué número de individuos de la Cámara y el Senado tienen un lugar en cada grupo ideológico. Podrías acumular información sobre el valor de las acciones, la cantidad de ofertas públicas iniciales que ocurren en un año, y qué número de Jefes parecen montar una oferta de oficina abierta. A pesar de ser un número asombroso de factores a considerar, esta feria comienza a exponer lo que hay debajo.

Puede plantear la pregunta, “¿Cómo tomaría la totalidad de los factores que he reunido y los centraría en un par de ellos?” En términos especializados, necesitas “disminuir el componente de tu espacio elemental”. Al disminuir el elemento de tu espacio elemental, tienes menos conexiones entre los factores a considerar y eres más reacio a sobreponerte a tu modelo. (Nota: Esto no implica rápidamente que el sobreajuste, y así sucesivamente nunca más sean preocupaciones – sin embargo, ¡nos estamos moviendo en el camino correcto!)

Hasta cierto punto, obviamente, la disminución del elemento del espacio del componente se clasifica como “disminución de la dimensionalidad”. Hay numerosos enfoques para lograr la disminución de la dimensionalidad, sin embargo, una gran parte de estos procedimientos se pueden clasificar como una de dos clases:

Destacar la eliminación

Destacar la extracción

La eliminación de resaltes es lo que parece: disminuimos el espacio de los componentes al prescindir de los resaltes. En el modelo de producto interno bruto anterior, en lugar de pensar en todos y cada uno de los factores, podemos dejar de lado todos los factores, con la excepción de los tres que creemos que mejor preverán a qué se parecerá el producto nacional total de los EE.UU. Los puntos de interés de las técnicas de resalte final incorporan la facilidad de esfuerzo y el mantenimiento de la interpretabilidad de sus factores.

Sin embargo, como un mal servicio, no obtienes datos de esas variables que has dejado caer. En el caso de que utilicemos el producto interno bruto de hace un año, la extensión de la población en el ensamblaje de ocupaciones según los últimos números del Estudio del Grupo de la Gente Americana, y la tasa de desempleo para prever el producto interno bruto del año actual, estamos dejando pasar lo que sea que los factores descartados puedan añadir a nuestro modelo. Al prescindir de los aspectos destacados, hemos eliminado totalmente las ventajas que esos factores de caída podrían traer.

La extracción de resaltados, sea como sea, no se encuentra en este tema. Supongamos que tenemos diez factores autónomos. Al incluir la extracción, hacemos diez “nuevos” factores autónomos, donde cada “nuevo” factor libre es una mezcla de cada uno de los diez “viejos” factores autónomos. En cualquier caso, hacemos estas nuevas variables libres con un cierto objetivo en mente y solicitamos estos nuevos factores por lo bien que prevén nuestra variable dependiente.

Puedes decir: “¿Dónde se convierte la disminución de la dimensionalidad en un factor integral?” Bueno, mantenemos el mismo número de nuevas variables libres que necesitamos, sin embargo, dejamos caer las “menos significativas”. Dado que solicitamos las nuevas variables por lo bien que prevén nuestra variable necesitada, nos damos cuenta de qué variable es la más significativa y la menos significativa. Sea como fuere, – y aquí está la sorpresa – sobre la base de que estos nuevos factores libres son mezclas de nuestros antiguos, sin embargo nos quedamos con las piezas más significativas de nuestros antiguos factores, en cualquier caso, cuando dejamos caer al menos una de estas “nuevas” variables!

La investigación del segmento de cabeza es un método para incluir la extracción – por lo que consolida nuestros factores de información con un cierto objetivo en mente, en ese punto podemos dejar caer los factores “menos significativos”, mientras que todavía mantenemos las piezas más importantes de la totalidad de los factores! Como ventaja adicional, cada uno de los “nuevos” factores después de PCA está en su conjunto libre de los demás. Esta es una ventaja a la luz del hecho de que las presunciones de un modelo recto requieren que nuestros factores autónomos estén libres unos de otros. En la remota posibilidad de que elijamos ajustar un modelo de recaída recta con estas “nuevas” variables (ver “recaída de la parte superior” debajo), esta presunción se cumplirá esencialmente.
¿Cuándo sería aconsejable para mí utilizar el PCA?

¿Le gustaría disminuir el número de factores, sin embargo, no está listo para reconocer factores para expulsar totalmente del pensamiento?

¿Quisiera garantizar que sus factores estén libres de otros?

¿Es cierto que está dispuesto a hacer que sus factores libres sean menos interpretables?

En el caso de que haya respondido “sí” a cada una de las tres preguntas, en ese momento, PCA es una estrategia decente a utilizar. En el caso de que haya dicho “no” a la tercera pregunta, no debería utilizar PCA.
¿Cómo funciona PCA?

El segmento siguiente examina por qué funciona PCA, sin embargo dar una breve sinopsis antes de saltar al cálculo podría ser útil para el ajuste:

Vamos a elaborar un marco de trabajo que esboza cómo nuestros factores se identifican unos con otros.

En ese punto separaremos esta red en dos segmentos separados: encabezamiento y grandeza. Entonces seríamos capaces de comprender los “encabezamientos” de nuestra información y su “extensión” (o cuán “significativo” es cada curso). La captura de pantalla de abajo, del applet setosa.io, muestra los dos principales rumbos de esta información: el “rumbo rojo” y el “encabezamiento verde”. Para esta situación, el “rumbo rojo” es el más significativo. Más adelante veremos por qué es esta situación, sin embargo, dada la forma en que están organizados los puntos, ¿podría percibir alguna razón por la que el “rumbo rojo” parece más significativo que el “rumbo verde”? (Indicación: ¿A qué podría parecerse una línea de mejor ajuste a esta información?)

https://miro.medium.com/max/374/1*P8_C9uk3ewpRDtevf9wVxg.png

Cambiaremos nuestra información única para alinearla con estos encabezados significativos (que son mezclas de nuestros factores únicos). La captura de pantalla de abajo (de nuevo de setosa.io) es información precisa indistinguible de la de arriba, pero cambiada con el objetivo de que los x e y-tomahawks sean actualmente el “rumbo rojo” y el “rumbo verde”. ¿Cómo podría ser la línea de mejor ajuste aquí?

https://miro.medium.com/max/373/1*wsezmnzg-0N_RP3meYNXlQ.png

Mientras que el modelo visual aquí es bidimensional (y a lo largo de estas líneas tenemos dos “encabezamientos”), consideremos una situación en la que nuestra información tiene más medidas. Distinguiendo qué “rumbos” son generalmente “significativos”, podemos empaquetar o extender nuestra información en un pequeño espacio dejando caer los “encabezados” que son los “menos significativos”. Al anticipar nuestra información en un pequeño espacio, estamos disminuyendo la dimensionalidad de nuestro espacio componente… pero desde que hemos cambiado nuestra información en estas diversas “formas”, hemos hecho un punto para mantener cada variable única en nuestro modelo!