Wat is PCA?

Stel dat u moet voorzien wat de totale nationale productie (bruto binnenlands product) van de VS zal zijn voor 2017. U hebt heel wat gegevens beschikbaar: het bruto binnenlands product van de VS voor het belangrijkste kwartaal van 2017, het bruto binnenlands product van de VS voor het totaal van 2016, 2015, enz. U beschikt over een openlijk toegankelijke monetaire pointer, vergelijkbaar met het werkloosheidspercentage, het expansiepercentage, enz. U heeft Amerikaanse registratie-informatie uit 2010 die evalueert welk aantal Amerikanen in elke industrie en Amerikaanse People groep Review informatie verfrissende die beoordelingen in het midden van elke statistiek. U weet welk aantal personen uit het Huis en de Senaat een plaats hebben bij elke ideologische groep. U zou voorraadwaarde-informatie kunnen verzamelen, de hoeveelheid Initiële openbare aanbiedingen die in een jaar plaatsvinden en welk aantal Chiefs een aanbod voor een open kantoor lijken te doen. Ondanks het feit dat het een duizelingwekkend aantal factoren is om te overwegen, begint deze beurs te onthullen wat eronder zit.

U mag de vraag stellen: “Hoe zou ik het geheel van de factoren die ik heb verzameld in het middelpunt plaatsen van slechts een paar van hen? In gespecialiseerde termen, moet je “de component van je elementruimte verminderen.” Door het element van je elementruimte te verminderen, heb je minder connecties tussen factoren om te overwegen en ben je meer wars van overfit van je model. (Opmerking: Dit impliceert niet snel dat overfitting, en zo verder zijn nooit meer zorgen – echter, we bewegen de juiste manier!)

Tot op zekere hoogte wordt het verminderen van het element van de componentruimte uiteraard geclassificeerd als “dimensionaliteitsvermindering”. Er zijn tal van benaderingen om dimensionaliteitsvermindering te bereiken, maar een groot deel van deze procedures kan worden gecategoriseerd als een van de twee klassen:

Markeer Verwijdering

Markeer extractie

Highlight disposal is wat het lijkt: we verkleinen de ruimte van de componenten door het weglaten van highlights. In het bovenstaande model van het bruto binnenlands product kunnen we, in plaats van aan elke factor te denken, alle factoren laten vallen, met uitzondering van de drie waarvan we denken dat ze het best zullen voorzien wat de Verenigde Staten als de totale nationale productie zullen zien. Punten van belang van highlight end technieken omvatten moeiteloosheid en het bijhouden van de interpreteerbaarheid van uw factoren.

Als een slechte dienst, echter, krijg je geen gegevens van die variabelen die je hebt laten vallen. In het geval dat we gewoon gebruik maken van een jaar geleden het Bruto binnenlands product, de omvang van de bevolking in het verzamelen van beroepen per de laatste Amerikaanse People groep Studie nummers, en de werkloosheidsgraad om het huidige jaar Bruto binnenlands product te voorspellen, we gaan voorbij aan wat de gedropeerde factoren kunnen toevoegen aan ons model. Door hoogtepunten af te schaffen, hebben we bovendien alle voordelen die deze dropped factors met zich mee zouden brengen, volledig weggewerkt.

Hoogtepunten, hoe dan ook, komen niet in deze kwestie terecht. Laten we aannemen dat we tien autonome factoren hebben. In include extraction, we maken tien “nieuwe” autonome factoren, waarbij elke “nieuwe” vrije factor een mix is van elk van de tien “oude” autonome factoren. In ieder geval maken we deze nieuwe vrije variabelen met een bepaald doel voor ogen en vragen we deze nieuwe factoren door hoe goed ze onze afhankelijke variabele voorzien.

Je mag zeggen: “Waar wordt de dimensionaliteitsvermindering een integrale factor?” Nou, we houden hetzelfde aantal van de nieuwe vrije variabelen als we nodig hebben, maar we laten de “minst significante variabelen” vallen. Omdat we de nieuwe variabelen hebben gevraagd door hoe goed ze onze behoeftige variabele voorzien, realiseren we ons welke variabele het meest significant en het minst significant is. Hoe dan ook, – en hier is de kicker – op grond van het feit dat deze nieuwe vrije factoren een mix zijn van onze oude, ongeacht of we de meest significante stukken van onze oude factoren houden, in ieder geval wanneer we ten minste één van deze “nieuwe” variabelen laten vallen!

Hoofd segment onderzoek is een methode voor het opnemen van extractie – dus het consolideert onze informatie factoren met een bepaald doel in het achterhoofd, op dat moment kunnen we de “minst significante” factoren laten vallen, terwijl nog steeds de belangrijkste stukken van het geheel van de factoren! Als bijkomend voordeel is elk van de “nieuwe” factoren na PCA over het geheel genomen vrij van elkaar. Dit is een voordeel in het licht van het feit dat de veronderstellingen van een recht model vereisen dat onze autonome factoren vrij zijn van elkaar. Bij de kans dat we ervoor kiezen om een recht recidivemodel te voorzien van deze “nieuwe” variabelen (zie “hoofddeel recidief” hieronder), zal deze veronderstelling in wezen worden vervuld.

Wanneer zou het voor mij raadzaam zijn om PCA te gebruiken?

Zou u het aantal factoren willen verminderen, maar bent u niet bereid om factoren te herkennen om volledig uit het denken te verdwijnen?

Wilt u garanderen dat uw factoren vrij zijn van elkaar?

Is het waar dat u openstaat om uw vrije factoren minder interpreteerbaar te maken?

In het geval dat u “ja” heeft gezegd tegen elk van de drie vragen, is PCA op dat moment een fatsoenlijke strategie om te gebruiken. In het geval dat u “nee” heeft gezegd tegen 3, moet u geen gebruik maken van PCA.

Hoe werkt PCA?

Het segment na dit onderzoek onderzoekt waarom PCA werkt, maar het geven van een korte samenvatting voordat u in de berekening springt kan nuttig zijn voor het instellen:

We zullen een raamwerk bedenken dat schetst hoe onze factoren zich allemaal met elkaar identificeren.

We zullen op dat moment dit raster in twee afzonderlijke segmenten splitsen: rubriek en grootheid. We zouden dan in staat zijn om de “rubrieken” van onze informatie en de “omvang” ervan te begrijpen (of hoe “belangrijk” elke cursus is). De schermafbeelding hieronder, van de setosa.io-applet, toont de twee hoofdrichtingen in deze informatie: de “rode koers” en de “groene koers”. Voor deze situatie is de “rode koers” de meest significante. We zullen later ingaan op de vraag waarom dit de situatie is, maar gezien de manier waarop de vlekken zijn georganiseerd, zou u in staat zijn om een reden te zien waarom de “rode koers” belangrijker lijkt dan de “groene koers” (Indicatie: Waarop zou een lijn die het best past bij deze informatie kunnen lijken?)

https://miro.medium.com/max/374/1*P8_C9uk3ewpRDtevf9wVxg.png

We zullen onze unieke informatie wijzigen om in lijn te komen met deze belangrijke rubrieken (die een mix zijn van onze unieke factoren). De schermafbeelding hieronder (weer van setosa.io) is niet te onderscheiden precieze informatie van bovenaf, maar veranderd met als doel dat de x- en y-tomahawks momenteel de “rode koers” en de “groene koers” zijn. Hoe zou de lijn van de beste pasvorm er hier uit kunnen zien?

https://miro.medium.com/max/373/1*wsezmnzg-0N_RP3meYNXlQ.png

Hoewel het visuele model hier tweedimensionaal is (en langs deze lijnen hebben we twee “rubrieken”), denk dan aan een situatie waarin onze informatie meer metingen heeft. Door te onderscheiden welke “lagers” over het algemeen “significant” zijn, kunnen we onze informatie in een kleine ruimte verpakken of uitbreiden door de “koppen” te laten vallen die “het minst significant” zijn. Door te anticiperen op onze informatie in een kleine ruimte, verminderen we de dimensionaliteit van onze componentruimte… maar omdat we onze informatie op deze verschillende “manieren” hebben veranderd, hebben we een punt gemaakt om elke unieke variabele in ons model te behouden!