Dimensievermindering

In de wetenschap dat je al eerder met een dataset met veel hoogtepunten hebt gewerkt, kun je begrijpen dat het zo moeilijk is om de verbanden tussen de hoogtepunten te begrijpen of te onderzoeken. Het maakt de EDA-procedure lastig en beïnvloedt de presentatie van het AI-model, omdat de kans bestaat dat u uw model overbelast raakt of een deel van de verdenkingen van de berekening beschadigt, vergelijkbaar met de autonomie van de hoogtepunten in rechte lijn. Dit is de plaats waar de dimensionaliteitsvermindering binnenkomt. In AI is dimensionaliteitsvermindering de manier om het aantal onregelmatige factoren te verminderen door veel hoofdfactoren te krijgen. Door de component van je elementruimte te verminderen, heb je minder verbanden tussen de hoogtepunten om na te denken over welke effectief kunnen worden onderzocht en afgebeeld en bovendien ben je meer afkerig van overfit van je model.

Dimensionaliteitsvermindering kan op de bijbehorende manieren worden bereikt:

Highlight End: U vermindert de ruimte van het element door het weglaten van highlights. Dit is echter belastend, omdat u geen gegevens krijgt van de hoogtepunten die u hebt laten vallen.

Markeer Bepaling van de hoogtepunten: U past een aantal feitelijke tests toe om ze te rangschikken naar hun betekenis en selecteert daarna een deelverzameling van de hoogtepunten voor uw werk. Dit ondervindt opnieuw gegevensmislukking en is minder stabiel, aangezien verschillende tests diverse betekenisscores aan hoogtepunten geven. U kunt hier meer over lezen.

Markeer extractie: U maakt nieuwe vrije highlights, waarbij elk nieuw autonoom onderdeel een mix is van elk van de oude autonome highlights. Deze systemen kunnen bovendien worden gescheiden in directe en niet-rechtstreekse dimensionale reductieprocedures.

Hoofd Onderdeel Onderzoek (PCA)

Head Part Investigation of PCA is een rechte component extractie strategie. Het speelt een directe mapping van de informatie naar een laagdimensionale ruimte uit, zodat de fluctuatie van de informatie in de laagdimensionale weergave wordt vergroot. Het doet dit als zodanig door de eigenvectoren uit het covariantie raamwerk te halen. De eigenvectoren die betrekking hebben op de grootste eigenwaarden (de belangrijkste onderdelen) worden gebruikt om een opmerkelijk deel van het verschil van de eerste informatie na te bootsen.

In meer eenvoudige termen, PCA consolideert uw informatie met een bepaald doel voor ogen dat u de minst significante component kunt laten vallen terwijl u nog steeds de belangrijkste stukken van het geheel van de hoogtepunten vasthoudt. Een bijkomend voordeel is dat alle nieuwe highlights of segmenten die na PCA worden gemaakt, over het geheel genomen autonoom zijn.

t-Dispersed Stochastic Neighbor Implanting (t-SNE)

t-Dispersed Stochastic Neighbor Implanting (t-SNE) is een niet-directe strategie voor dimensionaliteitsvermindering die vooral geschikt is voor de perceptie van hoogdimensionale datasets. Het wordt breed toegepast in beeldverwerking, NLP, genomische informatie en discoursvoorbereiding. Om het overzichtelijk te houden is hier een beknopt schema van de werking van t-SNE:

De berekeningen beginnen met het berekenen van de waarschijnlijkheid van de nabijheid van focussen in de hoogdimensionale ruimte en het vaststellen van de waarschijnlijkheid van de vergelijkbaarheid van focussen in de betreffende laagdimensionale ruimte. De nabijheid van de focus wordt bepaald als de contingente waarschijnlijkheid dat een punt A punt B als zijn buurman zou kiezen als buren werden geplukt in relatie tot hun waarschijnlijkheid dikte onder een Gaussische (typische verspreiding) gericht op A.

Het probeert op dat punt het contrast tussen deze beperkende waarschijnlijkheden (of similitudes) in de hoger-dimensionale en lager-dimensionale ruimte te beperken voor een ideale weergave van informatie die zich concentreert in de lager-dimensionale ruimte.

Om de minimalisatie van het totaal van het onderscheid van contingente waarschijnlijkheid t-SNE te kwantificeren wordt het totaal van Kullback-Leibler ongelijkheid van in het algemeen informatie gericht op het gebruik van een hoek kelderende strategie.

Opmerking Kullback-Leibler verschil of KL uniciteit is een deel van hoe een waarschijnlijkheidsspreiding van een tweede, verwachte waarschijnlijkheid toe-eigening.

De personen die graag de punt-voor-punt werking van een berekening kennen, kunnen verwijzen naar dit onderzoeksdocument.

Gemakkelijker gezegd, t-Disseminated stochastische naburige implantatie (t-SNE) beperkt het verschil tussen twee kredieten: een overdracht die paarsgewijze gelijkenissen van de informatieobjecten meet en een circulatie die paarsgewijze similitudes van de vergelijkende laagdimensionale focus in de installatie meet.

Zo brengt t-SNE de multi-dimensionale informatie in kaart in een laagdimensionale ruimte en probeert het ontwerpen in de informatie te ontdekken door onderscheid te maken tussen de bewaakte bundels die afhankelijk zijn van de nabijheid van de informatie en die zich richten op verschillende hoogtepunten. In ieder geval zijn de informatie-highlights na deze procedure nooit meer herkenbaar en kun je geen enkele afleiding afhankelijk maken van de opbrengst van t-SNE. Voortaan is het voor het grootste deel een informatie-onderzoek en representatiemethode.

PCA versus t-SNE

Hoewel zowel PCA als t-SNE hun eigen voorkeuren en lasten hebben, kunnen enkele belangrijke contrasten tussen PCA en t-SNE worden opgemerkt als nagestreefd:

t-SNE is rekenkundig kostbaar en kan een paar uur duren op miljoenen voorbeelddatasets waar PCA direct of binnen enkele minuten klaar is.

PCA is een numerieke procedure, maar t-SNE is een probabilistische procedure.

Rechte dimensionaliteitsreductieberekeningen, zoals PCA, richten zich op het instellen van unieke informatie die ver uit elkaar ligt in een lager meetbeeld. Hoe het ook zij, om te spreken over hoge meetinformatie bij lage metingen, niet-rechtstreekse complexe, is het van fundamenteel belang dat vergelijkende informatie gericht wordt op elkaar, wat iets is wat t-SNE niet PCA doet.

In t-SNE kunnen verschillende runs met vergelijkbare hyperparameters verschillende resultaten opleveren, zodat er verschillende plots moeten worden gezien voordat er een evaluatie met t-SNE wordt gemaakt, terwijl dit bij PCA niet het geval is.

Aangezien PCA een rechte berekening is, zal het niet de mogelijkheid hebben om de ingewikkelde polynomiale verbinding tussen de hoogtepunten te ontcijferen, terwijl t-SNE juist gemaakt is om dat te vangen.