https://miro.medium.com/max/560/1*G8IuVJHcNoanmQvQIGcwsQ.png
Welkom bij de tweede waagsteen van Supervised Machine Learning. Ook deze sectie is weer onderverdeeld in twee secties. Sectie 1 (deze) onderzoekt de hypothese, de werking en de afstemmingsparameters. Sectie 2 (hier) nemen we kleine codeeractiviteitsuitdagingen aan.

In het geval dat je de Naive Bayes niet hebt gelezen, stel ik voor dat je het hier intensief doorleest.

0. Inleiding

Een Support Vector Machine (SVM) is een discriminerende classificator die officieel wordt gekenmerkt door een isolerend hypervlak. Aan het eind van de dag, gegeven de naam voorbereidingsinformatie (administered learning), levert de berekening een ideale hyperplane op die nieuwe modellen ordent. In de tweedimensionale ruimte is dit hypervlak een lijn die een vlak in twee delen isoleert, waarbij in elke klasse aan weerszijden van het vlak ligt.

https://miro.medium.com/max/600/1*BpeH5_M58kJ5xXfwzxI8yA.png

Je hebt misschien gedacht aan iets als na (foto B). Het isoleert de twee klassen fatsoenlijk. Elk punt dat links van de lijn ligt, valt in een klasse met donkere cirkels en rechts in een klasse met blauwe vierkanten. Een onthechting van klassen. Dat is wat SVM doet. Het ontdekt een lijn/hypervlak (in de multidimensionale ruimte die verschillende klassen onthecht). We zullen het zonder meer hebben over de reden waarom ik de multidimensionale ruimte heb gecomponeerd.

1. Het maakt het een beetje complex…

Tot nu toe geen problemen. Denk nu eens na over een scenario waarin we informatie hadden zoals in het onderstaande plaatje is weergegeven. Onmiskenbaar is er geen lijn die de twee klassen in dit x-y vlak kan isoleren. Wat doen we dan wel? We passen de verandering toe en nemen nog een meting op zoals we het z-hub noemen. Laten we de schatting van de focus op het z-vlak accepteren, w = x² + y². Voor deze situatie kunnen we het controleren als een scheiding van het punt van z-ontvangst. In het geval dat we in het z-vlak plotten, ligt een onmiskenbare scheiding voor de hand en kan er een lijn getekend worden.

https://miro.medium.com/max/600/1*C3j5m3E3KviEApHKleILZQ.png

https://miro.medium.com/max/600/1*FLolUnVUjqV0EGm3CYBPLw.png

Wanneer we deze lijn terug transformeren naar het originele vlak, wordt deze in kaart gebracht naar de cirkelvormige grens zoals weergegeven in afbeelding E. Deze transformaties worden kernels genoemd.

2. 2. Het maakt het iets ingewikkelder…

Wat als de dataplannen elkaar overlappen? Of, wat als sommige van de zwarte punten in de blauwe zitten? Welke lijn tussen 1 of 2 moeten we trekken?

Welke denk je? Alles in aanmerking genomen, zijn beide de juiste reacties. De eerste verdragen enige uitzondering concentreert zich. De volgende probeert 0 veerkracht te bereiken met een onberispelijk segment.

In ieder geval is er een uitwisseling. In certificeerbare toepassing, het ontdekken van de ideale klasse voor veel het voorbereiden van informatieve index duurt een pak van tijd. Zoals u in de codering vindt. Dit wordt de regularisatieparameter genoemd. In het volgende segment karakteriseren we twee termen regularisatieparameter en gamma. Dit zijn afstemmingsparameters in de SVM classifier. Deze kunnen we uitgebreid in rechte volgorde en met meer precisie in een verstandige tijdsmaat bereiken. In de codeeroefening (deel 2 van dit deel) zullen we zien hoe we de exactheid van SVM kunnen opbouwen door deze parameters te tunen.

Een andere parameter is een onderdeel. Het karakteriseert of we een rechte van directe deling nodig hebben. Dit wordt ook besproken in het volgende gebied.

Afstemparameters: Piece, Regularization, Gamma en Edge.

Stukje

Het leren van het hypervlak in rechte SVM wordt voltooid door het veranderen van de kwestie met behulp van een aantal directe variabele gebaseerde wiskunde. Dit is de plaats waar het gedeelte een baan aanneemt.

Voor het rechte gedeelte wordt de voorwaarde voor de verwachting voor een andere info met behulp van het dab-item tussen de informatie (x) en elke helpvector (xi) bepaald zoals nagestreefd:

Afstemmingsparameters: Deel, Regularisatie, Gamma en Rand.

Deel

Het leren van het hypervlak in directe SVM wordt voltooid door het veranderen van de kwestie met behulp van een aantal rechte variabele gebaseerde wiskunde. Dit is de plaats waar het stuk zijn werk aanneemt.

Voor directe bit wordt de voorwaarde voor de verwachting voor een andere info met behulp van het spot-item tussen de informatie (x) en elke hulpvector (xi) bepaald als nastreeft:

f(x) = B(0) + som(ai * (x,xi))

Dit is een voorwaarde die inhoudt dat de interne resultaten van een andere informatievector (x) met alle hulpvectoren bij de voorbereiding van informatie worden vastgesteld. De coëfficiënten B0 en ai (voor elke informatie) moeten worden geëvalueerd uit de voorbereidingsinformatie door de leerberekening.

Het polynomiale deel kan worden samengesteld als K(x,xi) = 1 + som(x * xi)^d en exponentieel als K(x,xi) = exp(- gamma * som((x – xi²)). [Bron voor dit gedeelte : http://machinelearningmastery.com/].

Polynomiale en exponentiële delen bepalen de scheidingslijn in hogere metingen. Dit wordt stukstunt genoemd

Regularisatie

De regularisatieparameter (vaak genoemd als C-parameter in de sklearnbibliotheek van Python) vertelt de SVM dat de hoeveelheid die u nodig hebt om zich te onthouden van het verkeerd classificeren van elk voorbereidingsmodel, gestroomlijnd moet worden.

https://miro.medium.com/max/600/1*1dwut8cWQ-39POHV48tv4w.png

https://miro.medium.com/max/600/1*gt_dkcA5p0ZTHjIpq1qnLQ.png

Voor enorme schattingen van C, zal de stroomlijning kiezen voor een beetje meer rand hyperplane als dat hyperplane maakt een superieure show van het krijgen van alle voorbereiding richt zich nauwkeurig gerangschikt. Aan de andere kant zal een uitzonderlijk kleine schatting van C ervoor zorgen dat de analysator op zoek gaat naar een groter randisolerend hypervlak, ongeacht of dat hypervlak meer focussen verkeerd classificeert.

De foto’s hieronder (hetzelfde als foto 1 en foto 2 in gebied 2) zijn een geval van twee verschillende regularisatieparameters. De linker heeft enige misclassificatie vanwege de lagere legalisatiewaarde. Hogere waarde leidt tot resultaten zoals de rechter.

Gamma

De gammaparameter kenmerkt hoe ver de impact van een solitair voorbereidend model reikt, met lage kwaliteiten die ‘ver’ betekenen en hoge kwaliteiten die ‘dichtbij’ betekenen. Als zodanig, met laag gamma, richt zich ver weg van de denkbare scheidingslijn worden beschouwd in de berekening voor de scheidingslijn. Waar een hoog gamma betekent dat de focus dicht bij de denkbare lijn ligt, wordt dit in de schatting meegenomen.

Marge

Tot slot nog een laatste, maar zeer belangrijke eigenschap van de SVM-indeling. SVM te centreren probeert een fatsoenlijke rand te bereiken.

Een Marge is een partitie van een lijn naar de dichtstbijzijnde klasse focus.

Een fatsoenlijke rand is een waar deze partitie groter is voor beide klassen. Foto’s hieronder zorgen voor de visuele gevallen van goede en vreselijke rand. Een fatsoenlijke rand maakt het mogelijk om de focus in de betreffende klasse te leggen zonder dat er een andere klasse wordt aangeraakt.