https://miro.medium.com/max/560/1*G8IuVJHcNoanmQvQIGcwsQ.png
Bienvenue à la deuxième pierre de l’apprentissage machine supervisé. Une fois de plus, cette section est divisée en deux parties. La section 1 (celle-ci) examine l’hypothèse, le fonctionnement et les paramètres de réglage. La section 2 (ici) relève les petits défis de l’activité de codage.

Au cas où vous n’auriez pas lu le Naive Bayes, je vous propose de le parcourir ici de manière intensive.

0. Introduction

Une machine à vecteur de soutien (SVM) est un classificateur discriminant officiellement caractérisé par un hyperplan isolant. A la fin de la journée, grâce à des informations nommées de préparation (apprentissage administré), le calcul donne un hyperplan idéal qui arrange de nouveaux modèles. Dans l’espace bidimensionnel, cet hyperplan est une ligne isolant un plan en deux sections où chaque classe se trouve de part et d’autre.

https://miro.medium.com/max/600/1*BpeH5_M58kJ5xXfwzxI8yA.png

Vous avez peut-être pensé à quelque chose comme après (photo B). Il isole décemment les deux classes. Tout point à gauche de la ligne tombe dans la classe des cercles noirs et à droite dans celle des carrés bleus. Un détachement des classes. C’est ce que fait le MVC. Il découvre une ligne/hyper-plane (dans un espace multidimensionnel que les différentes classes se détachent). Sans plus attendre, nous allons parler de la raison pour laquelle j’ai composé l’espace multidimensionnel.

1. Le rendre un peu complexe…

Aucun problème jusqu’à présent. Pensez actuellement à imaginer un scénario dans lequel nous disposons des informations telles qu’elles apparaissent dans l’image ci-dessous. Il est évident qu’aucune ligne ne peut isoler les deux classes dans ce plan x-y. Alors, que faire ? Nous appliquons le changement et incluons une mesure supplémentaire que nous appelons z-hub. Acceptons l’estimation des foyers sur le plan z, w = x² + y². Pour cette situation, nous pouvons la contrôler comme une séparation du point de départ de z. Actuellement, dans le cas où nous traçons le pivot z, une partition sans équivoque est évidente et une ligne peut être tracée.

https://miro.medium.com/max/600/1*C3j5m3E3KviEApHKleILZQ.png

https://miro.medium.com/max/600/1*FLolUnVUjqV0EGm3CYBPLw.png

Lorsque nous transformons cette ligne pour la ramener au plan d’origine, elle correspond à la limite circulaire comme le montre l’image E. Ces transformations sont appelées “noyaux”.

2. Ce qui rend la chose un peu plus complexe…

Que se passe-t-il si les données se chevauchent ? Ou si certains des points noirs se trouvent à l’intérieur des points bleus ? Quelle ligne parmi 1 ou 2 ? devrions-nous tracer ?

Laquelle, à votre avis ? Tout bien considéré, les deux réponses appropriées sont bonnes. Les premières supportent quelques foyers d’exception. La suivante tente d’atteindre la résilience 0 avec un segment impeccable.

Dans tous les cas, il y a un échange off. En application certifiée, la découverte de la classe idéale pour beaucoup de personnes préparant un index informationnel prend beaucoup de temps. Comme vous le constaterez dans le codage. C’est ce qu’on appelle le paramètre de régularisation. Dans le segment suivant, nous caractérisons deux termes : paramètre de régularisation et gamma. Ce sont les paramètres de régularisation dans le classificateur SVM. En déplaçant ces paramètres, nous pouvons obtenir une ligne d’ordre droite étendue avec une plus grande précision dans une mesure de temps raisonnable. Dans l’exercice de codage (section 2 de cette partie), nous verrons comment nous pouvons construire l’exactitude du SVM en réglant ces paramètres.

Un paramètre supplémentaire est une partie. Il détermine si nous avons besoin d’une droite de division directe. Il en est de même dans le domaine suivant.

Réglage des paramètres : Piece, Régularisation, Gamma et Edge.

Piece

L’apprentissage de l’hyperplan dans le MVC en ligne droite est terminé en changeant la question à l’aide de quelques mathématiques basées sur des variables directes. C’est à cet endroit que la partie assume un travail.

Pour la partie droite, la condition d’attente d’une autre information utilisant l’élément de la table de conversion entre l’information (x) et chaque vecteur d’aide (xi) est déterminée comme une poursuite :

Paramètres de réglage : Partie, Régularisation, Gamma et Bord.

Partie

L’apprentissage de l’hyperplan en SVM direct est terminé en changeant la question à l’aide de quelques mathématiques basées sur des variables droites. C’est là que la pièce assume son rôle.

Pour le bit direct, la condition d’attente d’une autre information utilisant l’élément ponctuel entre l’information (x) et chaque vecteur d’aide (xi) est déterminée comme une poursuite :

f(x) = B(0) + somme(ai * (x,xi))

C’est une condition qui inclut la vérification des résultats internes d’un autre vecteur d’information (x) avec tous les vecteurs d’aide à la préparation de l’information. Les coefficients B0 et ai (pour chaque information) doivent être évalués à partir de l’information de préparation par le calcul d’apprentissage.

La partie polynomiale peut être composée comme K(x,xi) = 1 + somme(x * xi)^d et exponentielle comme K(x,xi) = exp(- gamma * somme((x – xi²)). [Source pour cette partie : http://machinelearningmastery.com/].

Les parties polynomiales et exponentielles déterminent la ligne de séparation dans la mesure supérieure. C’est ce qu’on appelle le “piece stunt

Régularisation

Le paramètre de Régularisation (fréquemment nommé paramètre C dans la bibliothèque sklearn de python) indique au SVM de rationaliser la quantité dont vous avez besoin pour vous abstenir de mal classer chaque modèle de préparation.

https://miro.medium.com/max/600/1*1dwut8cWQ-39POHV48tv4w.png

https://miro.medium.com/max/600/1*gt_dkcA5p0ZTHjIpq1qnLQ.png

Pour les estimations importantes de C, la rationalisation choisira un hyperplan de bord plus petit si cet hyperplan montre mieux que les autres que tous les points de préparation sont disposés avec précision. D’autre part, une estimation exceptionnellement faible de C amènera l’analyseur à rechercher un hyperplan d’isolement à bord plus large, indépendamment du fait que cet hyperplan classe mal plus de points.

Les images ci-dessous (comme l’image 1 et l’image 2 dans la zone 2) sont un cas de deux paramètres de régularisation différents. La photo de gauche est mal classée en raison d’une plus faible régularisation. Une valeur plus élevée entraîne des résultats comme celui de droite.

Gamma

Le paramètre gamma caractérise l’étendue de l’impact d’un modèle de préparation solitaire, les qualités faibles signifiant “loin” et les qualités élevées signifiant “proche”. Ainsi, avec un gamma faible, les foyers éloignés de la ligne de séparation concevable sont pris en compte dans le calcul de la ligne de séparation. Lorsque le gamma est élevé, les foyers proches de la ligne de séparation concevable sont pris en compte dans l’estimation.

Marge

Enfin, dernier trait cependant très important du classificateur SVM. Le SVM pour centrer les tentatives de réaliser un avantage décent.

Une Marge est une partition d’une ligne vers les foyers de classe les plus proches.

Un bord décent est un bord où cette partition est plus grande pour les deux classes. Les images ci-dessous illustrent les cas visuels de bon et de mauvais bord. Un bord décent permet aux foyers d’être dans leur classe particulière sans intersection avec une autre classe.