Irregular Forest est l’un des calculs d’IA les plus célèbres et les plus dominants. C’est une sorte de calcul d’IA de troupe appelé Bootstrap Aggregation ou packing.

Dans cet article, vous trouverez le calcul de la collecte de sacs et le calcul de la forêt aléatoire pour la démonstration de la prescience. Après avoir lu ce billet, vous y réfléchirez :

La stratégie bootstrap pour évaluer les quantités mesurables à partir de tests.

Le calcul de l’agrégation bootstrap pour réaliser divers modèles à partir d’un ensemble de données préparatoires solitaires.

Le calcul de Random Forest qui apporte un petit changement à l’ensachage et donne un classificateur extrêmement novateur.

Méthode Bootstrap

Avant d’en arriver à Bagging, nous devrions enquêter sur un système d’établissement important appelé le bootstrap.

Le bootstrap est une incroyable technique mesurable pour évaluer un montant à partir d’un test d’information. Il est moins exigeant à comprendre si la quantité est une mesure éclairante, par exemple, une moyenne ou un écart type.

Et si nous acceptions d’avoir un exemple de 100 qualités (x) et que nous voulions avoir une idée de la moyenne de l’exemple.

Nous pouvons légitimement calculer la moyenne à partir de l’exemple comme :

moyenne(x) = 1/100 * somme(x)

Nous nous rendons compte que notre exemple est peu de chose et que notre moyen s’y est trompé. Nous pouvons améliorer l’évaluation de notre moyenne en utilisant la technique du bootstrap :

Faire de nombreux (par exemple 1000) sous-tests irréguliers de notre ensemble de données avec une substitution (ce qui signifie que nous pouvons choisir une valeur similaire à différentes occasions).

Déterminez la moyenne de chaque sous-test.

Vérifier la normalité de l’ensemble des méthodes que nous avons recueillies et les utiliser comme moyen d’évaluation des informations.

Par exemple, supposons que nous utilisions 3 rééchantillons et obtenions les qualités moyennes 2,3, 4,5 et 3,3. En prenant la normale de ces qualités, nous pourrions prendre la moyenne évaluée de l’information comme étant 3,367.

Cette procédure peut être utilisée pour évaluer différents montants comme l’écart type et même les montants utilisés dans les calculs de l’IA, en tant que coefficients universitaires.

Collection de bootstraps (rangement)

Le Bootstrap Accumulation (ou Sacking pour faire court) est une technique de troupe simple et exceptionnellement novatrice.

Une stratégie de troupe est une méthode qui consolide les attentes de divers calculs d’IA ensemble pour faire des prévisions plus exactes que n’importe quel modèle individuel.

L’accumulation bootstrap est une stratégie générale qui peut être utilisée pour réduire le changement pour ce calcul qui a une grande différence. Un calcul qui présente une grande différence est celui des arbres de choix, similaire aux arbres de caractérisation et de rechute (Truck).

Les arbres de choix sont délicats à l’égard des informations particulières sur lesquelles ils sont préparés. Si par hasard les informations de préparation sont modifiées (par exemple, un arbre est préparé sur un sous-ensemble des informations de préparation), l’arbre de choix suivant peut être très unique et les attentes peuvent donc être très extraordinaires.

La mise à sac est l’utilisation de la stratégie Bootstrap pour un calcul d’IA à forte variation, généralement des arbres de choix.

Nous devrions nous attendre à avoir un exemple d’ensemble de données de 1000 occasions (x) et nous utilisons le calcul du camion. L’enregistrement du calcul de la valeur du camion serait une poursuite.

Effectuer de nombreux (par exemple 100) sous-tests irréguliers de notre ensemble de données avec substitution.

Entraînez un modèle de camion sur chaque exemple.

Si vous disposez d’un autre ensemble de données, déterminez les attentes normales de chaque modèle.

Par exemple, dans le cas où nous aurions 5 arbres de choix emballés qui rendraient les attentes de la classe accompagnante pour un test en entrée : bleu, bleu, rouge, bleu et rouge, nous prendrions la classe la plus incessante et prévoirions bleu.

Lorsque nous rangeons des arbres de choix, nous sommes moins préoccupés par les arbres individuels qui dépassent les informations de préparation. C’est pourquoi, pour des raisons de compétence, les arbres de choix individuels sont développés en profondeur (par exemple, il n’y a pratiquement pas de tests de préparation à chaque centre de feuille de l’arbre) et les arbres ne sont pas taillés. Ces arbres auront à la fois une grande différence et une faible inclinaison. Il s’agit là d’une représentation significative des sous-modèles lors de la consolidation des prévisions à l’aide de l’emballage.

Les principaux paramètres lors de l’emballage des arbres de choix sont le nombre de tests et donc le nombre d’arbres à incorporer. Il est possible de choisir en augmentant le nombre d’arbres en course poursuite jusqu’à ce que l’exactitude commence à cesser d’indiquer une amélioration (par exemple sur un appareil de test d’homologation croisée). De très grandes quantités de modèles peuvent nécessiter un long effort de préparation, sans pour autant surcharger les informations de préparation.

Tout comme les arbres de choix eux-mêmes, Sacking peut être utilisé pour les questions d’arrangement et de rechute.

Bois irréguliers

Les terres forestières irrégulières constituent une amélioration par rapport aux arbres de choix emballés.

Un problème avec les arbres de choix comme Truck, c’est qu’ils sont convoités. Ils choisissent la variable à écarter en utilisant un calcul avide qui limite les erreurs. Ainsi, même avec Stowing, les arbres de choix peuvent avoir une tonne de similitudes auxiliaires et donc avoir un rapport élevé avec leurs attentes.

La réunion des attentes de nombreux modèles dans des ensembles fonctionne mieux si les prévisions des sous-modèles ne sont pas corrélées ou, dans le meilleur des cas, correspondent pitoyablement.

Les forêts arbitraires modifient le calcul de la manière dont les sous-arbres sont découverts, dans le but de réduire les relations entre les prévisions ultérieures de l’ensemble des sous-arbres.

Il s’agit d’un changement simple. Dans Truck, tout en choisissant un point de scission, le calcul d’apprentissage permet de passer en revue tous les facteurs et toutes les variables d’incitation afin de choisir le point de scission le plus idéal. Le calcul arbitraire des forêts modifie cette méthodologie dans le but de limiter le calcul d’apprentissage à un exemple irrégulier de points saillants à regarder.

Le nombre de points saillants qui peuvent être examinés à chaque point de scission (m) doit être déterminé comme un paramètre du calcul. Vous pouvez essayer différentes qualités et les régler en utilisant l’approbation croisée.

Pour la caractérisation, une valeur par défaut décente est : m = sqrt(p)

Pour une rechute, un défaut décent est : m = p/3

Où m est la quantité de points saillants choisis arbitrairement qui peuvent être examinés à un point de scission et p est la quantité de facteurs d’information. Par exemple, au cas où un ensemble de données comporterait 25 facteurs d’information pour une question de regroupement, à ce point :

m = sqrt(25)

m = 5

Exécution évaluée

Pour chaque test bootstrap tiré des informations de préparation, il y aura des tests désertés qui ont été exclus. Ces exemples sont les tests Out-Of-Sack ou OOB.

L’exposition de chaque modèle à sa gauche, avec des exemples pour trouver la valeur moyenne, peut donner une idée de l’exactitude des modèles rangés. Cette exposition évaluée est fréquemment appelée la jauge d’exécution OOB.

Ces estimations de l’exposition sont de solides jauges d’erreurs de test et correspondent bien aux jauges d’approbation croisée.