Coursera Learner working on a presentation with Coursera logo and

Comprendre les forêts aléatoires

Coursera Learner working on a presentation with Coursera logo and

Les forêts aléatoires sont une méthode d’apprentissage automatique pour la classification des algorithmes. Elle comprend plusieurs arbres de décision individuels qui s’appuient sur des caractéristiques aléatoires et sur l’entraînement des données pour parvenir à une supposition intelligente qui a plus de crédibilité qu’un seul arbre de décision. Tous les arbres de décision de la forêt aléatoire sont des modèles distincts. Chacun d’entre eux utilise un sous-ensemble de caractéristiques aléatoires pour prédire une cible, et toutes ces cibles prédites s’accumulent ensemble pour prédire une cible plus précise.

Partir des arbres de décision

Étant donné que tous ceux qui lisent ce document ne sont peut-être pas au courant du jargon de l’apprentissage automatique, nous avons décidé de décomposer les concepts en termes simples. Tout le monde a utilisé, consciemment ou non, des arbres de décision, soit pendant ses études, soit pendant sa vie professionnelle. Le concept est comme un organigramme dans lequel vous décomposez des données ou des textes complexes en étapes faciles sous la forme d’un diagramme en boîte.

Bien que les choses ne soient pas aussi simples et unilatérales dans un arbre de décision que dans un organigramme, dans un arbre de décision, vous partez d’une partie initiale et vous continuez à créer des nœuds entre les variables jusqu’à ce que vous atteigniez votre objectif. Par exemple, quelqu’un veut que vous prédisiez le rang de son équipe de football favorite dans un prochain tournoi. Ici, vous commencez par la probabilité initiale. Mais cette probabilité initiale ne peut pas être la réponse absolue, surtout lorsque le processus de prédiction comporte des biais. Vous devrez donner des raisons et faire des calculs pour rendre votre pronostic aussi crédible que possible.

La première variance découlera de votre question qui vous aidera à décider comment atteindre votre cible. Chaque question que vous poserez créera une variance suivie d’un cheminement “oui ou non” ou “vrai ou faux”, qui ajoutera éventuellement une branche à votre arbre de décision. Chaque fois que vous emprunterez un itinéraire, vous devrez établir une relation entre les connaissances que vous avez acquises avant ce point. Dans un sens, tout repose sur votre capacité à poser les questions qui vous permettront d’acquérir les connaissances les plus appropriées pour atteindre la cible souhaitée.

La corrélation entre l’arbre de décision et la forêt aléatoire

Comme mentionné précédemment, les forêts aléatoires sont un assemblage de plusieurs arbres de décision individuels. Tous les arbres de décision qui en font partie utilisent des variables différentes provenant du même ensemble de données, bien qu’ils atteignent tous l’objectif souhaité par des moyens différents. La crédibilité de ces forêts repose sur le fait que deux personnes ne peuvent pas atteindre une cible en utilisant le même chemin ou le même raisonnement. Et même si certaines sont similaires, vous pouvez toujours utiliser ces schémas répétitifs dans la forêt pour éliminer les essais et les erreurs.

Par exemple, un analyste sportif, un ancien joueur de football, un journaliste sportif, un fan enthousiaste et un arbitre à la retraite poseront une question différente pour prédire le résultat d’un match. Tous ont des compétences, des informations et une connaissance du jeu différentes ; leurs méthodes pour atteindre l’objectif de prédiction seront donc différentes. Non seulement leur jeu de connaissance, mais aussi leur raisonnement pour établir une relation entre les variables extraites de leurs données acquises est également différent.

Maintenant, les arbres de décision de toutes ces personnes vont créer un modèle. Collectivement, ce modèle est une “forêt aléatoire”. Vous avez toutes ces prédictions individuelles provenant de plusieurs arbres de décision non corrélés, et tous ont utilisé des moyens uniques pour prédire la cible souhaitée. Vous pouvez utiliser toutes ces prédictions pour augmenter la précision de votre prédiction finale.

Comment cela fonctionne-t-il ?

Pour créer une forêt aléatoire, il ne suffit pas de créer des variables radicalement opposées ou de choisir des caractéristiques aléatoires parmi les données disponibles. Vous devez avoir le sens de la cartographie des données et le don de poser des questions raisonnables pour faire une estimation précise. Les machines peuvent apprendre à le faire en stockant les informations que vous leur fournissez au fil des ans, mais elles ne seront toujours pas capables de poser les questions révolutionnaires qu’un humain poserait face à une impasse dans un arbre de décision.
Pour qu’une forêt aléatoire fonctionne, vous devez rassembler plusieurs arbres de décision. Tous ces arbres utiliseront des données d’entraînement aléatoires, qui aideront à établir des caractéristiques. Sachez que les caractéristiques sont les relations qu’un classificateur établit entre les données dans l’apprentissage machine, et la chose que nous voulons prévoir est la cible.

Avantages

Voici quelques avantages d’une forêt aléatoire :
La forêt aléatoire augmente la précision de vos prévisions
Vous utilisez la sagesse d’une foule plutôt que celle d’une personne ou d’une machine
Aucune des décisions prises dans une forêt n’est corrélée entre elles

Conclusion

L’apprentissage machine peut comporter plusieurs concepts et termes compliqués qui dépassent la compréhension d’un étranger, mais la forêt aléatoire est un terme qui est proche de sa signification première. Chaque arbre de décision qui en fait partie est son élément constitutif et agit comme une branche d’arbre. Si vous regroupez plusieurs arbres de décision, vous aurez en main l’un des algorithmes de classification de prédiction les plus crédibles et les plus précis de l’apprentissage automatique, connu sous le nom de forêt aléatoire.