Inzicht in willekeurige bossen
Willekeurige bossen zijn een machinale leermethode voor het classificeren van algoritmen. Het bestaat uit verschillende individuele beslisbomen die afhankelijk zijn van willekeurige kenmerken en gegevenstraining om tot een intelligente gok te komen die meer geloofwaardigheid heeft dan een enkele beslisboom. Alle beslisbomen in het willekeurige bos zijn afzonderlijke modellen. Elk van hen gebruikt een subset van willekeurige kenmerken om een doel te voorspellen, en al deze voorspelde doelen stapelen zich op om een nauwkeuriger doel te voorspellen.
Uitgaande van beslissingsbomen
Aangezien niet iedereen die dit leest zich misschien bewust is van machinaal leerjargon, hebben we besloten om de concepten op te splitsen in lekentaal. Iedereen heeft bewust of onbewust gebruik gemaakt van beslissingsbomen, hetzij tijdens de studiejaren, hetzij tijdens het beroepsleven. Het concept is als een flowchart waarin je complexe gegevens of tekst opdeelt in eenvoudige stappen in de vorm van een kaderdiagram.
Hoewel de dingen in een beslisboom niet zo eenvoudig en eenzijdig zijn als in een flowchart, ga je in een beslisboom uit van een eerste deel en blijf je knooppunten tussen variabelen creëren tot je je doel bereikt. Iemand wil bijvoorbeeld dat je de rang van zijn favoriete voetbalteam voorspelt in een aankomend toernooi. Hier begint u met de initiële waarschijnlijkheid. Maar die initiële waarschijnlijkheid kan niet het absolute antwoord zijn, zeker niet als er vooroordelen in het voorspellingsproces zitten.
Je zult redenen moeten geven en getallen moeten opkrikken om je gok zo geloofwaardig mogelijk te maken.
De eerste variantie komt voort uit uw vraag die u zal helpen beslissen hoe u uw doel kunt bereiken. Elke vraag die je stelt zal een variantie creëren, gevolgd door een “ja of nee” of “waar of onwaar” route, die uiteindelijk een tak aan je beslissingsboom zal toevoegen. Elke keer dat je een route neemt, zul je een verband moeten leggen tussen de kennis die je voor dat punt hebt verworven. In zekere zin hangt alles af van je vermogen om de vragen te stellen die je zullen helpen de meest geschikte kennis te verwerven om je gewenste doel te bereiken.
De correlatie tussen de beslissingsboom en het Willekeurig Woud
Zoals gezegd zijn willekeurige bossen een gemeente van verschillende individuele beslisbomen. Alle beslisbomen die er deel van uitmaken gebruiken verschillende variabelen uit dezelfde set van gegevens, hoewel ze allemaal op een andere manier het gewenste doel bereiken. De geloofwaardigheid van deze bossen berust op het feit dat geen twee mensen een doel kunnen bereiken via dezelfde route of redenering. En zelfs als sommige vergelijkbaar zijn, kun je altijd gebruik maken van deze herhalende patronen in het bos voor trial and error eliminatie.
Zo zullen bijvoorbeeld een sportanalist, een ex-voetballer, een sportjournalist, een enthousiaste fan en een gepensioneerde scheidsrechter een andere vraag stellen om het resultaat van een wedstrijd te voorspellen. Ze hebben allemaal verschillende vaardigheden, informatie en kennis van het spel; vandaar dat hun methoden om het voorspellingsdoel te bereiken zullen verschillen. Niet alleen hun spel van kennis, maar ook hun redenering om een relatie te leggen tussen variabelen die uit hun verworven gegevens worden gehaald, is verschillend.
Nu zullen de beslisbomen van al deze mensen een model creëren. Gezamenlijk is dit model een ‘willekeurig bos’. Je hebt al deze individuele voorspellingen van verschillende niet gecorreleerde beslisbomen, en ze hebben allemaal unieke manieren gebruikt om het gewenste doel te voorspellen. U kunt al deze voorspellingen gebruiken om de nauwkeurigheid van uw uiteindelijke voorspelling te verhogen.
Hoe het werkt
Het creëren van een willekeurig bos is niet alleen een kwestie van het creëren van drastisch tegengestelde variabelen of het kiezen van willekeurige kenmerken uit de beschikbare gegevens. U moet het gevoel hebben dat u de gegevens in kaart kunt brengen en u moet de vaardigheid hebben om redelijke vragen te stellen om een goede gok te kunnen maken. Machines kunnen dit leren door de informatie die u ze door de jaren heen geeft op te slaan, maar ze zullen nog steeds niet in staat zijn om de doorbraakvragen te stellen die een mens zou stellen wanneer hij geconfronteerd wordt met een doodlopende weg in een beslissingsboom.
Om een willekeurig bos te laten werken, moet je verschillende beslissingsbomen verzamelen. Al deze bomen zullen gebruik maken van willekeurige trainingsgegevens, wat zal helpen bij het vaststellen van de kenmerken. Weet dat kenmerken de relaties zijn die een classificator opbouwt tussen gegevens in machinaal leren, en het ding dat we willen voorspellen is het doel.
Voordelen
Hieronder volgen enkele voordelen van een willekeurig bos:
Willekeurig bos verhoogt de nauwkeurigheid van uw voorspelling
Je gebruikt de wijsheid van een menigte in plaats van één persoon of een machine…
Geen van de beslissingen in een bos zijn met elkaar gecorreleerd.
Conclusie
Machine-leren kan verschillende gecompliceerde concepten en termen hebben die het begrip van een buitenstaander te boven gaan, maar het willekeurige bos is een term die dicht bij zijn oorspronkelijke betekenis ligt. Elke beslissingsboom die er deel van uitmaakt is zijn bouwsteen en fungeert als een tak van een boom. Als je verschillende beslisbomen samenvoegt, heb je een van de meest geloofwaardige en nauwkeurige voorspellingsclassificatiealgoritmen van machinaal leren, bekend als willekeurig bos, in je hand.