Stel je voor dat je een voertuig zou kopen, oké, ga dan gewoon naar een winkel en koop het eerste dat je ziet? Nee, is dat niet zo? Je raadt nauwelijks individuen om je heen aan, neemt hun conclusie, voegt er je verkenning aan toe en gaat daarna voor een ultieme conclusie. We zouden een minder moeilijke situatie moeten nemen: op welk punt je ook gaat voor een film, benader je je metgezellen voor onderzoeken over de film (behalve als, buiten de basis, het een van de sterren van je voorkeur op het scherm is)?

Heeft u op enig moment gevraagd om welke reden we wat informatie krijgen over hun gevoelens of audits voordat we voor een film gaan of voordat we een voertuig kopen of misschien wel, voordat we een gelegenheid regelen? Dit is op grond van het feit dat het onderzoek van een individu eenzijdig kan zijn, afhankelijk van haar neiging; hoe dan ook, wanneer we verschillende individuen vragen proberen we de neiging te verdrijven die een eenzame persoon kan geven. Een individu kan een zeer solide afkeer hebben van een bepaald doel vanwege haar betrokkenheid bij dat gebied; in ieder geval kunnen tien andere individuen een zeer solide neiging hebben voor een soortgelijk doel, omdat ze daar een prachtige ontmoeting hebben gehad. Hieruit kunnen we afleiden dat het ene individu steeds meer lijkt op een uitstekend geval en dat haar ervaring er een van een geval kan zijn.

Een ander model dat we vast en zeker allemaal hebben meegemaakt is tijdens de bijeenkomsten op elke organisatie of school. We moeten vaak verschillende vergaderrondes meemaken. Ondanks het feit dat de vragen die in de verschillende vergaderrondes worden gesteld vergelijkend zijn, zo niet hetzelfde – organisaties zetten het allemaal nog steeds op het spel. De verklaring hiervoor is dat zij zienswijze moeten hebben van diverse aanmeldingspioniers. De kans is groot dat veel pioniers zich richten op een ‘up-and-comer’, maar op dat moment is de kans groot dat ze een fatsoenlijk contract krijgt.

In de wereld van de analytica en de datawetenschap wordt dit ‘ensembling’ genoemd. Ensembleren is een “type van begeleide leertechniek waarbij meerdere modellen worden getraind op een trainingsdataset en hun individuele output door een of andere regel wordt gecombineerd om de uiteindelijke output af te leiden”.

Wat dacht je ervan om de bovenstaande definitie te doorbreken en er beetje bij beetje naar te kijken.

Op het moment dat we aangeven dat er verschillende modellen worden voorbereid op een dataset, kan hetzelfde model met verschillende hyperparameters of verschillende modellen worden voorbereid op de voorbereidingsdataset. Het voorbereiden van de percepties kan enigszins variëren tijdens het inspecteren; zij het dat het, in het algemeen, de bevolking gewoon doorgaat zoals voorheen.

“Uitgangen worden gecombineerd door een of andere regel” – er kunnen meerdere regels zijn waarmee de uitgangen worden gecombineerd. De meest bekende zijn de normale (voor zover de numerieke opbrengst) of de stem (voor zover de opbrengst duidelijk is). Wanneer verschillende modellen ons de numerieke opbrengst geven, kunnen we eenvoudigweg het gemiddelde van alle uitgangen nemen en het gemiddelde als resultaat gebruiken. Als er een duidelijke vermindering van de output optreedt, kunnen we gebruik maken van de stemming – de output die het grootste aantal keren gebeurt, is de laatste output. Er zijn andere complexe strategieën voor het bepalen van de opbrengst, maar die vallen buiten de reikwijdte van dit artikel.

Random Forest is zo’n ongelooflijke AI-berekening die werkt door verschillende keuzebomen te maken en daarna de opbrengst van elk van de beslisbomen te consolideren. De keuzeboom is een schikkingsmodel dat het idee van gegevenswinst bij elke hub wegwerkt. Voor elke focus van de informatie zal de beslisboom proberen om de focus van de informatie op elk van de hubs te karakteriseren en te controleren op gegevenswinst op elk van de hubs. Het zal op dat punt volgorde op de hub waar de datawinst het grootst is. Het zal deze procedure voortzetten totdat elk van de hubs uitgeput is of er geen extra gegevenswinst meer is. Beslissingsbomen zijn uitzonderlijk eenvoudige en eenvoudige modellen, maar toch hebben ze een laag voorkennisniveau. De waarheid is dat ze zwakke studenten worden genoemd.

Arbitrary Backwoods neemt een schot op de equivalente zwakke studenten. Het voegt zich bij de opbrengst van verschillende keuzebomen en verzint daarna eindelijk zijn eigen opbrengst. Arbitrary Woods behandelt een vergelijkbare richtlijn als Decision Tress; het kiest in ieder geval niet elk van de informatiebronnen en factoren in elk van de bomen. Het test lukraak de focus van de informatie en de factoren in elk van de bomen die het maakt en sluit daarna aan bij de output naar het einde toe. Het verdrijft de predispositie die een keuzemodel in het kader kan hebben. Op dezelfde manier verbetert het de prescient power in zijn geheel. We zullen dit zien in het volgende gebied als we een voorbeeld nemen aan de informatieverzameling en denken aan de precisie van Arbitrary Woodland en Decision Tree.

Op dit moment moeten we een kleine contextuele analyse maken en proberen om verschillende Irregular Backwoods modellen met verschillende hyperparameters uit te voeren, en een van de Arbitrary Woodland modellen met Decision Tree model te analyseren. (Ik weet zeker dat u het met mij eens bent – zelfs zonder het model te actualiseren, kunnen we instinctief zeggen dat Irregular Backwoods ons de voorkeur zal geven boven Choice Tree). De dataset is afkomstig van de UCI site en is te vinden op deze link. De informatie bevat 7 factoren – zes logische (Inkoopwaarde, Ondersteuning, NumDoors, NumPersons, BootSpace, Welzijn) en één reactievariabele (Voorwaarde). De factoren zijn duidelijk als kristal en verwijzen naar de kwaliteiten van voertuigen en de reactievariabele is ‘Vehicle Worthiness’. Elk van de factoren is uit de natuur en heeft elk 3-4 cijferniveaus.

Laten we beginnen met de implementatie van de R-code en de aanvaardbaarheid van de auto voorspellen op basis van verklarende variabelen.

1 2 3 4# Gegevensbron: https://archive.ics.uci.edu/ml/machine-learning-databases/car/   install.packages(“randomForest”) bibliotheek (randomForest)
1 2 3 4 5 6 7 8# Laad de dataset en verken gegevens1 <- lees.csv(file.choose(), kop = waar)   hoofd (gegevens1)   str(data1)   samenvatting (gegevens1) 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23> hoofd (gegevens1)   KopenPrijs Onderhoud NumDoors NumPersons BootSpace Veiligheidsconditie 1 vhigh vhigh 2 2 small low unacc 2 vhigh vhigh 2 2 small med unacc 3 vhigh vhigh 2 2 small high unacc 4 vhigh vhigh 2 2 med low unacc 5 vhigh vhigh 2 2 med unacc 6 vhigh vhigh 2 2 med high unacc > str(data1) data.frame”: 1728 obs. van 7 variabelen:  $ BuyingPrice: Factor met 4 niveaus “hoog”, “laag”, “med”, …: 4 4 4 4 4 4 4 4 4 …  $ Onderhoud: Factor met 4 niveaus “hoog”, “laag”, “med”,…: 4 4 4 4 4 4 4 4 4 4 …  $ NumDoors : Factor met 4 niveaus “2”, “3”, “4”, “5 meer”: 1 1 1 1 1 1 1 1 1 1 …  $ NumPersons: Factor met 3 niveaus “2”, “4”, “meer”: 1 1 1 1 1 1 1 1 1 2 …  $ BootSpace: Factor met 3 niveaus “groot”, “med”, “klein”: 3 3 3 2 2 2 1 1 1 3 …  $ Veiligheid: Factor met 3 niveaus “hoog”, “laag”, “med”: 2 3 1 2 3 1 2 3 1 2 …  Voorwaarde : Factor met 4 niveaus “acc”, “goed”, “unacc”,…: 3 3 3 3 3 3 3 3 3 3 3 … > samenvatting (gegevens1)  KopenPrijs Onderhoud NumDoors NumPersons BootSpace Veiligheidsconditie    hoog :432 hoog :432 2 :432 2 :576 groot :576 hoog:576 acc : 384   laag :432 laag :432 3 :432 4 :576 med :576 goed : 69   med:432 med:432 4:432 meer:576 klein:576 med:576 unacc:1210   vhigh:432 vhigh:432 5more:432 vgood: 65 

Nu zullen we de dataset splitsen in trein en validatie set in de verhouding 70:30. We kunnen ook een testdataset maken, maar voorlopig houden we de trein- en validatieset gewoon aan.

1 2 3 4 5 6 7 8# Gesplitst in Trein en Validatie sets # Trainingset: Validatieset = 70 : 30 (willekeurig) set.seed(100) trein <- monster(nrow(data1), 0,7*nrow(data1), vervangen = FALSE) TreinSet <- gegevens1[trein,] ValidSet <- data1[-train,] samenvatting (TrainSet) samenvatting (ValidSet)
1 2 3 4 5 6 7 8 9 10 11 12> samenvatting (TrainSet)  KopenPrijs Onderhoud NumDoors NumPersons BootSpace Veiligheidsconditie   hoog :313 hoog :287 2 :305 2 :406 groot :416 hoog:396 acc :264   laag :292 laag :317 3 :300 4 :399 med :383 laag :412 goed : 52   med:305 med:303 4:295 meer:404 klein:410 med:401 unacc:856   vhigh:299 vhigh:302 5more:309 vgood: 37  > samenvatting (ValidSet)  KopenPrijs Onderhoud NumDoors NumPersons BootSpace Veiligheidsconditie   hoog :119 hoog :145 2 :127 2 :170 groot :160 hoog:180 acc :120   laag :140 laag :115 3 :132 4 :177 med :193 laag :164 goed : 17   med :127 med :129 4 :137 meer:172 klein:166 med:175 unacc:354   vhigh:133 vhigh:130 5more:123