Imaginen que van a comprar un vehículo, OK, simplemente vayan a una tienda y compren el primero que vean? No, ¿no es así? Usted en su mayor parte aconseja a casi todos los individuos a su alrededor, tomar su conclusión, añadir su exploración a la misma y después ir a una conclusión final. Deberíamos tomar una situación menos difícil: en cualquier momento en el que se va a hacer una película, ¿se acerca a sus compañeros para hacer encuestas sobre la película (excepto si, fuera de la base, protagoniza uno de sus personajes preferidos en la pantalla)?

¿Ha preguntado en algún momento por qué razón obtenemos alguna información sobre sus sentimientos o auditorías antes de ir a ver una película o antes de comprar un vehículo o podría ser, antes de organizar una ocasión? Esto se basa en que la encuesta a un individuo puede ser unilateral según su inclinación; de todas formas, cuando preguntamos a diferentes individuos estamos tratando de expulsar la predisposición que un individuo solitario puede dar. Un individuo puede tener una aversión muy sólida a un objetivo particular debido a su implicación en esa área; en cualquier caso, otros diez individuos pueden tener una inclinación muy sólida a un objetivo similar ya que han tenido un magnífico encuentro allí. A partir de esto, podemos inducir que un individuo fue progresivamente similar a un caso excelente y su experiencia puede ser uno de un caso.

Otro modelo que estoy seguro que todos hemos experimentado es durante las reuniones en cualquier organización o escuela. A menudo necesitamos experimentar varias rondas de reuniones. A pesar del hecho de que las preguntas planteadas en varias rondas de reuniones son comparativas, si no iguales – las organizaciones todavía lo ponen todo en juego. La explicación es que necesitan tener la visión de varios pioneros del alistamiento. En la remota posibilidad de que numerosos pioneros se centren en un recién llegado, en ese momento la probabilidad de que termine siendo un contrato decente es alta.

En el mundo de la analítica y la ciencia de los datos, esto se llama “ensamblaje“. El ensamblaje es un “tipo de técnica de aprendizaje supervisado donde múltiples modelos se entrenan en un conjunto de datos de entrenamiento y sus resultados individuales se combinan por alguna regla para derivar el resultado final”.

¿Qué tal si rompemos la definición anterior y le echamos un vistazo poco a poco.

En el momento en que afirmamos que se preparan varios modelos en un conjunto de datos, el mismo modelo con varios hiperparámetros o varios modelos puede prepararse en el conjunto de datos de preparación. La preparación de las percepciones puede variar un poco durante la inspección; sin embargo, en términos generales, la población continúa como antes.

“Las salidas se combinan por alguna regla” – podría haber múltiples reglas por las cuales se combinan las salidas. Las más reconocidas son la normal (en lo que respecta a la producción numérica) o la votación (en lo que respecta a la producción de corte claro). Cuando los diferentes modelos nos dan el rendimiento numérico, podemos simplemente tomar el promedio de todos los rendimientos y utilizar el promedio como resultado. Si surge un rendimiento de corte claro, podemos utilizar el voto – el rendimiento que se produce el mayor número de veces es el último rendimiento. Hay otras estrategias complejas para determinar el rendimiento adicional, pero están fuera del alcance de este artículo.

Random Forest es uno de esos increíbles cálculos de la IA que funciona haciendo varios árboles de elección y después consolidando el rendimiento creado por cada uno de los árboles de decisión. El árbol de elección es un modelo de disposición que trabaja con la idea de la ganancia de datos en cada centro. Para cada uno de los focos de información, el árbol de Decisión intentará caracterizar los focos de información en cada uno de los núcleos y comprobar la ganancia de datos en cada uno de ellos. En ese momento, ordenará en el centro donde el aumento de los datos sea mayor. Seguirá este procedimiento de acuerdo con estas líneas hasta que cada uno de los concentradores se agote o hasta que no haya ganancia de datos adicional. Los árboles de decisión son modelos excepcionalmente básicos y sencillos; sin embargo, tienen un bajo poder de previsión. A decir verdad, se les llama estudiantes débiles.

El arbitrario Backwoods le dispara a los estudiantes débiles equivalentes. Se une a la producción de varios árboles de elección y después, por fin, inventa su propia producción. Arbitrary Woods trata con una pauta similar a la de Decision Tress; en cualquier caso, no elige cada uno de los enfoques y factores de información en cada uno de los árboles. Prueba al azar los focos y factores de información en cada uno de los árboles que hace y después se une a la producción hacia el final. Expulsa la predisposición que un modelo de árbol de elección puede presentar en el marco. De la misma manera, mejora el poder de previsión en su conjunto. Veremos esto en la siguiente área cuando tomemos un ejemplo de recopilación de información y pensemos en la precisión del Bosque Arbitrario y el Árbol de Decisión.

Actualmente, deberíamos tomar un poco de análisis contextual e intentar ejecutar varios modelos de Irregular Backwoods con varios hiperparámetros, y analizar uno de los modelos de Arbitrary Woodland con el modelo Decision Tree. (Estoy seguro de que estará de acuerdo conmigo en esto – incluso sin actualizar el modelo, podemos decir instintivamente que los Bosques Irregulares nos darán resultados preferibles sobre el Árbol de Decisión). El conjunto de datos está tomado del sitio de la UCI y puede ser encontrado en esta conexión. La información contiene 7 factores – seis lógicos (Valor de compra, Soporte, NumDoors, NumPersons, BootSpace, Bienestar) y una variable de reacción (Condición). Los factores son claros como el cristal y aluden a las cualidades de los vehículos y la variable de reacción es “Valor del vehículo”. Cada uno de los factores está en la naturaleza y tiene 3-4 niveles de cifras cada uno.

Comencemos la implementación del código R y predizcamos la aceptabilidad del auto en base a variables explicativas.

1 2 3 4# Fuente de datos: https://archive.ics.uci.edu/ml/machine-learning-databases/car/   install.packages(“randomForest”) biblioteca(randomForest)
1 2 3 4 5 6 7 8# Cargar el conjunto de datos y explorar data1 <- read.csv(file.choose(), header = TRUE)   cabeza(datos1)   str(data1)   resumen(datos1) 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23> cabeza(datos1)   ComprarPrecio Mantenimiento NumPuertas NumPersons BootSpace Condición de seguridad 1 vhigh vhigh 2 2 small low unacc 2 vhigh vhigh 2 2 pequeños med unacc 3 vhigh vhigh 2 2 small high unacc 4 vhigh vhigh 2 2 med baja inacc 5 vhigh vhigh 2 2 med med unacc 6 vhigh vhigh 2 2 med high unacc > str(data1) “data.frame”: 1728 obs. de 7 variables:  $ BuyingPrice: Factor con 4 niveles “alto”, “bajo”, “med”,..: 4 4 4 4 4 4 4 4 4 4 4 4…  $ Mantenimiento: Factor con 4 niveles “alto”, “bajo”, “med”,..: 4 4 4 4 4 4 4 4 4 4 4…  $ NumDoors : Factor con 4 niveles “2”, “3”, “4”, “5 más”: 1 1 1 1 1 1 1 1 1 1 …  $ NumPersons : Factor con 3 niveles “2”, “4”, “más”: 1 1 1 1 1 1 1 1 1 2 …  $ BootSpace : Factor con 3 niveles “grande”,”med”,”pequeño”: 3 3 3 2 2 2 1 1 1 3 …  Seguridad: Factor con tres niveles: “alto”, “bajo”, “médico”: 2 3 1 2 3 1 2 3 1 2 …  Condición: Factor con 4 niveles “acc”, “bueno”, “inacc”,… 3 3 3 3 3 3 3 3 3 3… > resumen(datos1)  ComprarPrecio Mantenimiento NumPuertas NumPersons BootSpace Condición de seguridad    alto :432 alto :432 2 :432 2 :576 grande :576 alto:576 acc : 384   bajo :432 bajo :432 3 :432 4 :576 med :576 bajo :576 bueno : 69   med :432 med :432 4 :432 más:576 pequeño:576 med :576 inacc:1210   vhigh:432 vhigh:432 5more:432 vgood: 65 

Ahora, dividiremos el conjunto de datos en tren y conjunto de validación en la proporción 70:30. También podemos crear un conjunto de datos de prueba, pero por el momento sólo mantendremos el tren y el conjunto de validación.

1 2 3 4 5 6 7 8# Dividido en trenes y conjuntos de validación # Set de entrenamiento: Set de validación = 70 : 30 (al azar) set.seed(100) tren <- muestra(nrow(datos1), 0.7*nrow(datos1), reemplazar = FALSO) TrainSet <- data1[tren,] ValidSet <- data1[-tren,] resumen(TrainSet) resumen(ValidSet)
1 2 3 4 5 6 7 8 9 10 11 12> resumen(TrainSet)  ComprarPrecio Mantenimiento NumPuertas NumPersons BootSpace Condición de seguridad   alto :313 alto :287 2 :305 2 :406 grande :416 alto:396 acc :264   bajo :292 bajo :317 3 :300 4 :399 medio :383 bajo :412 bueno : 52   med :305 med :303 4 :295 más:404 pequeño:410 med :401 inacc:856   vhigh:299 vhigh:302 5more:309 vgood: 37  > resumen(ValidSet)  ComprarPrecio Mantenimiento NumPuertas NumPersons BootSpace Condición de seguridad   alto :119 alto :145 2 :127 2 :170 grande :160 alto:180 acc :120   bajo :140 bajo :115 3 :132 4 :177 med :193 bajo :164 bueno : 17   med :127 med :129 4 :137 más:172 pequeño:166 med :175 inacc:354   vhigh:133 vhigh:130 5more:123