El Bosque Irregular es uno de los más famosos y dominantes cálculos de la IA. Es un tipo de cálculo de la IA de la compañía llamado Bootstrap Aggregation o empaquetado.

En este post, encontrarán el cálculo de la recolección de bolsas y el cálculo del bosque aleatorio para la demostración de la clarividencia. Después de leer este post, pensarán en..:

La estrategia de bootstrap para evaluar las cantidades medibles de las pruebas.

El cálculo de agregación de Bootstrap para hacer varios modelos a partir de un conjunto de datos de preparación solitaria.

El cálculo de Random Forest que hace un pequeño cambio a Bagging y resulta en un clasificador extremadamente innovador.

Método Bootstrap

Antes de llegar a Bagging, debemos investigar un sistema de establecimiento significativo llamado el bootstrap.

El bootstrap es una técnica increíblemente medible para evaluar una cantidad a partir de una prueba de información. Esto es menos exigente para comprender si la cantidad es una medida esclarecedora, por ejemplo, una media o una desviación estándar.

¿Qué tal si aceptamos que tenemos un ejemplo de 100 calidades (x) y nos gustaría obtener una medida de la media del ejemplo.

Podemos calcular la media legítimamente a partir del ejemplo como:

media(x) = 1/100 * suma(x)

Nos damos cuenta de que nuestro ejemplo es pequeño y que nuestro medio ha fallado en él. Podemos mejorar la medida de nuestra media utilizando la técnica del bootstrap:

Hacer muchas (por ejemplo 1000) subpruebas irregulares de nuestro conjunto de datos con una sustitución (lo que significa que podemos elegir un valor similar en diferentes ocasiones).

Determinar la media de cada subprueba.

Determinar la normalidad de la totalidad de nuestros métodos reunidos y utilizarla como nuestra media evaluada para la información.

Por ejemplo, supongamos que utilizamos 3 muestras y obtenemos las cualidades medias 2.3, 4.5 y 3.3. Tomando la normalidad de estas podríamos tomar la media evaluada de la información que es 3.367.

Este procedimiento puede utilizarse para evaluar diferentes cantidades como la desviación estándar e incluso las cantidades utilizadas en los cálculos de la IA, como coeficientes académicos.

Colección de Bootstrap (estiba)

La Acumulación de Bootstrap (o Sacking para abreviar), es una técnica de grupo sencilla y excepcionalmente innovadora.

Una estrategia de grupo es un método que consolida las expectativas de varios cálculos de la IA juntos para hacer pronósticos más exactos que cualquier modelo individual.

Bootstrap Accumulation es una estrategia general que puede ser utilizada para disminuir el cambio para ese cálculo que tiene una alta diferencia. Un cálculo que tiene una diferencia alta es el de los árboles de elección, similar al de los árboles de caracterización y recaída (Truck).

Los árboles de elección son delicados con la información particular sobre la que se preparan. En caso de que se modifique la información de preparación (por ejemplo, se prepara un árbol en un subconjunto de la información de preparación), el árbol de elección posterior puede ser muy singular y, por lo tanto, las expectativas pueden ser muy extraordinarias.

El saqueo es el uso de la estrategia Bootstrap para un cálculo de IA de alto cambio, comúnmente árboles de elección.

Deberíamos esperar tener un ejemplo de un conjunto de datos de 1000 ocasiones (x) y estamos utilizando el cálculo de Truck. El cálculo de Camión se rellenaría según lo que se persigue.

Hacer muchas (por ejemplo 100) subpruebas irregulares de nuestro conjunto de datos con sustitución.

Entrena a un modelo de camión en cada ejemplo.

Dado otro conjunto de datos, calcula la expectativa normal de cada modelo.

Por ejemplo, en el caso de que tuviéramos 5 árboles de elección empaquetados que hicieran que la clase acompañante esperara una prueba de entrada: azul, azul, rojo, azul y rojo, tomaríamos la clase más incesante y preveríamos el azul.

Cuando se estiba con árboles selectos, nos preocupa menos que los árboles individuales superen la información de la preparación. Por lo tanto y para la competencia, los árboles de elección individual se desarrollan profundamente (por ejemplo, casi no hay pruebas de preparación en cada cubo de hojas del árbol) y los árboles no se podan. Estos árboles tendrán tanto una gran diferencia como una baja inclinación. Estos son retratos significativos de los submodelos al consolidar las previsiones utilizando el empaquetado.

Los parámetros principales al empaquetar los árboles de elección son el número de pruebas y por lo tanto el número de árboles a incorporar. Esto puede recogerse ampliando el número de árboles en la carrera de persecución hasta que la exactitud comience a dejar de indicar la mejora (por ejemplo, en un aparejo de pruebas de aprobación cruzada). Cantidades muy enormes de modelos pueden reservar un largo esfuerzo para prepararse, pero no superarán la información de preparación.

Al igual que los árboles de elección en sí, el Sacking puede ser utilizado para cuestiones de ordenación y recaída.

Bosques irregulares

Las tierras madereras irregulares son una mejora con respecto a los árboles de elección empaquetados.

Un problema con los árboles de elección como Truck es que son codiciosos. Eligen qué variable abandonar utilizando un cálculo ansioso que limita el error. Así, incluso con Stowing, los árboles de elección pueden tener una tonelada de similitudes auxiliares y por lo tanto tienen una alta conexión en sus expectativas.

Unir las expectativas de numerosos modelos en trajes funciona mejor si las previsiones de los submodelos no están correlacionadas o, en el mejor de los casos, se corresponden lamentablemente.

El bosque arbitrario cambia el cálculo de la forma en que se encuentran los subárboles con el objetivo de que las previsiones posteriores de la totalidad de los subárboles tengan menos relación.

Es un cambio sencillo. En Camión, mientras se elige un punto de división, se permite al cálculo de aprendizaje echar un vistazo a todos los factores y a cada incentivo variable para elegir el punto de división más ideal. El cálculo arbitrario de Woodland cambia esta metodología con el objetivo de que el cálculo de aprendizaje se limite a un ejemplo irregular de puntos destacados de los que mirar.

El número de puntos destacados que pueden observarse en cada punto de división (m) debe determinarse como un parámetro para el cálculo. Se pueden probar varias calidades y ajustarlas utilizando la aprobación cruzada.

Para la caracterización un valor por defecto decente es: m = sqrt(p)

Para la recaída un valor por defecto decente es: m = p/3

Donde m es la cantidad de puntos destacados elegidos arbitrariamente que se pueden mirar en un punto de separación y p es la cantidad de factores de información. Por ejemplo, en el caso de que un conjunto de datos tuviera 25 factores de información para una cuestión de agrupación, en ese punto:

m = sqrt(25)

m = 5

Ejecución Evaluada

Por cada prueba de bootstrap tomada de la información de la preparación, habrá pruebas abandonadas que fueron excluidas. Estos ejemplos se obtienen de las pruebas Out-Of-Sack o OOB.

La exposición de cada modelo a su lado izquierdo, para encontrar el valor medio, puede dar una exactitud esperada de los modelos empaquetados. Esta exposición evaluada es frecuentemente llamada el indicador de ejecución OOB.

Estas estimaciones de exhibición son un sólido indicador de errores de prueba y se corresponden bien con los indicadores de aprobación cruzada.