Entendiendo los bosques al azar

Los bosques aleatorios son un método de aprendizaje de la máquina para clasificar los algoritmos. Comprende varios árboles de decisión individuales que se basan en características aleatorias y en el entrenamiento de los datos para llegar a una suposición inteligente que tiene más credibilidad que un solo árbol de decisión. Todos los árboles de decisión del bosque aleatorio son modelos separados. Cada uno de ellos utiliza un subconjunto de características aleatorias para predecir un objetivo, y todos estos objetivos predichos se acumulan para predecir un objetivo más preciso.

A partir de los árboles de decisión

Teniendo en cuenta que no todos los que leen esto pueden ser conscientes de la jerga del aprendizaje de la máquina, hemos decidido desglosar los conceptos en términos simples. Todo el mundo, consciente o inconscientemente, ha utilizado árboles de decisión tanto en sus años académicos como en su vida profesional. El concepto es como un diagrama de flujo en el que se desglosan datos o textos complejos en pasos fáciles en forma de un diagrama de caja.

Aunque las cosas no son tan sencillas y unilaterales en un árbol de decisión como en un diagrama de flujo, en un árbol de decisión se empieza por una parte inicial y se siguen creando nodos entre las variables hasta que se alcanza el objetivo. Por ejemplo, alguien quiere que prediga el rango de su equipo de fútbol favorito en un próximo torneo. Aquí, comenzarás con la probabilidad inicial. Pero esa probabilidad inicial no puede ser la respuesta absoluta, especialmente cuando hay sesgos involucrados en el proceso de predicción. Tendrás que dar razones y calcular números para que tu suposición sea lo más creíble posible.

La primera varianza surgirá de su pregunta que le ayudará a decidir cómo alcanzar su objetivo. Cada pregunta que hagas creará una variación seguida de un “sí o no” o una ruta “verdadera o falsa”, que eventualmente añadirá una rama a tu árbol de decisiones. Cada vez que tomes una ruta, tendrás que establecer una relación entre el conocimiento que has adquirido antes de ese punto. En cierto sentido, todo depende de tu capacidad para hacer las preguntas que te ayudarán a adquirir el conocimiento más apropiado para alcanzar el objetivo deseado.

La correlación entre el árbol de decisión y el bosque aleatorio

Como se mencionó antes, los bosques al azar son una congregación de varios árboles de decisión individuales. Todos los árboles de decisión que forman parte de él utilizan diferentes variables del mismo conjunto de datos, aunque todos ellos llegan al objetivo deseado a través de diferentes medios. La credibilidad de estos bosques se basa en el hecho de que no hay dos personas que puedan llegar a un objetivo utilizando la misma ruta o razonamiento. E incluso si algunos son similares, siempre se pueden utilizar estos patrones repetitivos en el bosque para la eliminación de prueba y error.

Por ejemplo, un analista deportivo, un ex jugador de fútbol, un periodista deportivo, un fanático entusiasta y un árbitro retirado harán una pregunta diferente para predecir el resultado de un juego. Todos ellos tienen diferentes habilidades, información y conocimiento del juego; por lo tanto, sus métodos para alcanzar el objetivo de la predicción serán diferentes. No sólo su juego de conocimiento sino su razonamiento para establecer una relación entre las variables recuperadas de sus datos adquiridos es también diferente.

Ahora los árboles de decisión de todas estas personas crearán un modelo. Colectivamente, este modelo es un “bosque aleatorio”. Tienes todas estas predicciones individuales de varios árboles de decisión no correlacionados, y todos ellos han usado formas únicas para predecir el objetivo deseado. Puedes usar todas estas predicciones para aumentar la precisión de tu predicción final.

Cómo funciona

La creación de un bosque aleatorio no es sólo una cuestión de crear variables drásticamente opuestas o de elegir características aleatorias de los datos disponibles. Debes tener un sentido de mapeo de datos y un don para hacer preguntas razonables para hacer una suposición precisa. Las máquinas pueden aprender a hacer esto almacenando la información que les das a lo largo de los años, pero aún así no serán capaces de hacer las preguntas de avance que un humano haría cuando se enfrente a un callejón sin salida en un árbol de decisiones.
Para que un bosque al azar funcione, necesitas reunir varios árboles de decisión. Todos estos árboles utilizarán datos de entrenamiento aleatorios, que ayudarán a establecer características. Sepa que las características son las relaciones que un clasificador construye entre los datos en el aprendizaje de la máquina, y lo que queremos predecir es el objetivo.

Ventajas

Las siguientes son algunas de las ventajas de un bosque al azar:
El bosque aleatorio aumenta la precisión de su predicción
Estás usando la sabiduría de una multitud en lugar de una persona o una máquina
Ninguna de las decisiones involucradas en un bosque están correlacionadas entre sí

Conclusión

El aprendizaje automático puede tener varios conceptos y términos complicados que están más allá de la comprensión de un extraño, pero el bosque aleatorio es un término que se aproxima a su significado original. Cada árbol de decisión que forma parte de él es su bloque de construcción y actúa como una rama de un árbol. Agrupa varios árboles de decisión juntos, y tendrás en tu mano uno de los algoritmos de clasificación de predicción más creíbles y precisos de la máquina de aprendizaje conocido como bosque aleatorio.