Compreender as Florestas Aleatórias

As florestas aleatórias são um método de aprendizagem mecânica para classificar algoritmos. Compreende várias árvores de decisão individuais que dependem de características aleatórias e formação de dados para alcançar um palpite inteligente que tem mais credibilidade do que uma única árvore de decisão. Todas as árvores de decisão na floresta aleatória são modelos separados. Cada uma delas utiliza um subconjunto de características aleatórias para prever um alvo, e todos estes alvos previstos se acumulam juntos para prever um alvo mais preciso.

A partir de Árvores de decisão

Considerando que nem todos os que lêem isto podem estar cientes do jargão da aprendizagem mecânica, decidimos decompor os conceitos em termos leigos. Todos, consciente ou inconscientemente, utilizaram árvores de decisão durante os seus anos académicos ou durante a sua vida profissional. O conceito é como um fluxograma no qual se decompõem dados ou textos complexos em passos fáceis sob a forma de um diagrama de caixa.

Embora as coisas não sejam tão simples e unilaterais numa árvore de decisão como o são num diagrama de fluxo, numa árvore de decisão, começa-se por uma parte inicial e continua-se a criar nós entre variáveis até se atingir o alvo. Por exemplo, alguém quer que você preveja a classificação da sua equipa de futebol favorita num torneio que se avizinha. Aqui, começará com a probabilidade inicial. Mas essa probabilidade inicial não pode ser a resposta absoluta, especialmente quando há enviesamentos envolvidos no processo de previsão.

Terá de dar as razões e fazer um número reduzido para que o seu palpite seja o mais credível possível.

A primeira variação terá origem na sua pergunta que o ajudará a decidir como atingir o seu objectivo. Cada pergunta que fará irá criar uma variância seguida de um “sim ou não” ou “verdadeiro ou falso”, que acabará por acrescentar um ramo à sua árvore de decisão. De cada vez que tomar uma rota, terá de estabelecer uma relação entre o conhecimento que adquiriu antes desse ponto. De certa forma, tudo depende da sua capacidade de fazer as perguntas que o ajudarão a adquirir os conhecimentos mais adequados para atingir o alvo desejado.


A Correlação entre a Árvore da Decisão e a Floresta Aleatória

Como mencionado anteriormente, as florestas aleatórias são uma congregação de várias árvores de decisão individuais. Todas as árvores de decisão que fazem parte dela utilizam variáveis diferentes do mesmo conjunto de dados, embora todas elas atinjam o alvo desejado através de meios diferentes. A credibilidade destas florestas depende do facto de que não há duas pessoas que possam alcançar um alvo utilizando o mesmo caminho ou raciocínio. E mesmo que algumas sejam semelhantes, é sempre possível utilizar estes padrões repetitivos na floresta para a tentativa e eliminação de erros.

Por exemplo, um analista desportivo, um ex-jogador de futebol, um jornalista desportivo, um fã entusiasta, e um árbitro reformado irão fazer uma pergunta diferente para prever o resultado de um jogo. Todos eles têm diferentes capacidades, informações e conhecimentos sobre o jogo; por conseguinte, os seus métodos para atingir o objectivo de previsão serão diferentes. Não só o seu jogo de conhecimento, mas também o seu raciocínio para estabelecer uma relação entre as variáveis recuperadas dos seus dados adquiridos é também diferente.
Agora as árvores de decisão de todas estas pessoas irão criar um modelo. Colectivamente, este modelo é uma ‘floresta aleatória’. Tem todas estas previsões individuais de várias árvores de decisão não correlacionadas, e todas elas utilizaram formas únicas de prever o alvo desejado. Pode utilizar todas estas previsões para aumentar a precisão da sua previsão final.

Como Funciona

A criação de uma floresta aleatória não é apenas uma questão de criar variáveis drasticamente opostas ou escolher características aleatórias a partir dos dados disponíveis. É preciso ter um sentido de mapeamento de dados e uma capacidade de fazer perguntas razoáveis para fazer um palpite exacto. As máquinas podem aprender a fazer isto armazenando a informação que lhes fornece ao longo dos anos, mas ainda não serão capazes de fazer as perguntas revolucionárias que um humano faria quando confrontado com um beco sem saída numa árvore de decisão.
Para que uma floresta aleatória funcione, é necessário reunir várias árvores de decisão. Todas estas árvores utilizarão dados de treino aleatórios, o que ajudará no estabelecimento de características. Saiba que as características são as relações que um classificador constrói entre os dados na aprendizagem mecânica, e a coisa que queremos prever é o alvo.

Vantagens

Apresentam-se a seguir algumas vantagens de uma floresta aleatória:
A floresta aleatória aumenta a precisão da sua previsão
Está a usar a sabedoria de uma multidão em vez de uma pessoa ou de uma máquina
Nenhuma das decisões envolvidas numa floresta está correlacionada entre si

Conclusão

A aprendizagem de máquinas pode ter vários conceitos e termos complicados que estão para além da compreensão de um estranho, mas a floresta aleatória é um termo que está próximo do seu significado original. Cada árvore de decisão que faz parte dela é o seu bloco de construção e actua como um ramo de uma árvore. Junte várias árvores de decisão, e terá na sua mão um dos algoritmos de classificação de previsão mais credíveis e precisos da aprendizagem mecânica conhecida como floresta aleatória.