A Floresta Irregular é um dos cálculos de IA mais famosos e mais dominantes. É uma espécie de cálculo de IA da trupe chamada Bootstrap Aggregation ou embalagem.
Neste post, você encontrará o cálculo da coleta de bagagens e o cálculo da Floresta Aleatória para demonstração presciente. Depois de ler este post, você vai pensar no assunto:
A estratégia de bootstrap para avaliar quantidades mensuráveis a partir de testes.
O cálculo de agregação Bootstrap Aggregation para fazer vários modelos a partir de um conjunto de dados de preparação solitária.
O cálculo da Floresta Aleatória que faz uma pequena mudança no Ensacamento e resulta em um classificador extremamente revolucionário.
Método Bootstrap
Antes de chegarmos ao Ensacamento, devemos investigar um sistema de estabelecimento significativo chamado “bootstrap”.
O bootstrap é uma técnica incrivelmente mensurável para avaliar uma quantidade a partir de um teste de informação. Isto é menos exigente para compreender se a quantidade é uma medida esclarecedora, por exemplo, uma média ou um desvio padrão.
Que tal aceitarmos que temos um exemplo de 100 qualidades (x) e gostaríamos de obter uma bitola da média do exemplo.
Podemos computar a média legitimamente a partir do exemplo como:
média(x) = 1/100 * soma(x)
Percebemos que o nosso exemplo é pouco e que a nossa média se enganou nele. Podemos melhorar a bitola da nossa média utilizando a técnica do bootstrap:
Fazer muitos (por exemplo 1000) sub-testes irregulares do nosso conjunto de dados com uma substituição (o que significa que podemos escolher um valor semelhante em ocasiões diferentes).
Determine a média de cada sub-teste.
Verificar a normalidade de todos os nossos métodos reunidos e utilizar isso como nosso meio avaliado para a informação.
Por exemplo, suponha que utilizamos 3 resamples e obtemos as qualidades médias 2,3, 4,5 e 3,3. Tomando o normal destas, poderíamos tomar a média avaliada das informações como sendo 3,367.
Este procedimento pode ser utilizado para avaliar diferentes valores como o desvio padrão e até mesmo valores utilizados nos cálculos da IA, como coeficientes acadêmicos.
Coleção Bootstrap (Estiva)
Bootstrap Accumulation (ou Sacking para abreviar), é uma técnica simples e excepcionalmente inovadora de troupe.
Uma estratégia de trupe é um método que consolida as expectativas dos vários cálculos de IA juntos para fazer previsões mais exatas do que qualquer modelo individual.
O Bootstrap Accumulation é uma estratégia geral que pode ser utilizada para diminuir a mudança para aquele cálculo que tem uma diferença alta. Um cálculo que tem uma diferença alta é a escolha de árvores, semelhante à caracterização e recaída de árvores (Caminhão).
As árvores de escolha são delicadas para as informações particulares sobre as quais são preparadas. Na hipótese de a informação de preparação ser alterada (por exemplo, uma árvore é preparada em um subconjunto da informação de preparação), a árvore de escolha subseqüente pode ser muito única e, portanto, as expectativas podem ser muito extraordinárias.
O Sacking é o uso da estratégia Bootstrap para um cálculo de IA de alta mudança, comumente árvores de escolha.
Devemos esperar ter um conjunto de dados de exemplo de 1000 ocasiões (x) e estamos utilizando o cálculo do Caminhão. A estiva do cálculo do Caminhão seria preenchida como segue.
Faça muitos (por exemplo 100) sub-testes irregulares do nosso conjunto de dados com substituição.
Treinar um modelo de caminhão em cada exemplo.
Dado outro conjunto de dados, figure a expectativa normal de cada modelo.
Por exemplo, caso tivéssemos 5 árvores de escolha embaladas que fizessem as expectativas da classe acompanhante para um teste in input: azul, azul, vermelho, azul e vermelho, pegaríamos a classe mais incessante e preveríamos o azul.
Ao guardarmos com árvores de escolha, estamos menos preocupados com o excesso de árvores individuais que se ajustam às informações de preparação. Portanto, e por proficiência, as árvores de escolha individual são desenvolvidas em profundidade (por exemplo, quase nenhum teste de preparo em cada cubo de folha da árvore) e as árvores não são podadas. Estas árvores terão tanto alta diferença quanto baixa inclinação. Estes são retratos significativos dos sub-modelos quando da consolidação de previsões utilizando embalagens.
Os principais parâmetros ao embalar árvores de escolha é o número de testes e, portanto, o número de árvores a incorporar. Isto pode ser colhido através da expansão do número de árvores em execução até que a exatidão comece a desistir indicando melhoria (por exemplo, em um equipamento de teste de aprovação cruzada). Quantidades muito grandes de modelos podem deixar de lado um longo esforço para se preparar, mas não se sobrepõe às informações de preparação.
Assim como as próprias árvores de escolha, o Sacking pode ser utilizado para questões de arranjo e recaída.
Madeiras Irregulares
As florestas irregulares são uma melhoria em relação às árvores de escolha embaladas.
Um problema com árvores de escolha como Truck é que elas são cobiçadas. Eles escolhem qual a variável a ser utilizada, utilizando um cálculo ávido que limita o erro. Assim, mesmo com a Estiva, as árvores de escolha podem ter uma tonelada de similitudes auxiliares e, portanto, ter uma alta conexão em suas expectativas.
Unir as expectativas de inúmeros modelos em trajes funciona melhor se as previsões dos sub-modelos não estiverem relacionadas ou, no melhor dos casos, corresponderem lamentavelmente ao cenário.
A arborização arbitrária altera o cálculo da forma como as sub-árvores são descobertas com o objetivo de que as previsões subseqüentes da totalidade das sub-árvores tenham menos relação.
É uma mudança direta. No Truck, ao escolher um ponto divisório, o cálculo do aprendizado é permitido visualizar todos os fatores e cada variável de incentivo de forma a escolher o ponto divisório ideal. O cálculo arbitrário das madeiras muda essa metodologia com o objetivo de que o cálculo do aprendizado se restrinja a um exemplo irregular de pontos de destaque a serem observados.
O número de destaques que podem ser observados em cada ponto (m) deve ser determinado como parâmetro para o cálculo. Você pode tentar várias qualidades e ajustá-las utilizando a aprovação cruzada.
Para caracterização um padrão decente é: m = sqrt(p)
Para uma recaída, um padrão decente é: m = p/3
Onde m é a quantidade de destaques escolhidos arbitrariamente que podem ser olhados em um ponto dividido e p é a quantidade de fatores de informação. Por exemplo, na hipótese remota de um conjunto de dados ter 25 fatores de informação para uma questão de agrupamento, naquele ponto:
m = sqrt(25)
m = 5
Execução Avaliada
Para cada teste do bootstrap test retirado das informações de preparação, haverá testes desertados que foram excluídos. Estes exemplos são obtidos através de testes Out-Of-Sack ou OOB.
A exposição de cada modelo ao seu lado esquerdo, ao encontrar o valor médio, pode dar uma exatidão esperada dos modelos embalados. Esta exposição avaliada é freqüentemente chamada de OOB gauge de execução.
Estas estimativas de exposição são sólidas bitolas de teste de erro e correspondem bem com bitolas de aprovação cruzada.