R-CNN

Para evitar a questão da escolha de inúmeras áreas, Ross Girshick et al. propuseram uma técnica onde utilizamos uma busca específica para separar apenas 2000 distritos do quadro e ele os chamou de recomendações locais. Desta forma, atualmente, ao invés de tentar caracterizar um número colossal de distritos, você pode simplesmente trabalhar com 2000 áreas. Estas 2000 proposições de locale são produzidas utilizando o cálculo de busca particular que é composto abaixo.

Busca seletiva:

1. Gerar sub-segmentação inicial, geramos muitas regiões candidatas

2. Usar algoritmo ganancioso para combinar recursivamente regiões similares em regiões maiores

3. Utilizar as regiões geradas para produzir as propostas finais das regiões candidatas

Essas 2000 recomendações de área de up-and-comer são distorcidas em um quadrado e alimentadas em um sistema neural convolucional que fornece um vetor de elementos 4096-dimensionais como rendimento. A CNN se apresenta como um extrator de componentes e a camada espessa de rendimento compreende os destaques separados da imagem e os destaques extruídos são mantidos em um SVM para caracterizar a proximidade do item dentro daquela proposta de up-and-comer locale. Apesar de prever a proximidade de um item dentro da proposta distrital, o cálculo também prevê quatro qualidades que são qualidades contrabalançadas para construir a exatidão da caixa delimitadora. Por exemplo, dada uma proposta distrital, o cálculo teria antecipado a proximidade de um indivíduo, porém a essência desse indivíduo dentro dessa proposta de área poderia ter sido cortada no meio. Desta forma, a estima do contrapeso ajuda a mudar a caixa de salto da proposição distrital.

Problemas com o R-CNN

Independentemente disso, é necessário algum investimento para preparar o sistema, pois seria necessário caracterizar 2000 recomendações de área para cada quadro.

Não pode ser atualizado em andamento, pois leva cerca de 47 segundos para cada foto de teste.

O cálculo específico da caça é um cálculo fixo. Desta forma, nenhum aprendizado está ocorrendo nesta fase. Isto poderia provocar a idade das terríveis recomendações do distrito solicitante.

Fast R-CNN

Um criador semelhante do papel passado (R-CNN) desvendou uma parte das desvantagens do R-CNN para construir um cálculo mais rápido de descoberta de itens e foi chamado de Quick R-CNN. A metodologia é como o cálculo do R-CNN. No entanto, ao invés de reforçar a proposta de área para a CNN, nós alimentamos a CNN com o quadro de informações para produzir um mapa convolutivo de inclusão. A partir do mapa convolucional include, distinguimos o distrito de recomendações e as torcemos em quadrados e, utilizando uma camada de retorno sobre o investimento inicial de capital, remodelamo-las em um tamanho fixo, com o objetivo de que possa ser muito bem incentivado em uma camada completamente associada. A partir do retorno do dinheiro investido, utilizamos uma camada de softmax para antecipar a classe do distrito proposto e, além disso, o contrapeso de estima para a caixa de saltos.

A explicação “Quick R-CNN” é mais rápida do que o R-CNN, pois você não precisa reforçar a proposta de área 2000 para o sistema neural convolucional infalivelmente. Ao invés disso, a atividade de convolução é feita apenas uma vez por imagem e um mapa de componentes é criado a partir dela.

A partir dos diagramas acima, você pode deduzir que o Quick R-CNN é essencialmente mais rápido na preparação e teste das sessões sobre o R-CNN. No ponto em que você dá uma olhada na exposição do Quick R-CNN durante o tempo de teste, incluindo a proposta distrital dificulta o cálculo fundamentalmente quando comparado com a não utilização de recomendações de área. Nesta linha, a proposição de área torna-se um gargalo no cálculo do Quick R-CNN influenciando a sua exposição.

R-CNN mais rápido

Ambos os algoritmos acima (R-CNN e Quick R-CNN) utilizam uma busca particular para descobrir a proposta locale. A busca particular é um procedimento lento e tedioso influenciando a apresentação do sistema. Assim, Shaoqing Ren et al. pensaram em um cálculo de localização do artigo que dispõe do cálculo específico da caça e dá ao sistema uma chance de se familiarizar com a proposição distrital.

Como o Quick R-CNN, a figura é dada como uma contribuição para uma organização convolutiva que dá um mapa de destaque convolutivo. Ao invés de utilizar o cálculo específico de consulta no guia de elementos para distinguir as recomendações da área, um sistema diferente é utilizado para prever a proposição local. A proposta distrital antecipada é então reformulada utilizando uma camada de retorno do dinheiro investido que é então utilizada para organizar a imagem dentro da área proposta e prever o equilíbrio estimado para as caixas delimitadoras.

Pelo gráfico acima, você pode ver que o Faster R-CNN é muito mais rápido do que os seus antecessores. Portanto, ele pode até ser usado para detecção de objetos em tempo real.

YOLO – Você só olha uma vez

A totalidade dos cálculos de identificação de artigos passados utiliza áreas para restringir o item dentro da figura. O sistema não dá uma olhada na imagem total. Ao invés disso, partes da figura que têm altas probabilidades de conter o item. YOLO ou You Just Look Once é um cálculo de reconhecimento de item totalmente diferente dos cálculos baseados no distrito vistos anteriormente. No YOLO uma organização solitária convolucional prevê as caixas delimitadoras e as probabilidades de classe para estes recipientes.

Como o YOLO funciona é que tiramos uma foto e a dividimos em uma malha SxS, dentro de cada uma das redes tiramos m caixas saltadoras. Para cada uma das caixas saltadoras, o sistema produz uma probabilidade de classe e contrabalanço para a caixa delimitadora. As caixas delimitadoras com a probabilidade de classe acima da borda são escolhidas e utilizadas para encontrar o item dentro da figura.

YOLO são pedidos de extensão mais rápidos (45 esboços a cada segundo) do que outros cálculos de identificação de artigos. O constrangimento do cálculo YOLO é que ele luta com pequenos artigos dentro da figura, por exemplo, ele pode ter problemas em distinguir um grupo de criaturas com penas. Isto se deve às limitações espaciais do cálculo.