R-CNN

Para evitar el problema de la elección de innumerables áreas, Ross Girshick et al. propusieron una técnica en la que utilizamos una búsqueda específica para separar sólo 2.000 distritos del cuadro y los llamó recomendaciones de localización. De esta manera, actualmente, en lugar de intentar caracterizar un número colosal de distritos, se puede trabajar simplemente con 2000 áreas. Estas propuestas de 2000 localidades se producen utilizando el cálculo de la búsqueda particular que se compone a continuación.

Búsqueda selectiva:

1. Generar la subsegmentación inicial, generamos muchas regiones candidatas

2. Usar un algoritmo codicioso para combinar recursivamente regiones similares en otras más grandes

3. 3. Utilizar las regiones generadas para producir las propuestas finales de regiones candidatas

Estas 2000 recomendaciones de áreas emergentes se distorsionan en un cuadrado y se nutren en un sistema neural convolucional que entrega un vector de elementos de 4096 dimensiones como rendimiento. La CNN funciona como un extractor de componentes y la capa gruesa de rendimiento comprende los puntos destacados separados de la imagen y los puntos destacados extraídos se mantienen en un SVM para caracterizar la proximidad del elemento dentro de esa proposición de área emergente. A pesar de que se prevé la cercanía de un artículo dentro de la proposición de distrito, el cálculo también predice cuatro cualidades que son cualidades de contrapeso para construir la exactitud del cuadro delimitador. Por ejemplo, dada una proposición de distrito, el cálculo habría anticipado la cercanía de un individuo, sin embargo la esencia de ese individuo dentro de esa proposición de área podría haber sido cortada por la mitad. De esta manera, las estimaciones de contrapeso ayudan a cambiar el cuadro saltador de la proposición de distrito.

Problemas con el R-CNN

Sin embargo, requiere alguna inversión para preparar el sistema, ya que sería necesario caracterizar 2000 recomendaciones de área para cada cuadro.

No se puede actualizar en curso ya que toma alrededor de 47 segundos para cada imagen de prueba.

El cálculo específico de la caza es un cálculo fijo. De esta manera, no se aprende nada en esa etapa. Esto podría provocar la edad de las horribles recomendaciones del distrito solicitante.

Rápido R-CNN

Un creador similar del pasado papel (R-CNN) desentrañó una parte de las desventajas del R-CNN para construir un cálculo de descubrimiento de objetos más rápido y se llamó Quick R-CNN. La metodología es como el cálculo del R-CNN. Sin embargo, en lugar de reforzar la proposición de área a la CNN, alimentamos la imagen de información a la CNN para producir un mapa de inclusión convolucional. A partir del mapa de inclusión convolucional, distinguimos el distrito de recomendaciones y las torcemos en cuadrados y utilizando un retorno de la inversión de capital inicial de la capa de agrupación, las remodelamos en un tamaño fijo con el objetivo de que muy bien pueda ser fomentado en una capa completamente asociada. A partir del retorno del dinero invertido incluir vector, utilizamos una capa softmax para anticipar la clase del distrito propuesto y además, el contrapeso estima para la caja de salto.

La explicación “Quick R-CNN” es más rápida que la del R-CNN, ya que no es necesario reforzar indefectiblemente la proposición del área 2000 al sistema neural convolucional. Más bien, la actividad de convolución se hace sólo una vez por imagen y se crea un mapa de componentes a partir de ella.

De los diagramas anteriores, se puede deducir que el Quick R-CNN es esencialmente más rápido en la preparación y las sesiones de prueba sobre el R-CNN. En el momento en que se echa un vistazo a la exposición del Quick R-CNN durante el tiempo de prueba, incluir la proposición del distrito dificulta el cálculo fundamentalmente cuando se contrasta con no utilizar las recomendaciones del área. En esta línea, la proposición de área se convierte en cuellos de botella en el cálculo del Quick R-CNN influyendo en su exhibición.

R-CNN más rápido

Los dos algoritmos anteriores (R-CNN y Quick R-CNN) utilizan una búsqueda particular para descubrir la proposición de localización. La búsqueda particular es un procedimiento lento y tedioso que influye en la presentación del sistema. Así, Shaoqing Ren et al. pensaron en un cálculo de localización de artículos que dispone el cálculo específico de la caza y da al sistema la oportunidad de familiarizarse con la proposición de distrito.

Al igual que el Quick R-CNN, la imagen se da como una contribución a una organización convolutiva que da un mapa de relieve convolutivo. En lugar de utilizar el cálculo de la investigación específica en la guía de elementos para distinguir las recomendaciones de área, se utiliza un sistema diferente para prever la proposición de la localidad. La propuesta de distrito anticipada se remodela entonces utilizando una capa de agrupación de retorno del dinero invertido que se utiliza luego para disponer el cuadro dentro del área propuesta y prever las estimaciones de balance para los cuadros delimitadores.

En el gráfico anterior, se puede ver que el R-CNN más rápido es mucho más rápido que sus predecesores. Por lo tanto, puede incluso ser usado para la detección de objetos en tiempo real.

YOLO – Sólo se mira una vez

En todos los cálculos de identificación de artículos pasados se utilizan áreas para restringir el artículo dentro de la imagen. El sistema no echa un vistazo a la imagen total. Más bien, las partes de la imagen que tienen altas probabilidades de contener el artículo. YOLO o You Just Look Once es un cálculo de reconocimiento de artículos totalmente diferente de los cálculos basados en distritos vistos anteriormente. En YOLO, una organización convolucional solitaria predice las cajas delimitadoras y las probabilidades de clase de estos contenedores.

El funcionamiento de YOLO es que tomamos una foto y la dividimos en una red SxS, dentro de cada una de las redes que tomamos m cajas de salto. Para cada una de las cajas saltarinas, el sistema produce una probabilidad de clase y estimaciones de contrapeso para la caja delimitadora. Las cajas delimitadoras que tienen la probabilidad de clase sobre la estimación de borde se eligen y se utilizan para encontrar el elemento dentro de la imagen.

YOLO es una solicitud de extensión más rápida (45 esbozos cada segundo) que otros cálculos de identificación de artículos. La limitación del cálculo de YOLO es que lucha con pequeños artículos dentro de la imagen, por ejemplo, puede experimentar problemas para distinguir un grupo de criaturas emplumadas. Esto se debe a las limitaciones espaciales del cálculo.