R-CNN

Чтобы обойти вопрос выбора бесчисленных районов, Росс Гиршик и др. предложили методику, при которой мы используем конкретную погоню за тем, чтобы отделить от картины только 2000 районов, и он назвал их локальными рекомендациями. Таким образом, в настоящее время, вместо того, чтобы пытаться охарактеризовать колоссальное количество районов, можно просто работать с 2000 районами. Эти 2000 предложений по локали составлены с использованием конкретного расчета погони, который составлен внизу.

Селективный поиск:

1. Сгенерировать начальную подсегментацию, мы генерируем много областей-кандидатов.

2. Использовать жадный алгоритм для рекурсивного объединения похожих областей в более крупные

https://miro.medium.com/max/889/1*REPHY47zAyzgbNKC6zlvBQ.png

3. Использовать сформированные регионы для подготовки окончательных предложений по регионам-кандидатам.

Эти 2000 рекомендаций по увеличению площади искажаются в квадрат и преобразуются в конволюционную нейронную систему, которая обеспечивает 4096-мерный элементный вектор в качестве выходного. CNN работает как компонентный экстрактор, а толстый слой выхода состоит из выделенных из изображения бликов, а выделенные блики выравниваются в SVM, чтобы охарактеризовать близость элемента внутри этого повышающего и повышающего локального предложения. Несмотря на предсказание близости предмета внутри предложения по району, расчет также предсказывает четыре качества, которые являются уравновешенными качествами для построения точности ограничивающего ящика. Например, в случае предложения округа вычисление предполагало бы близость человека, однако сущность этого человека внутри предложения округа могла бы быть нарезана посередине. Таким образом, уравновешивание помогает изменить прыгающую рамку предложения округа.

https://miro.medium.com/max/500/1*NX5yYTi-eQjP0pMWs3UbUg.png

Вопросы с R-CNN

Независимо от этого, для подготовки системы требуются определенные инвестиции, так как для каждой картины необходимо охарактеризовать 2000 рекомендаций по областям.

Ее нельзя актуализировать постоянно, так как для каждого тестового снимка требуется около 47 секунд.

Конкретное вычисление для охоты – это фиксированное вычисление. Таким образом, на этом этапе не происходит никакого обучения. Это может подтолкнуть к возрасту ужасных рекомендаций по районам для претендентов.

Быстрый R-CNN

https://miro.medium.com/max/842/1*0pMP3aY8blSpva5tvWbnKA.png

Аналогичный создатель прошлой работы (R-CNN) распутал часть недостатков R-CNN, чтобы построить более быстрое вычисление обнаружения элемента, и назвал его Быстрым R-CNN. Методология подобна расчету R-CNN. Однако, вместо того, чтобы подкрепить предложение области для CNN, мы передаем информационную картину для CNN, чтобы получить конвулуационную карту включения. Из конволюционной карты включения мы выделяем район рекомендаций и скручиваем их в квадраты, и, используя слой пула окупаемости первоначальных капиталовложений, преобразовываем их в фиксированный размер, с целью, чтобы он очень хорошо стимулировался в полностью ассоциированный слой. Из показателя рентабельности вложенных средств, включающего вектор, мы используем слой softmax для прогнозирования класса предлагаемого района и, более того, уравновешивания оценок для “коробки прыжков”.

Объяснение “Быстрый R-CNN” быстрее, чем R-CNN, на том основании, что вам не нужно неукоснительно поддерживать предложение 2000 области для конвуляционной нейронной системы. Скорее, операция свертки выполняется всего один раз на картинке, и из нее создается карта компонентов.

https://miro.medium.com/max/1647/1*m2QO_wbUPA05mY2q4v7mjg.png

Из приведенных выше диаграмм можно сделать вывод, что Quick R-CNN, по сути, быстрее готовит и тестирует сеансы по R-CNN. В тот момент, когда вы смотрите на выставку Quick R-CNN во время тестирования, в том числе и на районное предложение, вычисления принципиально затрудняются, в отличие от неиспользования рекомендаций по зонам. Таким образом, предложение области становится узким местом в расчете Quick R-CNN, влияющим на его экспозицию.

Более быстрый R-CNN

https://miro.medium.com/max/873/1*pSnVmJCyQIRKHDPt3cfnXA.png

Оба вышеперечисленных алгоритма (R-CNN и Quick R-CNN) используют определенный поиск для обнаружения предложения локали. Особый поиск является медленной и утомительной процедурой, влияющей на представление системы. Так, Шаоцин Рен и др. придумали статью о расчете местоположения, которая располагает специфическим охотничьим расчетом и дает системе возможность познакомиться с положением о районе.

Как и Quick R-CNN, картина дается в виде вклада в конвулуационную организацию, которая дает конвулуационную карту выделения. Вместо того, чтобы использовать специальный расчет по элементам, чтобы различать рекомендации по районам, используется другая система для предвидения предложения по районам. Затем ожидаемое предложение района изменяется, используя пуловой слой с возвратом вложенных средств, который затем используется для расположения изображения внутри предлагаемого района и предвидения балансовых оценок для ограничивающих полей

https://miro.medium.com/max/1141/1*4gGddZpKeNIPBoVxYECd5w.png

Из приведенного выше графика видно, что R-CNN быстрее своих предшественников. Поэтому его можно даже использовать для обнаружения объектов в реальном времени.

Вы смотрите только один раз.

Во всех вычислениях по идентификации прошлых статей используются области для ограничения элемента внутри картинки. Система не смотрит на общую картину. Скорее, те части изображения, которые имеют высокую вероятность содержания предмета. YOLO или You Just Look Once – это вычисления распознавания объектов, полностью отличающиеся от вычислений на основе района, рассмотренных ранее. В YOLO единичная конволюционная организация предсказывает граничные поля и классовые вероятности для этих контейнеров.

Как функции YOLO состоят в том, что мы делаем снимок и разделяем его на решетку SxS, внутри каждой из сетей мы делаем m прыгающих коробок. Для каждого из прыгающих боксов система дает классовую вероятность и уравновешивающую оценку для ограничивающего бокса. Ограничительные ящики, имеющие классовое значение вероятности по краям, выбираются и используются для поиска элемента внутри картинки.

YOLO – это запросы степени быстрее (45 контуров каждую секунду), чем другие вычисления идентификации статьи. Ограничением YOLO вычисления является то, что он борется с небольшим количеством статей внутри картинки, например, он может столкнуться с проблемами при распознавании группы пернатых существ. Это связано с пространственными ограничениями вычисления.