Сверточные нейронные сети на основе регионов
Эта статья может быть слишком технической для понимания большинства читателей . ( Август 2020 г. ) |
Сверточные нейронные сети на основе регионов (R-CNN) — это семейство моделей машинного обучения для компьютерного зрения и, в частности, обнаружения объектов .
История
[ редактировать ]Первоначальная цель R-CNN заключалась в том, чтобы взять входное изображение и создать на выходе набор ограничивающих рамок, где каждая ограничивающая рамка содержит объект, а также категорию (например, автомобиль или пешеход) объекта. Совсем недавно R-CNN был расширен для выполнения других задач компьютерного зрения. Ниже описаны некоторые из разработанных версий R-CNN.
- Ноябрь 2013 г.: R-CNN . Учитывая входное изображение, R-CNN начинает с применения механизма, называемого выборочным поиском , для извлечения областей интереса (ROI), где каждая ROI представляет собой прямоугольник, который может представлять границу объекта на изображении. В зависимости от сценария ROI может быть до двух тысяч . После этого каждая рентабельность инвестиций передается через нейронную сеть для создания выходных функций. Для каждой выходной функции ROI используется набор машинных классификаторов опорных векторов , чтобы определить, какой тип объекта (если таковой имеется) содержится в ROI. [ нужна ссылка ]
- Апрель 2015: Fast R-CNN . В то время как исходный R-CNN независимо вычислял характеристики нейронной сети для каждой из целых двух тысяч интересующих областей, Fast R-CNN запускает нейронную сеть один раз для всего изображения. В конце сети находится новый метод под названием ROIPooling, который вырезает каждую рентабельность инвестиций из выходного тензора сети, изменяет ее форму и классифицирует. Как и в исходном R-CNN, Fast R-CNN использует выборочный поиск для генерации предложений по регионам. [1]
- Июнь 2015: Faster R-CNN . В то время как Fast R-CNN использовал выборочный поиск для генерации ROI, Faster R-CNN интегрирует генерацию ROI в саму нейронную сеть. [1]
- Март 2017: Маск R-CNN . В то время как предыдущие версии R-CNN были сосредоточены на обнаружении объектов, Mask R-CNN добавляет сегментацию экземпляров. Mask R-CNN также заменил ROIPooling новым методом ROIAlign, который может представлять доли пикселя. [2] [3]
- Июнь 2019 г.: Mesh R-CNN добавляет возможность создания 3D-сетки из 2D-изображения. [4]
Приложения
[ редактировать ]Сверточные нейронные сети на основе регионов использовались для отслеживания объектов с камеры, установленной на дроне. [5] поиск текста на изображении, [6] и включение обнаружения объектов в Google Lens . [7] Маска R-CNN служит одной из семи задач в тесте MLPerf Training Benchmark, который представляет собой соревнование по ускорению обучения нейронных сетей. [8]
Ссылки
[ редактировать ]- ^ Jump up to: а б Бхатия, Рича (10 сентября 2018 г.). «Что такое объединение регионов интересов?» . Аналитика Индия . Проверено 12 марта 2020 г.
- ^ Фарук, Умер (15 февраля 2018 г.). «От R-CNN к Маску R-CNN» . Середина . Проверено 12 марта 2020 г.
- ^ Венг, Лилиан (31 декабря 2017 г.). «Обнаружение объектов для чайников. Часть 3: Семейство R-CNN» . Лил'Лог . Проверено 12 марта 2020 г.
- ^ Виггерс, Кайл (29 октября 2019 г.). «Facebook выделяет искусственный интеллект, который преобразует 2D-объекты в 3D-формы» . ВенчурБит . Проверено 12 марта 2020 г.
- ^ Нене, Види (2 августа 2019 г.). «Обнаружение и отслеживание нескольких объектов в реальном времени на основе глубокого обучения с помощью дрона» . Дрон внизу . Проверено 28 марта 2020 г.
- ^ Рэй, Тирнан (11 сентября 2018 г.). «Facebook усиливает распознавание персонажей в моих мемах» . ЗДНЕТ . Проверено 28 марта 2020 г.
- ^ Сагар, Рам (9 сентября 2019 г.). «Эти методы машинного обучения сделали Google Lens успешным » Аналитика Индия . Проверено 28 марта 2020 г.
- ^ Мэттсон, Питер; и др. (2019). «Эталон обучения MLPerf». arXiv : 1910.01500v3 [ math.LG ].