Сиамская нейронная сеть
Сиамская нейронная сеть (иногда называемая нейронной сетью-близнецом ) — это искусственная нейронная сеть , которая использует одни и те же веса при совместной работе с двумя разными входными векторами для вычисления сопоставимых выходных векторов. [1] [2] [3] [4] Часто один из выходных векторов вычисляется заранее, образуя таким образом базовую линию, с которой сравнивается другой выходной вектор. Это похоже на сравнение отпечатков пальцев , но более технически может быть описано как функция расстояния для хеширования с учетом местоположения . [ нужна ссылка ]
Можно построить архитектуру, функционально аналогичную двойной сети, но реализующую несколько иную функцию. Обычно это используется для сравнения аналогичных экземпляров в разных наборах типов. [ нужна ссылка ]
Меры сходства, в которых может использоваться двойная сеть, включают такие вещи, как распознавание рукописных проверок, автоматическое обнаружение лиц на изображениях с камеры и сопоставление запросов с индексированными документами. Пожалуй, самым известным применением двойных сетей является распознавание лиц , при котором известные изображения людей предварительно вычисляются и сравниваются с изображением с турникета или чего-то подобного. На первый взгляд это не очевидно, но есть две немного разные проблемы. Узнавание человека среди большого количества других людей – это проблема распознавания лиц. DeepFace — пример такой системы. [4] В самой крайней форме это узнавание одного человека на вокзале или в аэропорту. Другой — проверка лица , то есть проверка того, совпадает ли фотография в пропуске с фотографией человека, утверждающего, что он или она — тот же человек. Двойная сеть может быть такой же, но реализация может быть совершенно разной.
Обучение
[ редактировать ]Обучение в двойных сетях может осуществляться с тройной потерей или контрастной потерей . Для обучения путем потери триплета базовый вектор (привязное изображение) сравнивается с положительным вектором (правдивое изображение) и отрицательным вектором (ложное изображение). Отрицательный вектор будет стимулировать обучение в сети, а положительный вектор будет действовать как регуляризатор. Для обучения методом контрастной потери необходимо выполнить уменьшение веса для регуляризации весов или какую-либо подобную операцию, например нормализацию.
Метрика расстояния для функции потерь может иметь следующие свойства: [5]
- Неотрицательность:
- Личность неразличимых:
- Коммутативность:
- Неравенство треугольника:
В частности, алгоритм триплетных потерь часто определяется с использованием квадрата евклидова расстояния (который, в отличие от евклида, не имеет неравенства треугольника) в своей основе.
Предопределенные метрики, метрика евклидова расстояния
[ редактировать ]Общая цель обучения — минимизировать метрику расстояния для похожих объектов и максимизировать для различных. Это дает функцию потерь типа
- являются индексами набора векторов
- функция, реализуемая двойной сетью
Наиболее распространенной используемой метрикой расстояния является евклидово расстояние , в случае которого функцию потерь можно переписать в матричной форме как
Изученные метрики, нелинейная метрика расстояния
[ редактировать ]В более общем случае выходной вектор из сети-двойника передается через дополнительные сетевые уровни, реализующие нелинейные метрики расстояния.
- являются индексами набора векторов
- функция, реализуемая двойной сетью
- функция, реализуемая сетью, объединяющей выходы двойной сети
В матричной форме предыдущее часто аппроксимируется как расстояние Махаланобиса для линейного пространства как [6]
Это можно далее подразделить, по крайней мере, на обучение без учителя и обучение с учителем .
Изученные метрики, полублизнецовые сети
[ редактировать ]Эта форма также позволяет двойной сети быть скорее полублизнецом, реализуя несколько другие функции.
- являются индексами набора векторов
- функция, реализуемая полудвойной сетью
- функция, реализуемая сетью, объединяющей выходы двойной сети
Двойные сети для отслеживания объектов
[ редактировать ]Сети-близнецы использовались при отслеживании объектов из-за их уникальных двух тандемных входов и измерения сходства. При отслеживании объектов одним входом двойной сети является заранее выбранное пользователем изображение образца, другим входом является более крупное изображение поиска, задача которого двойной сети состоит в том, чтобы найти образец внутри изображения поиска. Измеряя сходство между образцом и каждой частью поискового изображения, сеть-близнец может составить карту оценки сходства. Более того, используя полностью сверточную сеть, процесс вычисления показателя сходства каждого сектора можно заменить только одним слоем взаимной корреляции. [7]
После первого представления в 2016 году полностью сверточная сеть Twin использовалась во многих высокопроизводительных нейронных сетях отслеживания объектов в реальном времени. Как и CFnet, [8] СтруктСиам, [9] СиамФК-три, [10] Сейчас, [11] ЮАР-Сиам, [12] СиамРПН, [13] ДаСиамРПН, [14] Каскадный СиамРПН, [15] Сиам Маск, [16] СиамРПН++, [17] Глубже и шире СиамРПН. [18]
См. также
[ редактировать ]Дальнейшее чтение
[ редактировать ]- Чикко, Давиде (2020), «Сиамские нейронные сети: обзор» , Искусственные нейронные сети , Методы молекулярной биологии, том. 2190 (3-е изд.), Нью-Йорк, Нью-Йорк, США: Springer Protocols , Humana Press, стр. 73–94, doi : 10.1007/978-1-0716-0826-5_3 , ISBN 978-1-0716-0826-5 , PMID 32804361 , S2CID 221144012
Ссылки
[ редактировать ]- ^ Чикко, Давиде (2020), «Сиамские нейронные сети: обзор» , Искусственные нейронные сети , Методы молекулярной биологии, том. 2190 (3-е изд.), Нью-Йорк, Нью-Йорк, США: Springer Protocols , Humana Press, стр. 73–94, doi : 10.1007/978-1-0716-0826-5_3 , ISBN 978-1-0716-0826-5 , PMID 32804361 , S2CID 221144012
- ^ Бромли, Джейн; Гийон, Изабель; ЛеКун, Янн; Зекингер, Эдуард; Шах, Рупак (1994). «Проверка подписи с использованием «сиамской» нейронной сети с задержкой» (PDF) . Достижения в области нейронных систем обработки информации . 6 : 737–744.
- ^ Чопра, С.; Хадселл, Р.; ЛеКун, Ю. (июнь 2005 г.). «Дискриминационное изучение метрики сходства с применением к проверке лица». 2005 Конференция IEEE Computer Society по компьютерному зрению и распознаванию образов (CVPR'05) . Том. 1. С. 539–546 т. 1. С. 539–546. 1. дои : 10.1109/CVPR.2005.202 . ISBN 0-7695-2372-2 . S2CID 5555257 .
- ^ Перейти обратно: а б Тайгман, Ю.; Ян, М.; Ранзато, М.; Вольф, Л. (июнь 2014 г.). «DeepFace: сокращение разрыва в производительности человеческого уровня при проверке лиц». Конференция IEEE 2014 по компьютерному зрению и распознаванию образов . стр. 1701–1708. дои : 10.1109/CVPR.2014.220 . ISBN 978-1-4799-5118-5 . S2CID 2814088 .
- ^ Чаттерджи, Мойтрея; Ло, Юнань. «Обучение по подобию со сверточной нейронной сетью (или без нее)» (PDF) . Проверено 7 декабря 2018 г.
- ^ Чандра, член парламента (1936). «Об обобщенной дистанции в статистике» (PDF) . Труды Национального института наук Индии . 1. 2 : 49–55.
- ^ Полностью сверточные сиамские сети для отслеживания объектов arXiv : 1606.09549
- ^ «Сквозное обучение представлению для отслеживания на основе корреляционного фильтра» .
- ^ «Структурированная сиамская сеть для визуального отслеживания в реальном времени» (PDF) .
- ^ «Триплетная потеря в сиамской сети для отслеживания объектов» (PDF) .
- ^ «Изучение динамической сиамской сети для визуального отслеживания объектов» (PDF) .
- ^ «Двойная сиамская сеть для отслеживания объектов в реальном времени» (PDF) .
- ^ «Высокоэффективное визуальное отслеживание с помощью сети предложений сиамского региона» (PDF) .
- ^ Чжу, Чжэн; Ли, Ву; Ян, Цзюньцзе; Ху , Веймин 2018 ( ) .
- ^ Фань, Хэн; Линг, Хайбин (2018). «Сети предложений сиамских каскадных регионов для визуального отслеживания в реальном времени». arXiv : 1812.06148 [ cs.CV ].
- ^ Ван, Цян; Чжан, Ли; Бертинетто, Лука; Ху, Веймин; Торр, Филип Х.С. (2018). «Быстрое отслеживание и сегментация объектов в Интернете: унифицированный подход». arXiv : 1812.05050 [ cs.CV ].
- ^ Чжан, Фанъи Ли, Бо , Вэй ; ; Ван ;
- ^ Чжан, Чжипенг; Пэн, Хоувэнь (2019). «Более глубокие и широкие сиамские сети для визуального отслеживания в реальном времени». arXiv : 1901.01660 [ cs.CV ].