Jump to content

Единоразовое обучение (компьютерное зрение)

Одноразовое обучение — это проблема категоризации объектов , встречающаяся в основном в компьютерном зрении . В то время как большинство алгоритмов категоризации объектов на основе машинного обучения требуют обучения на сотнях или тысячах примеров, однократное обучение направлено на классификацию объектов на основе одного или только нескольких примеров. Для решения этих задач также используется термин «обучение с несколькими попытками» , особенно когда требуется более одного примера.

Мотивация

[ редактировать ]

Способность изучать категории объектов на нескольких примерах и в быстром темпе была продемонстрирована на людях. [1] [2] Подсчитано, что к шести годам ребенок изучает почти все из 10–30 тысяч категорий объектов, существующих в мире. [3] Это связано не только с вычислительной мощью человеческого разума, но и с его способностью синтезировать и изучать новые категории объектов на основе существующей информации о различных, ранее изученных категориях. Даны два примера из двух категорий объектов: один — неизвестный объект, состоящий из знакомых форм, второй — неизвестная аморфная форма; Людям гораздо легче распознать первое, чем второе, что позволяет предположить, что люди используют ранее изученные категории при изучении новых. Ключевой мотивацией для решения однократного обучения является то, что системы, как и люди, могут использовать знания о категориях объектов для классификации новых объектов. [4] [5]

Как и в большинстве схем классификации , однократное обучение включает в себя три основные проблемы:

  • Представление: Как следует описывать объекты и категории?
  • Обучение: Как можно создать такие описания?
  • Распознавание: как можно отфильтровать известный объект от окружающего его беспорядка независимо от окклюзии, точки обзора и освещения? [6]

Однократное обучение отличается от распознавания отдельных объектов и алгоритмов распознавания стандартных категорий тем, что в нем упор делается на передачу знаний, в которой используются ранее изученные категории.

  • Параметры модели: повторно использует параметры модели на основе сходства между старыми и новыми категориями. Категории сначала изучаются на многочисленных обучающих примерах, затем изучаются новые категории, используя преобразования параметров модели из этих исходных категорий или выбирая соответствующие параметры для классификатора. [7]
  • Совместное использование функций: разделяет части или функции объектов по категориям. патчей Один алгоритм извлекает «диагностическую информацию» из патчей из уже изученных категорий путем максимизации взаимной информации , а затем применяет эти функции к изучению новой категории. Например, категорию собак можно выучить за один раз, основываясь на предыдущих знаниях о категориях лошадей и коров, поскольку объекты-собаки могут содержать схожие отличительные пятна. [8]
  • Контекстная информация: апеллирует к глобальным знаниям о сцене, в которой появляется объект. Такая глобальная информация может использоваться в качестве частотных распределений в системе условного случайного поля для распознавания объектов. [9] В качестве альтернативы контекст может учитывать высоту камеры и геометрию сцены. [10] Алгоритмы этого типа имеют два преимущества. Во-первых, они изучают относительно несходные категории объектов; и, во-вторых, они хорошо работают в специальных ситуациях, когда изображение не было обрезано и выровнено вручную. [11]

Алгоритм байесовского однократного обучения представляет передний план и фон изображений, параметризованных смесью моделей созвездия. [12] На этапе обучения параметры этих моделей изучаются с использованием параметра сопряженной плотности апостериорного и вариационного байесовского ожидания-максимизации (VBEM). [13] На этом этапе ранее изученные категории объектов определяют выбор параметров модели посредством передачи контекстной информации. Для распознавания объектов на новых изображениях апостериорное изображение, полученное на этапе обучения, используется в байесовской системе принятия решений для оценки отношения p(объект | тест, поезд) к p(фоновый помех | тест, поезд), где p — вероятность результат. [14]

Байесовский подход

[ редактировать ]

Учитывая задачу поиска конкретного объекта в изображении запроса, общая цель байесовского алгоритма однократного обучения состоит в том, чтобы сравнить вероятность присутствия объекта с вероятностью присутствия только фонового помехи. Если первая вероятность выше, алгоритм сообщает о наличии объекта, в противном случае алгоритм сообщает о его отсутствии. Чтобы вычислить эти вероятности, класс объектов должен быть смоделирован из набора (1 ~ 5) обучающих изображений, содержащих примеры.

Чтобы формализовать эти идеи, позвольте быть изображением запроса, которое содержит пример категории переднего плана или только фоновый беспорядок общей категории фона . Также пусть быть набором обучающих изображений, используемых в качестве категории переднего плана. Решение о том, содержит объект из категории переднего плана или только помехи из категории фона:

где класс позади и были расширены теоремой Байеса , давая соотношение правдоподобий и соотношение априорных категорий объектов . Мы решаем, что изображение содержит объект из класса переднего плана, если превышает определенный порог . Затем мы представляем параметрические модели для категорий переднего и заднего плана с параметрами и соответственно. Эта параметрическая модель переднего плана изучается на этапе обучения из , а также предварительную информацию об изученных категориях. Мы предполагаем, что фоновая модель одинакова для всех изображений. Опуская постоянное соотношение априорных категорий, и параметризуя по и урожайность

, упростив и к и

Апостериорное распределение параметров модели с учетом обучающих изображений, оценивается на этапе обучения. В этой оценке однократное обучение резко отличается от более традиционных байесовских моделей оценки, которые аппроксимируют интеграл как . Вместо этого он использует вариационный подход, используя априорную информацию из ранее изученных категорий. Однако традиционная оценка максимального правдоподобия параметров модели используется для фоновой модели и категорий, изученных заранее в ходе обучения. [15]

Модель категории объекта

[ редактировать ]

Для каждого изображения запроса и обучающие изображения модель созвездия . для представления используется [12] [16] [17] Чтобы получить эту модель для данного изображения Сначала на изображении обнаруживается набор из N интересных областей с помощью детектора заметности Кадира – Брейди . [18] Каждый выбранный регион представлен местоположением на изображении. и описание его внешнего вида, . Сдача в аренду и и аналогичных представлений для обучающих изображений, выражение для R принимает вид:

Вероятности и представлены как смеси моделей созвездий. Типичная модель созвездия состоит из P(3 ~ 7) частей с N(~100) областями интересов. Таким образом, P-мерный вектор h присваивает одну интересующую область (из N областей) каждой части модели (для P частей). Таким образом, h обозначает гипотезу (отнесение областей интереса к частям модели) для модели, а полная модель созвездия представляется путем суммирования всех возможных гипотез h в пространстве гипотез. . Наконец вероятность написана

разные представляют разные конфигурации частей, тогда как разные гипотезы h представляют разные назначения областей частям, учитывая модель части. . Предположение, что форма модели (представленная , набор расположений деталей) и внешний вид независимы, позволяет рассмотреть выражение правдоподобия как две отдельные вероятности появления и формы. [19]

Появление

[ редактировать ]

Внешний вид каждой функции представлен точкой в ​​пространстве внешнего вида (о реализации обсуждается ниже). «Каждая часть в модели созвездия имеет гауссову плотность в этом пространстве со средними и точными параметрами На основе них вероятность появления, описанная выше, вычисляется как произведение гауссиан на части модели для данной гипотезы h и компонента смеси. . [20]

Форма модели для данного компонента смеси а гипотеза h представлена ​​как совместная гауссова плотность расположения объектов. Эти особенности преобразуются в масштабное и трансляционно-инвариантное пространство перед моделированием относительного расположения частей с помощью 2(P - 1)-мерного гауссиана. Отсюда мы получаем вероятность формы, завершая наше представление о . Чтобы уменьшить количество гипотез в пространстве гипотез рассматриваются только те гипотезы, которые удовлетворяют ограничению порядка, заключающемуся в том, что координата x каждой части монотонно возрастает. Это устраняет гипотезы из . [20]

Сопряженные плотности

[ редактировать ]

Чтобы вычислить , интеграл должна быть оценена, но аналитически трудноразрешима. Модель категории объектов, приведенная выше, дает информацию о , так что осталось изучить , задняя часть и найдите достаточное приближение, чтобы сделать интеграл понятным. Предыдущая работа аппроксимирует заднюю часть функция с центром в , сжимая рассматриваемый интеграл в . Этот обычно оценивается с использованием максимального правдоподобия ( ) или Максимум A сзади ( ) процедура. Однако, поскольку при однократном обучении используется мало обучающих примеров, распределение не будет четко выраженным, как предполагается в аппроксимация функции. Таким образом, вместо этого традиционного приближения байесовский алгоритм однократного обучения стремится «найти параметрическую форму такое, что обучение осуществимо". Алгоритм использует распределение Нормальное - Уишарта в качестве сопряженного априора , а на этапе обучения вариационные байесовские методы используются для изучения гиперпараметров распределения с той же вычислительной сложностью, что и методы максимального правдоподобия. Тогда, поскольку является продуктом гауссианов, выбранных в модели категории объекта, интеграл сводится к многомерному распределению Стьюдента T , которое можно оценить. [21]

Выполнение

[ редактировать ]

Обнаружение и представление функций

[ редактировать ]

Чтобы обнаружить особенности изображения и представить его в виде модели созвездия, детектор значимости Кадира – Брейди используется на изображениях в оттенках серого, обнаруживая заметные области изображения. Затем эти области кластеризуются, что дает ряд особенностей (кластеров) и параметр формы. , состоящий из кластерных центров. Детектор Кадира-Брэйди был выбран потому, что он создает меньше, но более заметных областей, в отличие от детекторов признаков, таких как многомасштабный Харрис, который создает многочисленные, менее значимые области.

Затем области берутся из изображения и масштабируются до небольшого участка размером 11 × 11 пикселей, что позволяет представить каждый участок в 121-мерном пространстве. Эта размерность уменьшается с помощью анализа главных компонент , и , параметр внешнего вида, затем формируется из первых 10 основных компонентов каждого патча. [22]

Обучение

[ редактировать ]

Чтобы получить априорные данные о форме и внешнем виде, изучаются три категории (пятнистые кошки, лица и самолеты) с использованием оценки максимального правдоподобия. Эти параметры модели категории объекта затем используются для оценки гиперпараметров желаемых априорных значений.

Учитывая набор обучающих примеров, алгоритм запускает детектор признаков на этих изображениях и определяет параметры модели по важным областям. Индекс гипотезы h, присваивающий свойства частям, предотвращает решение линейной модели в замкнутой форме, поэтому апостериорный оценивается с помощью вариационного алгоритма байесовского ожидания-максимизации, который выполняется до сходимости параметров после ~ 100 итераций. Изучение категории таким способом занимает менее минуты на машине с частотой 2,8 ГГц, моделью из 4 частей и <10 обучающими изображениями. [23]

Результаты эксперимента

[ редактировать ]

Пример мотоцикла

[ редактировать ]

Чтобы узнать категорию мотоцикла:

  • Шесть обучающих изображений выбираются из категории мотоциклов набора данных Калифорнийского технологического института 4 и применяется детектор Кадира-Брэйди, что дает и через PCA , .
  • Затем параметры предыдущей модели вычисляются на основе 30 моделей. , по 10 из каждой из трех изученных категорий: пятнистые кошки, лица и самолеты. В этом априоре закодировано знание о том, что «модели, которым не хватает визуальной последовательности [т. е. фоновый беспорядок], занимают другую часть пространства параметров [от] когерентных моделей».
  • При обучении, которое выполняется следующим образом, предшествующее смещает заднее. к частям пространства параметров, соответствующим когерентным моделям. Используется только один компонент смеси, что позволяет . Оценка задней части показана ниже.
  • Наконец, на рисунках ниже показана изученная модель мотоцикла с формой и внешним видом деталей, а также соответствующими характеристиками.
  • Для тестов на распознавание приведенная выше модель применяется к 50 изображениям, на которых есть мотоциклы, и к 50 изображениям, на которых их нет. На изображении ниже показана кривая ROC, измеряющая вероятность обнаружения по сравнению с вероятностью ложного обнаружения, а также некоторые признанные примеры.

Общие плотности при преобразованиях

[ редактировать ]

Другой алгоритм использует передачу знаний по параметрам модели для изучения новой категории объектов, внешне похожей на ранее изученные категории. Изображение представляется либо как текстура и форма, либо как скрытое изображение, которое было преобразовано, что обозначается .

Сиамская нейронная сеть работает в тандеме с двумя разными входными векторами для вычисления сопоставимых выходных векторов. [24]

Застывание

[ редактировать ]

В этом контексте сгущение — это «одновременная векторизация каждого из набора изображений друг к другу». Для набора обучающих изображений определенной категории сгущение итеративно преобразует каждое изображение, чтобы минимизировать совместную попиксельную энтропию изображений E, где

"где — двоичная случайная величина, определяемая значениями конкретного пикселя p на всех изображениях, - дискретная энтропийная функция этой переменной, а — это набор индексов пикселей изображения».

Алгоритм сгущения начинается с набора изображений и соответствующая матрица преобразования , который в конце алгоритма будет представлять собой преобразование в его скрытую . Эти скрытые минимизировать совместную попиксельную энтропию. Таким образом, задачей алгоритма сгущения является оценка преобразований .

Эскиз алгоритма:

  • Инициализировать это к личности.
  • Вычислите совместную попиксельную энтропию текущего набора изображений.
  • Для каждого изображения , перебрать все возможные аффинные преобразования (вращение, перемещение по оси X, перемещение по оси Y, масштаб по оси X, масштаб по оси Y, сдвиг по оси X, сдвиг по оси y) и проверьте, если уменьшает совместную пиксельную энтропию. Если да, установите .
  • Повторите предыдущий шаг до схождения.

В конце алгоритма , и преобразует скрытое изображение обратно в первоначально наблюдаемое изображение. [25]

Классификация

[ редактировать ]

Чтобы использовать эту модель для классификации, ее необходимо оценить с максимальной апостериорной вероятностью для наблюдаемого изображения. . Применяя правило Байеса к и параметризация преобразованием дает сложный интеграл, который необходимо аппроксимировать, а затем наилучшее преобразование (то, что сопоставляет тестовое изображение с его скрытым изображением) должно быть найдено. Как только это преобразование найдено, тестовое изображение может быть преобразовано в его скрытое, а классификатор ближайшего соседа, основанный на расстоянии Хаусдорфа между изображениями, может классифицировать скрытое (и, следовательно, тестовое изображение) как принадлежащее определенному классу. .

Найти , тестовое изображение I вставляется в обучающий ансамбль для процесса застывания. Поскольку тестовое изображение взято из одной из категорий , застывание обеспечивает соответствующее это отображает Я в его скрытое состояние. Тогда латентное можно классифицировать. [26]

Однопримерная классификация

[ редактировать ]

Учитывая набор преобразований полученный в результате объединения множества изображений определенной категории, классификатор можно расширить на случай, когда только одно обучающее пример новой категории разрешено. Применение всех преобразований последовательно, чтобы создает искусственный обучающий набор для . Этот искусственный набор данных можно увеличить, заимствовав преобразования из многих уже известных категорий. Как только этот набор данных будет получен, , тестовый экземпляр , могут быть классифицированы так же, как и в обычной процедуре классификации. Ключевое предположение заключается в том, что категории достаточно схожи, чтобы преобразования одной можно было применить к другой. [27]

См. также

[ редактировать ]
  1. ^ Ли, Фергус и Перона 2002 .
  2. ^ Торп, Файз и Марлот, 1996 .
  3. ^ Бидерман 1987 .
  4. ^ Ли, Фергус и Перона 2006 , Раздел 1.
  5. ^ Ли 2006 , Раздел 1.
  6. ^ Ли, Фергус и Перона 2006 , Раздел 2.
  7. ^ Финк 2004 .
  8. ^ Барт и Ульман 2005 .
  9. ^ Мерфи и др. 2004 .
  10. ^ Хойем, Эфрос и Герберт 2005 .
  11. ^ Ли 2006 , Раздел 2.
  12. ^ Перейти обратно: а б Берл и др., 1996 г.
  13. ^ Аттиас 1999 .
  14. ^ Ли и др. 2006 .
  15. ^ Ли, Фергус и Перона 2006 , Раздел 3.1.
  16. ^ Вебер, Веллинг и Перона 2000 .
  17. ^ Фергус, Перона и Зиссерман 2003 .
  18. ^ Кадир и Брэди 2001 .
  19. ^ Ли, Фергус и Перона 2006 , Раздел 3.2.
  20. ^ Перейти обратно: а б Ли, Фергус и Перона, 2006 г. , раздел 3.2.1.
  21. ^ Ли, Фергус и Перона 2006 , Раздел 3.4.3.
  22. ^ Ли, Фергус и Перона 2006 , Раздел 5.1.
  23. ^ Ли, Фергус и Перона 2006 , разделы 4, 5.2.
  24. ^ Обучение в несколько этапов (2/3): Сиамские сети . Ютуб . Архивировано из оригинала 10 декабря 2021 г.
  25. ^ Миллер и др .
  26. ^ Миллер, Мацакис и Виола 2000 , Раздел 4.
  27. ^ Миллер, Мацакис и Виола 2000 , Раздел 7.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5649154dcbf433796d9cd454eac26c89__1716488880
URL1:https://arc.ask3.ru/arc/aa/56/89/5649154dcbf433796d9cd454eac26c89.html
Заголовок, (Title) документа по адресу, URL1:
One-shot learning (computer vision) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)