Обнаружение больших двоичных объектов
Эта статья может быть слишком технической для понимания большинства читателей . ( сентябрь 2009 г. ) |
Обнаружение функций |
---|
Обнаружение края |
Обнаружение угла |
Обнаружение больших двоичных объектов |
Обнаружение гребней |
Преобразование Хафа |
Тензор структуры |
Обнаружение аффинных инвариантных функций |
Описание функции |
Масштабировать пространство |
В компьютерном зрении методы обнаружения капель направлены на обнаружение областей цифрового изображения , которые отличаются по свойствам, таким как яркость или цвет, по сравнению с окружающими областями. Неформально, капля — это область изображения, в которой некоторые свойства постоянны или приблизительно постоянны; все точки в блобе можно считать в некотором смысле похожими друг на друга. Самый распространенный метод обнаружения больших двоичных объектов — использование свертки .
Учитывая некоторое интересующее свойство, выраженное как функция положения на изображении, существует два основных класса детекторов капель: (i) дифференциальные методы , которые основаны на производных функции по положению, и (ii) методы, основанные на локальные экстремумы , которые основаны на нахождении локальных максимумов и минимумов функции. Используя более современную терминологию, используемую в этой области, эти детекторы также можно называть операторами точек интереса или, альтернативно, операторами областей интересов (см. также «Обнаружение точек интереса» и «Обнаружение углов »).
Существует несколько причин для изучения и разработки детекторов BLOB-объектов. Одной из основных причин является предоставление дополнительной информации об регионах, которая не может быть получена с помощью детекторов краев или углов . В ранних работах в этой области обнаружение капель использовалось для получения областей интереса для дальнейшей обработки. Эти области могут сигнализировать о присутствии объектов или частей объектов в области изображения с применением для распознавания объектов и/или отслеживания объектов . В других областях, таких как анализ гистограмм , дескрипторы больших двоичных объектов также могут использоваться для обнаружения пиков с применением к сегментации . Другое распространенное использование дескрипторов больших двоичных объектов — это основные примитивы для . анализа и распознавания текстур В более поздних работах дескрипторы BLOB-объектов находят все более популярное применение в качестве точек интереса для широкого базового стереосопоставления и для сигнализации о наличии информативных функций изображения для распознавания объектов на основе внешнего вида на основе локальной статистики изображений. Существует также связанное с этим понятие обнаружения гребней. сигнализировать о наличии вытянутых предметов.
Лапласиан Гаусса
[ редактировать ]первых и наиболее распространенных детекторов капель основан на лапласиане Гаусса Один из (LoG). Учитывая входное изображение , это изображение свернуто с помощью ядра Гаусса
в определенном масштабе дать масштабное представление пространства . Тогда результат применения Лапласа оператора
вычисляется, что обычно приводит к сильным положительным откликам для темных пятен радиуса (для двумерного изображения для -мерное изображение) и сильные отрицательные реакции на яркие капли одинакового размера. Однако основная проблема при применении этого оператора в одном масштабе заключается в том, что ответ оператора сильно зависит от соотношения между размером структур blob в области изображения и размером ядра Гаусса, используемого для предварительного сглаживания. Поэтому для автоматического захвата капель различного (неизвестного) размера в области изображений необходим многомасштабный подход.
Простой способ получить многомасштабный детектор капель с автоматическим выбором масштаба — рассмотреть нормированный по масштабу оператор Лапласа.
и обнаруживать максимумы/минимумы в масштабном пространстве , которые являются точками, которые одновременно являются локальными максимумами/минимумами как по отношению к пространству, так и по масштабу (Линдеберг 1994, 1998). Таким образом, учитывая дискретное двумерное входное изображение трехмерный объем дискретного масштаба вычисляется, и точка считается яркой (темной) каплей, если значение в этой точке больше (меньше), чем значение во всех ее 26 соседях. Таким образом, одновременный выбор точек интереса и весы выполняется согласно
- .
Обратите внимание, что это понятие большого двоичного объекта дает краткое и математически точное рабочее определение понятия «блоб», что напрямую ведет к эффективному и надежному алгоритму обнаружения больших двоичных объектов. Некоторые основные свойства больших двоичных объектов, определенные на основе максимумов масштабного пространства нормализованного оператора Лапласа, заключаются в том, что ответы ковариантны с перемещениями, поворотами и изменениями масштаба в области изображения. Таким образом, если максимум масштабного пространства предполагается в точке затем при изменении масштаба изображения на масштабный коэффициент , будет максимум в масштабном пространстве при в масштабированном изображении (Линдеберг, 1998). Это на практике очень полезное свойство означает, что помимо конкретной темы обнаружения лапласовых пятен, локальные максимумы/минимумы нормализованного по масштабу лапласиана также используются для выбора масштаба в других контекстах , таких как обнаружение углов , масштабно-адаптивное отслеживание функций (Бретцнер). и Линдеберг 1998), в масштабно-инвариантном преобразовании признаков (Lowe 2004), а также в других дескрипторах изображений для сопоставления изображений и распознавания объектов .
Свойства выбора масштаба оператора Лапласа и других детекторов точек интереса с близким масштабом подробно анализируются в (Lindeberg 2013a). [1] В (Линдеберг 2013b, 2015) [2] [3] показано, что существуют другие детекторы точек интереса в масштабном пространстве, такие как определитель оператора Гессиана, которые работают лучше, чем оператор Лапласа или его аппроксимация разности гауссиан для сопоставления на основе изображений с использованием локальных дескрипторов изображений, подобных SIFT.
Разница гауссовского подхода
[ редактировать ]Из того, что масштабное представление пространства удовлетворяет уравнению диффузии
то лапласиан гауссова оператора также может быть вычислено как предельный случай разницы между двумя сглаженными по Гауссу изображениями ( представления в масштабном пространстве )
- .
В литературе по компьютерному зрению этот подход называется подходом различия Гаусса (DoG). Однако, если не считать мелких технических особенностей, этот оператор по своей сути подобен оператору Лапласа и может рассматриваться как аппроксимация оператора Лапласа. Аналогично лапласовскому детектору капель, капли могут быть обнаружены по экстремумам разностей гауссиан в масштабном пространстве — см. (Lindeberg 2012, 2015). [3] [4] для явной связи между разностным оператором Гаусса и нормированным по масштабу оператором Лапласа. Этот подход, например, используется в алгоритме масштабно-инвариантного преобразования признаков (SIFT) — см. Lowe (2004).
Определитель гессиана
[ редактировать ]Рассматривая нормированный по масштабу определитель гессиана, также называемый оператором Монжа – Ампера ,
где обозначает матрицу Гессе представления в масштабном пространстве а затем обнаруживая максимумы этого оператора в масштабном пространстве, можно получить еще один простой дифференциальный детектор капель с автоматическим выбором масштаба, который также реагирует на седла (Lindeberg 1994, 1998).
- .
Точки BLOB-объекта и весы также определяются на основе операционных дифференциальных геометрических определений, что приводит к дескрипторам больших двоичных объектов, ковариантным с перемещениями, поворотами и масштабированием в области изображений. С точки зрения выбора масштаба, капли, определенные из экстремумов масштабного пространства определителя гессиана (DoH), также имеют немного лучшие свойства выбора масштаба при неевклидовых аффинных преобразованиях, чем более часто используемый оператор Лапласа (Линдеберг 1994, 1998, 2015). . [3] В упрощенной форме нормированный по масштабу определитель гессиана, вычисленный на основе вейвлетов Хаара, используется в качестве основного оператора точки интереса в дескрипторе SURF (Bay et al. 2006) для сопоставления изображений и распознавания объектов.
Подробный анализ свойств выбора определителя оператора Гессе и других детекторов точек интереса с близким масштабом дан в (Lindeberg 2013a). [1] показывая, что определитель оператора Гессе имеет лучшие свойства выбора масштаба при аффинных преобразованиях изображений, чем оператор Лапласа.В (Линдеберг 2013b, 2015) [2] [3] показано, что определитель оператора Гессиана работает значительно лучше, чем оператор Лапласа или его аппроксимация разностью гауссианов, а также лучше, чем операторы Харриса или Харриса-Лапласа, для сопоставления на основе изображений с использованием локального SIFT-подобного или Дескрипторы изображений, подобные SURF, что приводит к более высоким значениям эффективности и более низким оценкам с точностью до 1.
Гибридный лапласиан и определитель оператора Гессе (Гессиана-Лапласа)
[ редактировать ]Также был предложен гибридный оператор между лапласианом и определителем гессианских детекторов капель, в котором пространственный выбор осуществляется с помощью определителя гессиана, а выбор масштаба выполняется с помощью нормализованного по масштабу лапласиана (Миколайчик и Шмид, 2004):
Этот оператор использовался для сопоставления изображений, распознавания объектов, а также анализа текстур.
Аффинно-адаптированные дифференциальные детекторы BLOB-объектов
[ редактировать ]Дескрипторы blob, полученные с помощью этих детекторов blob с автоматическим выбором масштаба, инвариантны к перемещениям, вращениям и равномерным изменениям масштаба в пространственной области. Однако изображения, которые представляют собой входные данные для системы компьютерного зрения, также подвержены перспективным искажениям. Чтобы получить дескрипторы больших двоичных объектов, более устойчивые к перспективным преобразованиям, естественным подходом является разработка детектора больших двоичных объектов, инвариантного к аффинным преобразованиям . На практике аффинные инвариантные точки интереса можно получить, применив аффинную адаптацию формы к дескриптору blob, где форма сглаживающего ядра итеративно деформируется, чтобы соответствовать локальной структуре изображения вокруг blob, или, что эквивалентно, локальный фрагмент изображения итеративно деформируется, пока форма сглаживающего ядра остается вращательно-симметричной (Линдеберг и Гардинг 1997; Баумберг 2000; Миколайчик и Шмид 2004, Линдеберг 2008). Таким образом, мы можем определить аффинно-адаптированные версии оператора Лапласа/Разности гаусса, определителя гессиана и оператора Гессиана-Лапласа (см. также Харрис-Аффин и Гессиан-Аффин ).
Пространственно-временные детекторы BLOB-объектов
[ редактировать ]Определитель оператора Гессе был расширен на совместное пространство-время Виллемсом и др. [5] и Линдеберг, [6] что приводит к следующему дифференциальному выражению, нормализованному по масштабу:
В работе Виллемса и др. [5] более простое выражение, соответствующее и был использован. В Линдеберге, [6] было показано, что и подразумевает лучшие свойства выбора масштаба в том смысле, что выбранные уровни масштаба получены из пространственно-временного гауссова пятна с пространственной протяженностью. и временная протяженность будет идеально соответствовать пространственной протяженности и временной продолжительности BLOB-объекта, при этом выбор масштаба выполняется путем обнаружения экстремумов пространственно-временного масштаба-пространства дифференциального выражения.
Оператор Лапласа был расширен Линдебергом до пространственно-временных видеоданных. [6] что приводит к следующим двум пространственно-временным операторам, которые также представляют собой модели рецептивных полей незапаздывающих и отстающих нейронов в LGN:
Для первого оператора свойства выбора масштаба требуют использования и , если мы хотим, чтобы этот оператор принял свое максимальное значение в пространственно-временных масштабах на уровне пространственно-временного масштаба, отражающем пространственную протяженность и временную продолжительность возникшего гауссова пятна. Для второго оператора свойства выбора масштаба требуют использования и , если мы хотим, чтобы этот оператор принял максимальное значение в пространственно-временных масштабах на уровне пространственно-временного масштаба, отражающем пространственную протяженность и временную продолжительность мигающего гауссова пятна.
BLOB-объекты уровня серого, деревья BLOB-объектов уровня серого и BLOB-объекты масштабного пространства.
[ редактировать ]Естественный подход к обнаружению пятен состоит в том, чтобы связать яркую (темную) каплю с каждым локальным максимумом (минимумом) в ландшафте интенсивности. Однако основная проблема такого подхода заключается в том, что локальные экстремумы очень чувствительны к шуму. Чтобы решить эту проблему, Линдеберг (1993, 1994) изучил проблему обнаружения локальных максимумов с протяженностью в нескольких масштабах в масштабном пространстве . С каждым локальным максимумом была связана область, пространственная протяженность которой определялась по аналогии с водоразделом, а также локальный контраст, определяемый по так называемой граничной седловой точке. Локальный экстремум с определенной таким образом протяженностью назывался каплей уровня серого . Более того, продолжая аналогию водораздела за пределами ограничивающей седловой точки, было определено дерево BLOB-объектов уровня серого, позволяющее фиксировать вложенную топологическую структуру наборов уровней в ландшафте интенсивности таким образом, который инвариантен к аффинным деформациям в области изображения и монотонные преобразования интенсивности. Изучая, как эти структуры развиваются с увеличением масштаба, понятие масштабно-пространственные объекты Были представлены . Помимо локального контраста и протяженности, эти капли в масштабном пространстве также измеряли, насколько стабильны структуры изображений в масштабном пространстве, измеряя их время жизни в масштабном пространстве .
Было предложено, чтобы области интереса и дескрипторы масштабов, полученные таким образом, с соответствующими масштабными уровнями, определенными на основе масштабов, в которых нормализованные меры силы капель принимали свои максимумы по масштабам, можно было использовать для управления другой ранней визуальной обработкой. Был разработан ранний прототип упрощенных систем видения, в котором такие области интереса и дескрипторы масштаба использовались для направления фокуса внимания активной системы видения. Хотя конкретная техника, которая использовалась в этих прототипах, может быть существенно улучшена с учетом современных знаний в области компьютерного зрения, общий общий подход по-прежнему актуален, например, в том, как в настоящее время используются локальные экстремумы по масштабам нормализованного по масштабу оператора Лапласа. для предоставления информации о масштабе другим визуальным процессам.
Алгоритм обнаружения серых пятен Линдеберга на основе водораздела
[ редактировать ]С целью обнаружения пятен уровня серого (локальных экстремумов с протяженностью) по аналогии с водоразделом:Линдеберг разработал алгоритм, основанный на предварительной сортировке пикселей.альтернативно соединенные области, имеющие одинаковую интенсивность, впорядок убывания значений интенсивности.Затем проводились сравнения между ближайшими соседями пикселей или связанных областей.
Для простоты рассмотрим случай обнаружения ярких пятен уровня серого ипусть обозначение «более высокий сосед» означает «соседний пиксель, имеющий более высокое значение уровня серого».Затем на любом этапе алгоритма (осуществляется в порядке убывания значений интенсивности)основан на следующих правилах классификации:
- Если у региона нет более высокого соседа, то это локальный максимум и начальное значение объекта. Установите флаг, который позволяет BLOB-объекту расти.
- В противном случае, если у него есть хотя бы один сосед более высокого уровня, который является фоновым, то он не может быть частью какого-либо большого двоичного объекта и должен быть фоновым.
- В противном случае, если у него есть более одного более высокого соседа и если эти более высокие соседи являются частями разных больших двоичных объектов, то он не может быть частью какого-либо большого двоичного объекта и должен быть фоновым. Если кому-то из более высоких соседей все еще разрешено расти, снимите с него флаг, разрешающий ему расти.
- В противном случае у него есть один или несколько соседей более высокого уровня, которые являются частями одного и того же объекта. Если этому BLOB-объекту по-прежнему разрешено расти, текущий регион должен быть включен как часть этого BLOB-объекта. В противном случае регион должен быть установлен в фоновом режиме.
По сравнению с другими методами водораздела, затопление в этом алгоритме прекращается, как только уровень интенсивности падает ниже значения интенсивности так называемой ограничительной седловой точки, связанной с локальным максимумом. Однако этот подход довольно легко распространить на другие типы водораздельных сооружений. Например, если выйти за пределы первой ограничительной седловой точки, можно построить «дерево BLOB-объектов уровня серого». Более того, метод обнаружения BLOB-объектов на уровне серого был встроен в представление масштабного пространства и выполнялся на всех уровнях масштаба, в результате чего появилось представление, называемое первичным эскизом масштабного пространства .
Этот алгоритм и его приложения в компьютерном зрении более подробно описаны в диссертации Линдеберга. [7] а также монография по теории масштабного пространства [8] частично основанныйна этой работе. Более ранние презентации этого алгоритма также можно найти в . [9] [10] Более подробные описания приложений обнаружения капель на уровне серого и первичного эскиза в масштабном пространстве для компьютерного зрения и анализа медицинских изображений приведены в разделе . [11] [12] [13]
Максимально устойчивые экстремальные области (MSER)
[ редактировать ]Матас и др. (2002) были заинтересованы в определении дескрипторов изображений, устойчивых к перспективным преобразованиям . Они изучили наборы уровней в ландшафте интенсивности и измерили, насколько они стабильны по измерению интенсивности. Основываясь на этой идее, они определили понятие максимально стабильных экстремальных областей и показали, как эти дескрипторы изображений можно использовать в качестве признаков изображения для сопоставления стерео .
Между этим понятием и вышеупомянутым понятием дерева BLOB-объектов уровня серого существует тесная связь. Максимально стабильные экстремальные области можно рассматривать как создание определенного подмножества дерева BLOB-объектов уровня серого, явного для дальнейшей обработки.
См. также
[ редактировать ]- Извлечение больших двоичных объектов
- Обнаружение угла
- Аффинная адаптация формы
- Масштабировать пространство
- Обнаружение гребней
- Обнаружение точек интереса
- Обнаружение функций (компьютерное зрение)
- Детектор аффинных областей Харриса
- Детектор гессенских аффинных областей
- ПКБР
Ссылки
[ редактировать ]- ^ Jump up to: а б Линдеберг, Тони (2013) «Свойства выбора масштаба обобщенных детекторов точек интереса в масштабном пространстве», Журнал Mathematical Imaging and Vision, том 46, выпуск 2, страницы 177–210.
- ^ Jump up to: а б Линдеберг (2013) «Сопоставление изображений с использованием обобщенных точек интереса в масштабном пространстве», Масштабное пространство и вариационные методы в компьютерном зрении, Конспекты лекций Springer по информатике, том 7893, 2013, стр. 355–367.
- ^ Jump up to: а б с д Т. Линдеберг «Сопоставление изображений с использованием точек интереса в обобщенном масштабном пространстве», Журнал Mathematical Imaging and Vision, том 52, номер 1, страницы 3–36, 2015.
- ^ Т. Линдеберг «Преобразование масштабно-инвариантных признаков» , Scholarpedia, 7 (5): 10491, 2012.
- ^ Jump up to: а б Герт Виллемс, Тинне Туителаарс и Люк ван Гул (2008). «Эффективный плотный и масштабно-инвариантный пространственно-временной детектор точек интереса». Европейская конференция по компьютерному зрению . Конспекты лекций Спрингера по информатике. Том. 5303. стр. 650–663. дои : 10.1007/978-3-540-88688-4_48 .
- ^ Jump up to: а б с Тони Линдеберг (2018). «Выбор пространственно-временного масштаба в видеоданных» . Журнал математического изображения и видения . 60 (4): 525–562. дои : 10.1007/s10851-017-0766-9 . S2CID 4430109 .
- ^ Линдеберг, Т. (1991) Теория дискретного масштаба-пространства и первичный эскиз масштаба-пространства , докторская диссертация, Департамент численного анализа и вычислительной техники, Королевский технологический институт, S-100 44, Стокгольм, Швеция, май 1991 г. (ISSN) 1101-2250. ISRN KTH NA/P--91/8--SE) (Алгоритм обнаружения BLOB-объектов на уровне серого описан в разделе 7.1).
- ^ Линдеберг, Тони, Теория масштабного пространства в компьютерном зрении , Kluwer Academic Publishers, 1994. ISBN 0-7923-9418-6
- ^ Т. Линдеберг и Ж.-О. Эклунд, «Обнаружение масштаба и извлечение областей из основного эскиза в масштабном пространстве», в Proc. 3-я Международная конференция по компьютерному зрению (Осака, Япония), стр. 416–426, декабрь 1990 г. (Основные определения алгоритма обнаружения BLOB-объектов на уровне серого см. в Приложении A.1.)
- ^ Т. Линдеберг и Ж.-О. Эклунд, «О вычислении первичного эскиза в масштабном пространстве», Journal of Visual Communication and Image Representation , vol. 2, стр. 55–78, март 1991 г.
- ^ Линдеберг, Т.: Обнаружение заметных каплевидных структур изображения и их масштабов с помощью первичного эскиза в масштабном пространстве: метод фокусировки внимания, Международный журнал компьютерного зрения , 11 (3), 283–318, 1993. .
- ^ Линдеберг, Т., Лидберг, Пар и Роланд, П.: «Анализ паттернов активации мозга с использованием трехмерного первичного эскиза в масштабе и пространстве», Картирование человеческого мозга , том 7, № 3, стр. 166–194, 1999.
- ^ Жан-Франсуа Манжен, Дени Ривьер, Оливье Кулон, Сирил Пупон, Арно Качиа, Ян Коинтепас, Жан-Батист Полин, Дени Ле Биан, Жан Режи, Дмитрий Пападопулос-Орфанос: «Координатные и структурные подходы к анализу изображений мозга» . Искусственный интеллект в медицине 30 (2): 177-197 (2004). Архивировано 21 июля 2011 г. в Wayback Machine.
Дальнейшее чтение
[ редактировать ]- Х. Бэй; Т. Туителаарс и Л. ван Гул (2006). «SURF: Ускоренные надежные функции» . Материалы 9-й Европейской конференции по компьютерному зрению, Springer LNCS, том 3951, часть 1 . стр. 404–417.
- Л. Бретцнер и Т. Линдеберг (1998). «Отслеживание признаков с автоматическим выбором пространственных масштабов» (аннотация) . Компьютерное зрение и понимание изображений . 71 (3): 385–392. дои : 10.1006/cviu.1998.0650 .
- Т. Линдеберг (1993). «Обнаружение заметных структур изображений, похожих на капли, и их масштабов с помощью первичного эскиза в масштабном пространстве: метод фокусировки внимания» (аннотация) . Международный журнал компьютерного зрения . 11 (3): 283–318. дои : 10.1007/BF01469346 . S2CID 11998035 .
- Т. Линдеберг (1994). Теория масштаба-пространства в компьютерном зрении . Спрингер. ISBN 978-0-7923-9418-1 .
- Т. Линдеберг (1998). «Обнаружение признаков с автоматическим выбором масштаба» (аннотация) . Международный журнал компьютерного зрения . 30 (2): 77–116. дои : 10.1023/А:1008045108935 . S2CID 723210 .
- Линдеберг, Т.; Гардинг, Дж. (1997). «Адаптированное к форме сглаживание при оценке трехмерных сигналов глубины на основе аффинных искажений локальной двухмерной структуры» . Вычисление изображений и зрительных образов . 15 (6): 415–434. дои : 10.1016/S0262-8856(97)01144-X .
- Линдеберг, Т. (2008). «Масштаб-космос» . В Вау, Бенджамин (ред.). Энциклопедия информатики и техники . Том. IV. Джон Уайли и сыновья. стр. 2495–2504. дои : 10.1002/9780470050118.ecse609 . ISBN 978-0-470-05011-8 .
- Д.Г. Лоу (2004). «Отличительные особенности изображения по масштабно-инвариантным ключевым точкам» . Международный журнал компьютерного зрения . 60 (2): 91–110. CiteSeerX 10.1.1.73.2924 . дои : 10.1023/B:VISI.0000029664.99615.94 . S2CID 221242327 .
- Дж. Мэйтас; О. Чам; М. Урбан и Т. Пайдла (2002). «Надежное стерео с широкой базовой линией из максимально стабильных экстремальных областей» (PDF) . Британская конференция по машинному зрению . стр. 384–393.
- К. Миколайчик; К. Шмид (2004). «Масштабные и аффинно-инвариантные детекторы точек интереса» (PDF) . Международный журнал компьютерного зрения . 60 (1): 63–86. дои : 10.1023/B:VISI.0000027790.02288.f2 . S2CID 1704741 .