Мозаика документов
Мозаика документа — это процесс, при котором сшиваются несколько перекрывающихся снимков документа вместе для создания одной большой композиции с высоким разрешением. Документ вручную помещается под стационарную камеру, установленную над столом, до тех пор, пока все части документа не попадут в поле зрения камеры. Когда документ скользит под камерой, все движения документа грубо отслеживаются системой технического зрения. Документ периодически создается моментальный снимок, так что последующие снимки перекрываются примерно на 50%. Затем система находит перекрывающиеся пары и многократно сшивает их, пока все пары не будут сшиты вместе в один фрагмент документа. [1]
Мозаику документа можно разделить на четыре основных процесса.
- Отслеживание
- Обнаружение функций
- Установление корреспонденции
- Мозаика изображений.
Отслеживание (простой процесс корреляции)
[ редактировать ]В этом процессе движение документа, проходящего под камерой, грубо отслеживается системой. Отслеживание выполняется с помощью процесса, называемого простым процессом корреляции . В первом кадре снимков из центра изображения извлекается небольшой участок в качестве шаблона корреляции. Процесс корреляции выполняется в четырехкратном размере области исправления следующего кадра. На движение бумаги указывает пик корреляционной функции. Пик корреляционной функции указывает на движение бумаги. Выборка шаблона выполняется из этого кадра, и отслеживание продолжается до тех пор, пока шаблон не достигнет края документа. После того, как шаблон достигает края документа, делается еще один снимок, и процесс отслеживания выполняется повторно, пока не будет отображен весь документ. Снимки сохраняются в упорядоченном списке, чтобы облегчить объединение перекрывающихся изображений в последующие процессы.
Обнаружение признаков для эффективного сопоставления
[ редактировать ]Обнаружение признаков — это процесс поиска преобразования, которое выравнивает одно изображение с другим. Существует два основных подхода к обнаружению признаков. [2] [3]
- Подход, основанный на признаках : параметры движения оцениваются на основе соответствий точек. Этот подход подходит для случая, когда имеется множество стабильных и обнаруживаемых функций.
- Бесхарактерный подход : когда движение между двумя изображениями невелико, параметры движения оцениваются с использованием оптического потока . С другой стороны, когда движение между двумя изображениями велико, параметры движения оцениваются с использованием обобщенной взаимной корреляции . Однако этот подход требует вычислительно дорогостоящих ресурсов.
Каждое изображение сегментировано на иерархию столбцов, строк и слов, чтобы соответствовать организованному набору функций на изображениях. Оценка угла наклона и поиск столбцов, строк и слов являются примерами операций обнаружения признаков.
Оценка угла перекоса
[ редактировать ]угол, который строки текста составляют с линиями растра Во-первых, оценивается изображения (угол перекоса). Предполагается, что оно лежит в пределах ±20°. Небольшой участок текста на изображении выбирается случайным образом, а затем поворачивается в диапазоне ±20° до тех пор, пока дисперсия интенсивностей пикселей участка, суммируемая вдоль растровых линий, не станет максимальной. [4]
Чтобы гарантировать точность найденного угла перекоса, система мозаики документа выполняет расчет для многих участков изображения и получает окончательную оценку, находя среднее значение отдельных углов, взвешенных по разнице интенсивностей пикселей каждого участка.
Поиск столбцов, строк и слов
[ редактировать ]В ходе этой операции исправленный документ интуитивно сегментируется на иерархию столбцов, строк и слов. Чувствительность к освещению и окраске страницы исправленного документа можно устранить, применив оператор Собеля к исправленному изображению и установив пороговое значение на выходе для получения исправленного изображения с бинарным градиентом. [5]
Операцию можно условно разделить на 3 этапа: сегментация столбцов, сегментация строк и сегментация слов.
- Столбцы легко сегментируются из бинарного градиента и устраняют перекосы изображений путем суммирования пикселей по вертикали.
- Базовые линии каждой строки сегментируются так же, как и процесс сегментации столбцов, но горизонтально.
- Наконец, отдельные слова сегментируются путем применения вертикального процесса к каждой сегментированной строке.
Эти сегментации важны, поскольку мозаика документа создается путем сопоставления нижних правых углов слов в паре перекрывающихся изображений. Более того, операция сегментации позволяет надежно организовать список изображений в контексте иерархии строк и столбцов.
Операция сегментации включает в себя значительный объем суммирования в бинарном градиенте , исправленных изображениях, что выполняется путем построения матрицы частичных сумм. [6] элементы которого заданы
Матрица частичных сумм вычисляется за один проход по бинарному градиенту , выравнивающему изображение. [6]
Установление корреспонденции
[ редактировать ]Два изображения теперь организованы в иерархию связанных списков в следующей структуре:
- изображение = список столбцов
- строка=список слов
- столбец = список строк
- слово=длина (в пикселях)
Внизу структуры записывается длина каждого слова для установления соответствия между двумя изображениями, чтобы сократить поиск только соответствующих структур для групп слов с совпадающей длиной.
Поиск совпадений семян
[ редактировать ]Поиск начального совпадения выполняется путем сравнения каждой строки изображения image1 с каждой строкой изображения image2. Затем две строки сравниваются друг с другом по каждому слову. Если длина (в пикселях) двух слов (одно из изображения1 и одно из изображения2) и их непосредственных соседей согласуются друг с другом в пределах заранее определенного порога допуска (например, 5 пикселей), то предполагается, что они совпадают. Строка каждого изображения считается совпадающей, если между двумя строками есть три или более совпадений слов. Операция поиска начального совпадения завершается, когда обнаруживаются две пары последовательных совпадений строк.
Создание списка матчей
[ редактировать ]После завершения операции поиска начального совпадения следующим процессом является создание списка совпадений для генерации точек соответствия двух изображений. Этот процесс выполняется путем поиска совпадающих пар строк вдали от исходной строки.
Мозаика изображений
[ редактировать ]Учитывая список соответствующих точек двух изображений, следующим процессом является поиск преобразования перекрывающейся части изображений. Если предположить, что это модель камеры-обскуры , преобразование между пикселями (u,v) изображения 1 и пикселями (u0, v0) изображения 2 демонстрируется проективностью от плоскости к плоскости. [7]
Параметры проективности находятся по четырем парам точек совмещения. RANSAC-регрессия [8] Этот метод используется для отклонения исключительных совпадений и оценки проективности по оставшимся хорошим совпадениям.
Проективность точно настраивается с использованием корреляции в углах перекрывающейся части для получения четырех соответствий субпиксельной точности. Следовательно, изображение1 затем преобразуется в систему координат изображения2 с использованием уравнения 1. Типичный результат процесса показан на рисунке 5.
Многие изображения справляются
[ редактировать ]Наконец, вся композиция страницы создается путем сопоставления всех изображений с системой координат «привязочного» изображения, которое обычно является ближайшим к центру страницы. Преобразования опорного кадра вычисляются путем объединения парных преобразований, найденных ранее. Мозаика необработанного документа показана на рисунке 6.
Однако может возникнуть проблема с непоследовательными изображениями, которые перекрываются. Эту проблему можно решить, выполнив иерархическую субмозаику. Как показано на рисунке 7, изображения image1 и image2, а также image3 и image4 регистрируются, образуя две подмозаики. Эти две части мозаики позже сшиваются вместе в другом процессе мозаики.
Прикладные области
[ редактировать ]Существуют различные области, к которым может применяться техника мозаики документов, например:
- Текстовая сегментация изображений документов [5]
- Распознавание документов [4]
- Взаимодействие с бумагой на цифровом столе [9]
- Видеомозаики для виртуальных сред [10]
- Методы регистрации изображений [3]
Соответствующие исследовательские работы
[ редактировать ]- Хуанг, ТС; Нетравали, АН (1994). «Движение и структура на основе соответствия характеристик: обзор». Труды IEEE . 82 (2): 252–268. дои : 10.1109/5.265351 .
- Д.Г. Лоу. [1] Перцептивная организация и визуальное распознавание. Kluwer Academic Publishers, Бостон, 1985.
- Ирани, М.; Пелег, С. (1991). «Улучшение разрешения путем регистрации изображения». CVGIP: Графические модели и обработка изображений . 53 (3): 231–239. дои : 10.1016/1049-9652(91)90045-Л . S2CID 4834546 .
- Шивакумара, П.; Кумар, Г. Хеманта; Гуру, Д.С.; Нагабхушан, П. (2006). «Подход на основе скользящего окна для создания мозаики изображений документа» . изображений и видения Вычисление 24 (1): 94–100. дои : 10.1016/j.imavis.2005.09.015 .
- [2] Мозаика изображений документов с помощью камеры. (без даты). Изображение (Рочестер, Нью-Йорк), 1.
- Кумар, Г.Х.; Шивакумара, П.; Гуру, Д.С.; Нагабхушан (2004). «Мозаика изображений документов: новый подход» (PDF) . Текст 29 (3): 329–341. CiteSeerX 10.1.1.107.4304 . дои : 10.1007/bf02703782 . S2CID 62593940 .
- Сато Т., Икеда С., Канбара М., Икетани А., Накадзима Н., Ёкоя Н. и Ямада К. (nd). Видеомозаика высокого разрешения для документов и фотографий путем оценки движения камеры. Мозаика Журнал междисциплинарного изучения литературы.
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с д Заппала, Энтони; Ну и дела, Эндрю; Тейлор, Майкл (1999). «Мозаика документов». Вычисление изображений и зрительных образов . 17 (8): 589–595. дои : 10.1016/S0262-8856(98)00178-4 .
- ^ Манн, С.; Пикард, RW (1995). «Видеорбиты проективной группы: новый взгляд на мозаику изображений». Технический отчет (секция перцептивных вычислений), Медиа-лаборатория Массачусетского технологического института (338). CiteSeerX 10.1.1.56.6000 .
- ^ Перейти обратно: а б Браун, Л.Г. (1992). «Обзор методов регистрации изображений». Обзоры вычислительной техники ACM . 24 (4): 325–376. CiteSeerX 10.1.1.35.2732 . дои : 10.1145/146370.146374 . S2CID 14576088 .
- ^ Перейти обратно: а б Блумберг, Дэн С.; Копец, Гэри Э.; Дасари, Лакшми (1995). «Измерение перекоса и ориентации изображения документа» (PDF) . В Винсенте, Люк М; Бэрд, Генри С. (ред.). Распознавание документов II . Труды SPIE. Том. 2422. стр. 302–315. Бибкод : 1995SPIE.2422..302B . дои : 10.1117/12.205832 . S2CID 5106427 .
- ^ Перейти обратно: а б Тейлор, MJ; Заппала, А.; Ньюман, В.М.; Танец, ЧР (1999). «Документы через камеры». Вычисление изображений и зрительных образов . 17 (11): 831–844. дои : 10.1016/S0262-8856(98)00155-3 .
- ^ Перейти обратно: а б Препарата, ФП; Шамос, Мичиган (1985). Вычислительная геометрия: Введение . Монографии по информатике. Спрингер-Верлаг. ISBN 9780387961316 .
- ^ Манди, Дж.Л.; Зиссерман, А. (1992). «Приложение-Проективная геометрия для машинного зрения» . Геометрическая инвариантность в компьютерном зрении . Кембридж, Массачусетс: MIT Press. CiteSeerX 10.1.1.17.1329 . ISBN 9780262132855 .
- ^ Мартин А. Фишлер; Роберт К. Боллес (1981). «Консенсус случайной выборки: парадигма подбора модели с приложениями для анализа изображений и автоматизированной картографии» (PDF) . Коммуникации АКМ . 24 (6): 381–395. дои : 10.1145/358669.358692 . S2CID 972888 .
- ^ Веллнер, П. (1993). «Взаимодействие с бумагой на цифровом столе». Коммуникации АКМ . 36 (7): 87–97. CiteSeerX 10.1.1.53.7526 . дои : 10.1145/159544.159630 . S2CID 207174911 .
- ^ Селиски, Р. (1996). «Видеомозаики для виртуальных сред». IEEE Компьютерная графика и приложения . 16 (2): 22–306. дои : 10.1109/38.486677 .
Библиография
[ редактировать ]- Энтони, Заппала; Эндрю Джи; Майкл Тейлор (1999). «Мозаика документов». Вычисление изображений и зрительных образов . 17 (8): 589–595. дои : 10.1016/S0262-8856(98)00178-4 .