Компьютерное зрение

Задачи компьютерного зрения включают методы получения , обработки , анализа и понимания цифровых изображений, а также извлечения многомерных данных из реального мира для получения числовой или символической информации, например, в форме решений. ^[1]^[2]^[3]^[4] Понимание в этом контексте означает преобразование визуальных изображений (входных данных на сетчатку в человеческом аналоге) в описания мира, которые имеют смысл для мыслительных процессов и могут вызвать соответствующие действия. Такое понимание изображения можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения.

Научная дисциплина компьютерного зрения занимается теорией, лежащей в основе искусственных систем, извлекающих информацию из изображений. Данные изображения могут принимать разные формы, такие как видеопоследовательности, изображения с нескольких камер, многомерные данные от 3D-сканера, 3D-облака точек от датчиков LiDaR или медицинских сканирующих устройств. Технологическая дисциплина компьютерного зрения стремится применить свои теории и модели к построению систем компьютерного зрения.

Поддомены компьютерного зрения включают реконструкцию сцены , обнаружение объектов , обнаружение событий , распознавание активности , отслеживание видео , распознавание объектов , оценку 3D-позы , обучение, индексацию, оценку движения , визуальное обслуживание , 3D-моделирование сцен и восстановление изображений .

Внедрение технологии компьютерного зрения может оказаться для организаций сложной задачей, поскольку для нее не существует единого решения. Очень немногие компании предоставляют унифицированную и распределенную платформу или операционную систему, где приложения компьютерного зрения можно легко развертывать и управлять ими.

Определение [ править ]

Компьютерное зрение — это междисциплинарная область , которая занимается изучением того, как можно заставить компьютеры получать высокоуровневое понимание цифровых изображений или видео . С точки зрения инженерии , он стремится автоматизировать задачи, которые может выполнять зрительная система человека . ^[5]^[6]^[7] «Компьютерное зрение занимается автоматическим извлечением, анализом и пониманием полезной информации из одного изображения или последовательности изображений. Оно включает в себя разработку теоретической и алгоритмической основы для достижения автоматического визуального понимания». ^[8] Как научная дисциплина , компьютерное зрение занимается теорией, лежащей в основе искусственных систем, которые извлекают информацию из изображений. Данные изображения могут принимать различные формы, например видеопоследовательности, изображения с нескольких камер или многомерные данные медицинского сканера . ^[9] Как технологическая дисциплина, компьютерное зрение стремится применить свои теории и модели для построения систем компьютерного зрения. Машинное зрение относится к дисциплине системного проектирования, особенно в контексте автоматизации производства. В последнее время термины «компьютерное зрение» и «машинное зрение» стали более сближаться. ^[10]^: 13

История [ править ]

В конце 1960-х годов компьютерное зрение началось в университетах, которые были пионерами искусственного интеллекта . Он был призван имитировать зрительную систему человека и стать ступенькой к наделению роботов разумным поведением. ^[11] В 1966 году считалось, что этого можно достичь с помощью летнего проекта бакалавриата. ^[12] подключив камеру к компьютеру и заставив ее «описать то, что она увидела». ^[13]^[14]

Что отличало компьютерное зрение от распространенной в то время области цифровой обработки изображений , так это желание извлечь трехмерную структуру из изображений с целью достижения полного понимания сцены. Исследования 1970-х годов заложили основу для многих алгоритмов компьютерного зрения , существующих сегодня, включая извлечение ребер из изображений, маркировку линий, неполиэдрическое и многогранное моделирование , представление объектов как взаимосвязей более мелких структур, оптический поток и оценка движения . ^[11]

В следующем десятилетии были проведены исследования, основанные на более строгом математическом анализе и количественных аспектах компьютерного зрения. К ним относятся концепция масштабного пространства , определение формы на основе различных сигналов, таких как затенение , текстура и фокус, а также контурные модели, известные как змеи . Исследователи также поняли, что многие из этих математических концепций можно рассматривать в рамках той же структуры оптимизации, что и регуляризацию и марковские случайные поля . ^[15]К 1990-м годам некоторые из предыдущих тем исследований стали более активными, чем другие. Исследования в области проекционных 3D-реконструкций привели к лучшему пониманию калибровки камеры . С появлением методов оптимизации калибровки камер стало понятно, что многие идеи уже исследованы в теории настройки связок из области фотограмметрии . Это привело к появлению методов разреженной трехмерной реконструкции сцен из нескольких изображений . Был достигнут прогресс в решении проблемы плотного стереосоответствия и дальнейших методов многоракурсного стерео. В то же время вариации разреза графа использовались для решения сегментации изображений . В этом десятилетии также впервые на практике были использованы методы статистического обучения для распознавания лиц на изображениях (см. Eigenface ). К концу 1990-х годов произошли значительные изменения в связи с усилением взаимодействия между областями компьютерной графики и компьютерного зрения. Это включало рендеринг на основе изображений , морфинг изображений , интерполяцию изображений, сшивание панорамных изображений. и ранний рендеринг светового поля . ^[11]

В недавних работах наблюдалось возрождение методов, основанных на признаках, используемых в сочетании с методами машинного обучения и сложными структурами оптимизации. ^[16]^[17] Развитие методов глубокого обучения вдохнуло новую жизнь в область компьютерного зрения. Точность алгоритмов глубокого обучения на нескольких эталонных наборах данных компьютерного зрения для самых разных задач: от классификации до ^[18] сегментация и оптический поток превзошли предыдущие методы. ^{[ нужна ссылка ]}^[19]

Связанные поля [ изменить ]

Физика твердого тела [ править ]

Физика твердого тела — еще одна область, тесно связанная с компьютерным зрением. Большинство систем компьютерного зрения полагаются на датчики изображения , которые обнаруживают электромагнитное излучение , которое обычно имеет форму видимого , инфракрасного или ультрафиолетового света . Датчики разработаны с использованием квантовой физики . Процесс взаимодействия света с поверхностями объясняется с помощью физики. Физика объясняет поведение оптики , которая является основной частью большинства систем визуализации. Сложные датчики изображения даже требуют квантовой механики , чтобы обеспечить полное понимание процесса формирования изображения. ^[11] Также с помощью компьютерного зрения можно решать различные задачи измерения в физике, например, движение в жидкостях.

Нейробиология [ править ]

Упрощенный пример обучения нейронной сети обнаружению объектов: сеть обучается на нескольких изображениях, на которых, как известно, изображены морские звезды и морские ежи , которые коррелируют с «узлами», представляющими визуальные особенности . Морская звезда сочетается с кольцевой текстурой и звездным контуром, тогда как большинство морских ежей сочетается с полосатой текстурой и овальной формой. Однако экземпляр морского ежа с кольцевой текстурой создает между ними слабо взвешенную ассоциацию.

Последующий запуск сети на входном изображении (слева): ^[20] Сеть правильно обнаруживает морскую звезду. Однако слабовзвешенная связь между кольцевой текстурой и морским ежом также дает последнему слабый сигнал от одного из двух промежуточных узлов. Кроме того, раковина, не включенная в обучение, дает слабый сигнал овальной формы, что также приводит к слабому сигналу выхода морского ежа. Эти слабые сигналы могут привести к ложноположительному результату на морского ежа.
В действительности текстуры и контуры будут представлены не отдельными узлами, а скорее соответствующими весовыми шаблонами нескольких узлов.

Нейробиология оказала большое влияние на разработку алгоритмов компьютерного зрения. За последнее столетие проводились обширные исследования глаз, нейронов и структур мозга, посвященные обработке зрительных стимулов как у человека, так и у различных животных. Это привело к грубому, но запутанному описанию того, как работают системы естественного зрения для решения определенных задач, связанных со зрением. Эти результаты привели к созданию подобласти компьютерного зрения, где искусственные системы предназначены для имитации обработки и поведения биологических систем на разных уровнях сложности. Кроме того, некоторые методы обучения, разработанные в рамках компьютерного зрения ( например, нейронные сети и глубокое обучение, основанные на анализе и классификации изображений и признаков), имеют свою основу в нейробиологии. Неокогнитрон Кунихико , нейронная сеть, разработанная в 1970-х годах Фукусимой , является ранним примером компьютерного зрения, вдохновленным нейробиологией, в частности первичной зрительной корой головного мозга .

Некоторые направления исследований компьютерного зрения тесно связаны с изучением биологического зрения — на самом деле, точно так же, как многие направления исследований ИИ тесно связаны с исследованиями человеческого интеллекта и использованием накопленных знаний для интерпретации, интеграции и использования визуальной информации. Область биологического зрения изучает и моделирует физиологические процессы, лежащие в основе зрительного восприятия у людей и других животных. Компьютерное зрение, с другой стороны, разрабатывает и описывает алгоритмы, реализованные в программном и аппаратном обеспечении систем искусственного зрения. Междисциплинарный обмен между биологическим и компьютерным зрением оказался плодотворным для обеих областей. ^[21]

Обработка сигналов [ править ]

Еще одна область, связанная с компьютерным зрением, — это обработка сигналов . Многие методы обработки сигналов с одной переменной, обычно временных сигналов, могут быть естественным образом расширены до обработки сигналов с двумя переменными или сигналов с несколькими переменными в компьютерном зрении. Однако из-за специфической природы изображений в рамках компьютерного зрения разработано множество методов, не имеющих аналогов при обработке сигналов с одной переменной. Вместе с многомерностью сигнала это определяет подполе обработки сигналов как часть компьютерного зрения.

Роботизированная навигация [ править ]

Навигация роботов иногда связана с автономным планированием пути или обдумыванием роботизированными системами навигации по окружающей среде . ^[22] Для навигации по ним необходимо детальное понимание этих сред. Информацию об окружающей среде может предоставлять система компьютерного зрения, действующая как датчик технического зрения и предоставляющая информацию высокого уровня об окружающей среде и роботе.

Визуальные вычисления [ править ]

Визуальные вычисления — это общий термин для всех дисциплин информатики, связанных с изображениями и 3D-моделями , таких как компьютерная графика, обработка изображений, визуализация, компьютерное зрение, виртуальная и дополненная реальность и обработка видео . Визуальные вычисления также включают аспекты распознавания образов , взаимодействия человека с компьютером, машинного обучения и цифровых библиотек. Основными задачами являются сбор, обработка, анализ и рендеринг визуальной информации (в основном изображений и видео). Области применения включают промышленный контроль качества, обработку и визуализацию медицинских изображений , геодезию, робототехнику, мультимедийные системы, виртуальное наследие, спецэффекты в кино и на телевидении, а также компьютерные игры.

Другие поля [ править ]

Помимо вышеупомянутых взглядов на компьютерное зрение, многие связанные с ним темы исследований также можно изучать с чисто математической точки зрения. Например, многие методы компьютерного зрения основаны на статистике , оптимизации или геометрии . Наконец, значительная часть области посвящена аспекту реализации компьютерного зрения; как существующие методы можно реализовать в различных комбинациях программного и аппаратного обеспечения или как эти методы можно модифицировать, чтобы увеличить скорость обработки без слишком большой потери производительности. Компьютерное зрение также используется в электронной коммерции в сфере моды, управлении запасами, патентном поиске, производстве мебели и индустрии красоты. ^[23]

Отличия [ править ]

Областями, наиболее тесно связанными с компьютерным зрением, являются обработка изображений , анализ изображений и машинное зрение . Существует значительное совпадение в диапазоне методов и приложений, которые они охватывают. Это означает, что основные методы, которые используются и разрабатываются в этих областях, схожи, что можно интерпретировать как наличие только одного поля с разными именами. С другой стороны, исследовательским группам, научным журналам, конференциям и компаниям необходимо представлять или рекламировать себя как принадлежащих конкретно к одной из этих областей, и, следовательно, существуют различные характеристики, которые отличают каждую из этих областей от других. был представлен. При обработке изображений входными данными является изображение, а выходными данными также является изображение, тогда как в компьютерном зрении изображение или видео принимается в качестве входных данных, а выходными данными может быть улучшенное изображение, понимание содержания изображения. или даже поведение компьютерной системы, основанное на таком понимании.

Компьютерная графика создает данные изображения из 3D-моделей, а компьютерное зрение часто создает 3D-модели из данных изображения. ^[24] Существует также тенденция к сочетанию двух дисциплин, например , как это исследуется в дополненной реальности .

Следующие характеристики кажутся уместными, но их не следует воспринимать как общепринятые:

Обработка изображений и анализ изображений, как правило, сосредоточены на 2D-изображениях, на том, как преобразовать одно изображение в другое, например , с помощью попиксельных операций, таких как повышение контрастности, локальных операций, таких как выделение краев или удаление шума, или геометрических преобразований, таких как вращение изображения. . Эта характеристика подразумевает, что обработка/анализ изображений не требует предположений и не дает интерпретаций содержания изображения.
Компьютерное зрение включает в себя 3D-анализ 2D-изображений. При этом анализируется 3D-сцена, проецируемая на одно или несколько изображений, например , как восстановить структуру или другую информацию о 3D-сцене из одного или нескольких изображений. Компьютерное зрение часто опирается на более или менее сложные предположения о сцене, изображенной на изображении.
Машинное зрение — это процесс применения ряда технологий и методов для обеспечения автоматического контроля на основе изображений, управления процессами и управления роботом. ^[25] в промышленных применениях. ^[21] Машинное зрение имеет тенденцию фокусироваться на приложениях, в основном в производстве, например , роботах на основе машинного зрения и системах для визуального контроля, измерения или комплектования (например, комплектации контейнеров) . ^[26]). Это означает, что технологии датчиков изображения и теория управления часто интегрируются с обработкой данных изображения для управления роботом и что обработка в реальном времени подчеркивается посредством эффективных реализаций аппаратного и программного обеспечения. Это также означает, что внешние условия, такие как освещение, могут быть и часто более контролируемы в машинном зрении, чем в обычном компьютерном зрении, что позволяет использовать различные алгоритмы.
Существует также область, называемая визуализацией , которая в первую очередь фокусируется на процессе создания изображений, но иногда также занимается обработкой и анализом изображений. Например, медицинская визуализация включает в себя значительную работу по анализу данных изображений в медицинских приложениях.
Наконец, распознавание образов — это область, которая использует различные методы для извлечения информации из сигналов в целом, в основном на основе статистических подходов и искусственных нейронных сетей . ^[27] Значительная часть этой области посвящена применению этих методов к данным изображений.

Фотограмметрия также пересекается с компьютерным зрением, например, стереофотограмметрия по сравнению с компьютерным стереозрением .

Приложения [ править ]

Приложения варьируются от таких задач, как промышленные системы машинного зрения , которые, скажем, проверяют бутылки, проносящиеся на производственной линии, до исследований в области искусственного интеллекта и компьютеров или роботов, которые могут познавать мир вокруг них. Области компьютерного зрения и машинного зрения во многом совпадают. Компьютерное зрение охватывает основную технологию автоматического анализа изображений, которая используется во многих областях. Машинное зрение обычно представляет собой процесс объединения автоматизированного анализа изображений с другими методами и технологиями для обеспечения автоматического контроля и управления роботами в промышленных приложениях. Во многих приложениях компьютерного зрения компьютеры заранее запрограммированы для решения конкретной задачи, но методы, основанные на обучении, сейчас становятся все более распространенными. Примеры применения компьютерного зрения включают системы для:

Автоматический контроль, например , в производстве;
Помощь людям в задачах идентификации, например, система идентификации видов ; ^[28]
Управление процессами, например , промышленным роботом ;
Обнаружение событий , например , для визуального наблюдения или подсчета людей , например, в ресторанном бизнесе ;
Взаимодействие, например , как входные данные для устройства взаимодействия компьютера и человека ;
Моделирование объектов или окружающей среды, например , анализ медицинских изображений или топографическое моделирование;
Навигация, например , с помощью автономного транспортного средства или мобильного робота ;
Организация информации, например , для индексации баз данных изображений и последовательностей изображений.
Отслеживание поверхностей или плоскостей в 3D-координатах для обеспечения возможностей дополненной реальности.

Медицина [ править ]

Reasoning Концептуальное видео DARPA Visual Media

Одной из наиболее известных областей применения является медицинское компьютерное зрение или обработка медицинских изображений, характеризующаяся извлечением информации из данных изображения для диагностики пациента . Примером этого является выявление опухолей , атеросклероза или других злокачественных изменений, а также различных стоматологических патологий; Еще одним примером являются измерения размеров органов, кровотока и т. д. Он также поддерживает медицинские исследования, предоставляя новую информацию: например , о структуре мозга или качестве медицинского лечения. Применение компьютерного зрения в медицинской сфере также включает улучшение изображений, интерпретируемых людьми — например, ультразвуковых изображений или рентгеновских изображений — для уменьшения влияния шума.

Машинное зрение [ править ]

Вторая область применения компьютерного зрения — промышленность, иногда называемая машинным зрением , где информация извлекается для поддержки производственного процесса. Одним из примеров является контроль качества, при котором детали или конечная продукция автоматически проверяются на предмет обнаружения дефектов. Одной из наиболее распространенных областей такой проверки является производство полупроводниковых пластин , в которой каждая отдельная пластина измеряется и проверяется на предмет неточностей или дефектов, чтобы предотвратить компьютерного чипа попадание на рынок в непригодном для использования виде. Другой пример — измерение положения и ориентации деталей, которые необходимо захватить манипулятором робота. Машинное зрение также широко используется в сельскохозяйственных процессах для удаления нежелательных пищевых продуктов из сыпучего материала. Этот процесс называется оптической сортировкой . ^[29]

Военный [ править ]

Военные приложения, вероятно, являются одной из крупнейших областей компьютерного зрения. ^{[ нужна ссылка ]}. Очевидными примерами являются обнаружение вражеских солдат или транспортных средств и наведение ракет . Более совершенные системы наведения ракеты направляют ракету в определенную область, а не в конкретную цель, а выбор цели производится, когда ракета достигает этой области, на основе локально полученных данных изображения. Современные военные концепции, такие как «осведомленность о поле боя», подразумевают, что различные датчики, в том числе датчики изображения, предоставляют богатый набор информации о месте боя, которую можно использовать для поддержки стратегических решений. В этом случае используется автоматическая обработка данных для уменьшения сложности и объединения информации от нескольких датчиков для повышения надежности.

Автономные транспортные средства [ править ]

Одной из новых областей применения являются автономные транспортные средства, к которым относятся подводные аппараты , наземные транспортные средства (небольшие роботы с колесами, автомобили или грузовики), летательные аппараты и беспилотные летательные аппараты ( БПЛА ). Уровень автономности варьируется от полностью автономных (беспилотных) транспортных средств до транспортных средств, в которых системы компьютерного зрения поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства обычно используют компьютерное зрение для навигации, например, для определения того, где они находятся, или для составления карты окружающей среды ( SLAM ), для обнаружения препятствий. Его также можно использовать для обнаружения определенных событий, специфичных для конкретной задачи, например , когда БПЛА ищет лесные пожары. Примерами вспомогательных систем являются системы предупреждения о препятствиях в автомобилях, камеры и датчики LiDAR в транспортных средствах, а также системы автономной посадки самолетов. Несколько автопроизводителей продемонстрировали системы автономного вождения автомобилей . Существует множество примеров военных автономных транспортных средств, начиная от современных ракет и заканчивая БПЛА для разведывательных задач или наведения ракет. Исследование космоса уже осуществляется с помощью автономных транспортных средств с использованием компьютерного зрения. например , НАСА Curiosity CNSA и . марсоход -2 Yutu

Тактильная обратная связь [ править ]

Такие материалы, как резина и кремний, используются для создания датчиков, которые позволяют выполнять такие приложения, как обнаружение микроволн и калибровка роботизированных рук. Из резины можно создать форму, которую можно надевать на палец. Внутри этой формы будет несколько тензодатчиков. Затем форму для пальца и датчики можно было разместить поверх небольшого листа резины, содержащего набор резиновых штифтов. Затем пользователь может надеть форму для пальца и обвести поверхность. Затем компьютер может считывать данные с тензорезисторов и измерять, выталкиваются ли один или несколько штифтов вверх. Если штифт выталкивается вверх, компьютер может распознать это как дефект поверхности. Такая технология полезна для получения точных данных о дефектах на очень большой поверхности. ^[30] Еще одним вариантом датчика в форме пальца являются датчики, содержащие камеру, подвешенную в кремнии. Кремний образует купол вокруг камеры снаружи, и в него встроены точечные маркеры, расположенные на равном расстоянии друг от друга. Эти камеры затем можно разместить на таких устройствах, как роботизированные руки, чтобы компьютер мог получать высокоточные тактильные данные. ^[31]

Другие области применения включают в себя:

Поддержка создания визуальных эффектов для кино и телевещания, например , слежение камеры (движение матча).
Наблюдение .
Обнаружение сонливости водителя ^[32]^[33]^[34]
Отслеживание и подсчет организмов в биологических науках ^[35]

Типовые задачи [ править ]

В каждой из описанных выше областей применения используется ряд задач компьютерного зрения; более или менее четко определенные задачи измерения или обработки, которые можно решить с помощью множества методов. Ниже представлены некоторые примеры типичных задач компьютерного зрения.

Задачи компьютерного зрения включают методы получения , обработки , анализа и понимания цифровых изображений, а также извлечения многомерных данных из реального мира для получения числовой или символической информации, например , в форме решений. ^[1]^[2]^[3]^[4] Понимание в этом контексте означает преобразование зрительных образов (вход сетчатки) в описания мира, которые могут взаимодействовать с другими мыслительными процессами и вызывать соответствующие действия. Такое понимание изображения можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения. ^[36]

Признание [ править ]

Классическая проблема в компьютерном зрении, обработке изображений и машинном зрении заключается в определении того, содержат ли данные изображения какой-либо конкретный объект, функцию или действие. В литературе описаны различные разновидности задачи распознавания. ^[37]

Распознавание объектов (также называемое классификацией объектов ) — можно распознать один или несколько заранее определенных или изученных объектов или классов объектов, обычно вместе с их 2D-позицией на изображении или 3D-позами в сцене. Blippar, Google Goggles и LikeThat предоставляют автономные программы, иллюстрирующие эту функциональность.
Идентификация – распознается отдельный экземпляр объекта. Примеры включают идентификацию лица или отпечатка пальца конкретного человека, идентификацию рукописных цифр или идентификацию конкретного транспортного средства.
Обнаружение — данные изображения сканируются на наличие конкретных объектов вместе с их местоположением. Примеры включают обнаружение препятствия в поле зрения автомобиля и возможных аномальных клеток или тканей на медицинских изображениях или обнаружение транспортного средства в автоматической системе взимания платы за проезд. Обнаружение, основанное на относительно простых и быстрых вычислениях, иногда используется для поиска меньших областей интересных данных изображения, которые можно дополнительно проанализировать с помощью более ресурсоемких методов для получения правильной интерпретации.

В настоящее время лучшие алгоритмы для подобных задач основаны на сверточных нейронных сетях . Иллюстрацию их возможностей дает ImageNet Large Scale Visual Recognition Challenge ; Это эталон в области классификации и обнаружения объектов: в соревновании используются миллионы изображений и 1000 классов объектов. ^[38] Производительность сверточных нейронных сетей в тестах ImageNet теперь приблизилась к человеческой. ^[38] Лучшие алгоритмы по-прежнему борются с маленькими или тонкими объектами, такими как маленький муравей на стебле цветка или человек, держащий в руке перо. У них также возникают проблемы с изображениями, искаженными фильтрами (все более распространенное явление в современных цифровых камерах). Напротив, подобные изображения редко беспокоят людей. Однако у людей обычно возникают проблемы с другими проблемами. Например, они не умеют классифицировать объекты по мелкозернистым классам, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети легко с этим справляются. ^{[ нужна ссылка ]}

Существует несколько специализированных задач, основанных на распознавании, таких как:

Поиск изображений на основе контента – поиск всех изображений в большем наборе изображений, имеющих определенное содержание. Содержимое можно указать по-разному, например, с точки зрения сходства с целевым изображением (дайте мне все изображения, похожие на изображение X), используя методы обратного поиска изображений , или с точки зрения критериев поиска высокого уровня, заданных в виде текстового ввода. (дайте мне все изображения, на которых много домов, они сделаны зимой и на них нет машин).

Оценка позы – оценка положения или ориентации конкретного объекта относительно камеры. Примером применения этого метода может быть помощь манипулятору робота в извлечении объектов с конвейерной ленты на сборочной линии или в сборе деталей из контейнера.
Оптическое распознавание символов (OCR) – идентификация символов на изображениях печатного или рукописного текста, обычно с целью кодирования текста в формат, более удобный для редактирования или индексации ( например, ASCII ). Связанной задачей является чтение 2D-кодов, таких как матрица данных и QR -коды.
Распознавание лиц – технология, которая позволяет сопоставлять лица на цифровых изображениях или видеокадрах с базой данных лиц, которая в настоящее время широко используется для блокировки лица на мобильных телефонах, интеллектуального запирания дверей и т. д. ^[39]
Распознавание эмоций – разновидность распознавания лиц. Распознавание эмоций относится к процессу классификации человеческих эмоций. Психологи, однако, предупреждают, что внутренние эмоции невозможно надежно определить по лицам. ^[40]
Технология распознавания формы (SRT) в системах подсчета людей, позволяющая отличать людей (по рисунку головы и плеч) от объектов.
Распознавание активности человека - занимается распознаванием активности по серии видеокадров, например, если человек берет в руки предмет или идет.

Анализ движения [ править ]

Несколько задач связаны с оценкой движения, когда последовательность изображений обрабатывается для получения оценки скорости либо в каждой точке изображения, либо в трехмерной сцене, либо даже камеры, создающей изображения. Примеры таких задач:

Egomotion – определение жесткого трехмерного движения (вращение и перемещение) камеры на основе последовательности изображений, создаваемых камерой.
Отслеживание – отслеживание движений (обычно) меньшего набора точек интереса или объектов ( например , транспортных средств, объектов, людей или других организмов). ^[35]) в последовательности изображений. Это имеет широкое применение в промышленности, поскольку таким образом можно контролировать большинство высокопроизводительных машин.
Оптический поток – для определения для каждой точки изображения того, как эта точка движется относительно плоскости изображения, т. е . ее кажущегося движения. Это движение является результатом как перемещения соответствующей 3D-точки в сцене, так и перемещения камеры относительно сцены.

Реконструкция сцены [ править ]

Учитывая одно или (обычно) несколько изображений сцены или видео, реконструкция сцены направлена на вычисление трехмерной модели сцены. В простейшем случае модель может представлять собой набор 3D-точек. Более сложные методы позволяют создать полную трехмерную модель поверхности. Появление 3D-изображений, не требующих движения или сканирования, а также связанных с ними алгоритмов обработки обеспечивает быстрый прогресс в этой области. 3D-зондирование на основе сетки можно использовать для получения 3D-изображений под разными углами. Теперь доступны алгоритмы для объединения нескольких 3D-изображений в облака точек и 3D-модели. ^[24]

Восстановление изображения [ править ]

Восстановление изображения происходит, когда исходное изображение ухудшается или повреждается из-за некоторых внешних факторов, таких как неправильное расположение объектива, помехи при передаче, слабое освещение или размытость изображения и т. д., что называется шумом. Когда изображения ухудшаются или повреждаются, информация, которую нужно из них извлечь, также повреждается. Поэтому нам нужно восстановить или восстановить образ в том виде, в каком он был задуман. Целью восстановления изображения является удаление шума (шума датчика, размытия изображения и т. д.) из изображений. Самый простой подход к удалению шума — это различные типы фильтров, например, фильтры нижних частот или медианные фильтры. Более сложные методы предполагают модель того, как выглядят локальные структуры изображения, чтобы отличить их от шума. Сначала анализируя данные изображения с точки зрения локальных структур изображения, таких как линии или края, а затем управляя фильтрацией на основе локальной информации на этапе анализа, обычно достигается более высокий уровень удаления шума по сравнению с более простыми подходами.

Примером в этой области является inpainting .

Системные методы [ править ]

Организация системы компьютерного зрения во многом зависит от приложения. Некоторые системы представляют собой автономные приложения, которые решают конкретную задачу измерения или обнаружения, в то время как другие представляют собой подсистему более крупной конструкции, которая, например, также содержит подсистемы для управления механическими приводами, планирования, информационных баз данных, управления персоналом. машинные интерфейсы и т. д. Конкретная реализация системы компьютерного зрения также зависит от того, задана ли ее функциональность заранее или какая-то ее часть может быть изучена или изменена в процессе эксплуатации. Многие функции являются уникальными для приложения. Однако существуют типичные функции, которые присутствуют во многих системах компьютерного зрения.

Получение изображения . Цифровое изображение создается одним или несколькими датчиками изображения , к которым, помимо различных типов светочувствительных камер, относятся датчики дальности , томографы, радары, ультразвуковые камеры и т. д. В зависимости от типа датчика, результирующие данные изображения представляют собой обычное 2D-изображение, 3D-объем или последовательность изображений. Значения пикселей обычно соответствуют интенсивности света в одном или нескольких спектральных диапазонах (серые изображения или цветные изображения), но также могут быть связаны с различными физическими показателями, такими как глубина, поглощение или отражение звуковых или электромагнитных волн или магнитно-резонансная томография . ^[29]
Предварительная обработка . Прежде чем метод компьютерного зрения можно будет применить к данным изображения с целью извлечения определенной части информации, обычно необходимо обработать данные, чтобы гарантировать, что они удовлетворяют определенным предположениям, подразумеваемым этим методом. Примеры:
- Повторная выборка, чтобы убедиться в правильности системы координат изображения.
- Снижение шума, чтобы гарантировать, что шум датчика не вносит ложную информацию.
- Повышение контрастности для обеспечения обнаружения важной информации.
- Масштабируйте пространственное представление для улучшения структур изображения в соответствующих масштабах.
Извлечение признаков . Из данных изображения извлекаются признаки изображения различного уровня сложности. ^[29] Типичными примерами таких функций являются:
- Линии, края и гребни .
- Локализованные точки интереса , такие как углы , пятна или точки.

Более сложные функции могут быть связаны с текстурой, формой или движением.

Обнаружение / сегментация . На каком-то этапе обработки принимается решение о том, какие точки или области изображения подходят для дальнейшей обработки. ^[29] Примеры:
- Выбор определенного набора точек интереса.
- Сегментация одной или нескольких областей изображения, содержащих конкретный интересующий объект.
- Сегментация изображения на вложенную архитектуру сцены, включающую передний план, группы объектов, отдельные объекты или заметный объект. ^[41] части (также называемые иерархией пространственно-таксонных сцен), ^[42] в то время как визуальная значимость часто реализуется как пространственное и временное внимание .
- Сегментация или совместная сегментация одного или нескольких видео в серию покадровых масок переднего плана с сохранением временной семантической непрерывности. ^[43]^[44]
Высокоуровневая обработка . На этом этапе входными данными обычно является небольшой набор данных, например набор точек или область изображения, которая, как предполагается, содержит определенный объект. ^[29] Оставшаяся обработка касается, например:
- Проверка того, что данные удовлетворяют предположениям, основанным на модели и конкретном приложении.
- Оценка параметров, специфичных для приложения, таких как поза или размер объекта.
- Распознавание изображений – классификация обнаруженного объекта по различным категориям.
- Регистрация изображения – сравнение и объединение двух разных изображений одного и того же объекта.
Принятие решения Принятие окончательного решения, необходимого для подачи заявления, ^[29] например:
- Прошел/не прошел в приложениях автоматической проверки.
- Совпадение/несовпадение в приложениях по распознаванию.
- Пометить для дальнейшей проверки человеком в медицинских, военных приложениях, приложениях безопасности и распознавания.

Системы понимания изображений [ править ]

Системы понимания изображений (IUS) включают три уровня абстракции: нижний уровень включает примитивы изображения, такие как края, элементы текстуры или области; промежуточный уровень включает границы, поверхности и объемы; и высокий уровень включает объекты, сцены или события. Многие из этих требований полностью представляют собой темы для дальнейших исследований.

Репрезентативные требования при разработке ИУС для этих уровней: представление прототипических концепций, организация концепций, пространственные знания, временные знания, масштабирование и описание путем сравнения и дифференциации.

В то время как вывод относится к процессу получения новых, не представленных явно фактов из известных на данный момент фактов, контроль относится к процессу, который выбирает, какой из множества методов вывода, поиска и сопоставления следует применить на определенном этапе обработки. Требованиями к выводу и контролю для IUS являются: поиск и активация гипотез, сопоставление и проверка гипотез, генерация и использование ожиданий, изменение и фокус внимания, уверенность и сила убеждения, умозаключение и удовлетворение цели. ^[45]

Аппаратное обеспечение [ править ]

Существует множество видов систем компьютерного зрения; однако все они содержат следующие основные элементы: источник питания, по крайней мере одно устройство получения изображения (камера, ccd и т. д.), процессор, а также кабели управления и связи или какой-либо механизм беспроводного соединения. Кроме того, практичная система технического зрения содержит программное обеспечение, а также дисплей для наблюдения за системой. Системы обзора внутренних помещений, как и большинство промышленных, содержат систему освещения и могут размещаться в контролируемой среде. Кроме того, готовая система включает в себя множество аксессуаров, таких как опоры для камер, кабели и разъемы.

Большинство систем компьютерного зрения используют камеры видимого света, пассивно просматривающие сцену с частотой кадров не более 60 кадров в секунду (обычно намного медленнее).

Некоторые системы компьютерного зрения используют оборудование для получения изображений с активным освещением или чем-то иным, кроме видимого света, или и тем, и другим, например, 3D-сканеры со структурированным светом , термографические камеры , гиперспектральные формирователи изображений , радиолокационные изображения , лидарные сканеры, магнитно-резонансные изображения , гидролокаторы бокового обзора. , гидролокатор с синтезированной апертурой и т. д. Такое оборудование захватывает «изображения», которые затем обрабатываются часто с использованием тех же алгоритмов компьютерного зрения, которые используются для обработки изображений в видимом свете.

В то время как традиционные вещательные и потребительские видеосистемы работают со скоростью 30 кадров в секунду, достижения в области цифровой обработки сигналов и потребительского графического оборудования сделали возможным высокоскоростной сбор, обработку и отображение изображений для систем реального времени, порядка сотен и тысячи кадров в секунду. Для приложений в робототехнике критически важны быстрые видеосистемы реального времени, которые часто могут упростить обработку, необходимую для определенных алгоритмов. В сочетании с высокоскоростным проектором быстрое получение изображений позволяет осуществлять трехмерные измерения и отслеживание объектов. ^[46]

Системы эгоцентрического зрения состоят из носимой камеры, которая автоматически делает снимки от первого лица.

С 2016 года процессоры машинного зрения становятся новым классом процессоров, дополняющих в этой роли центральные процессоры и графические процессоры (GPU). ^[47]

См. также [ править ]

Списки [ править ]

Ссылки [ править ]

^ Перейти обратно: ^а ^б Рейнхард Клетте (2014). Краткое компьютерное зрение . Спрингер. ISBN 978-1-4471-6320-6 .
^ Перейти обратно: ^а ^б Линда Г. Шапиро ; Джордж С. Стокман (2001). Компьютерное зрение . Прентис Холл. ISBN 978-0-13-030796-5 .
^ Перейти обратно: ^а ^б Тим Моррис (2004). Компьютерное зрение и обработка изображений . Пэлгрейв Макмиллан. ISBN 978-0-333-99451-1 .
^ Перейти обратно: ^а ^б Бернд Йене; Хорст Хауссекер (2000). Компьютерное зрение и его приложения. Руководство для студентов и практиков . Академическая пресса. ISBN 978-0-13-085198-7 .
^ Дана Х. Баллард; Кристофер М. Браун (1982). Компьютерное зрение . Прентис Холл. ISBN 978-0-13-165316-0 .
^ Хуанг, Т. (19 ноября 1996 г.). Вандони, Карло Э. (ред.). Компьютерное зрение: эволюция и перспективы (PDF) . 19-я школа вычислительной техники ЦЕРН . Женева: ЦЕРН. стр. 21–25. doi : 10.5170/CERN-1996-008.21 . ISBN 978-9290830955 . Архивировано (PDF) из оригинала 7 февраля 2018 г.
^ Милан Сонка; Вацлав Главац; Роджер Бойл (2008). Обработка изображений, анализ и машинное зрение . Томсон. ISBN 978-0-495-08252-1 .
^ http://www.bmva.org/visionoverview. Архивировано 16 февраля 2017 г. в Wayback Machine. Британская ассоциация машинного зрения и общество распознавания образов. Проверено 20 февраля 2017 г.
^ Мерфи, Майк (13 апреля 2017 г.). «Медицинский сканер «трикодер» из «Звездного пути» стал ближе к тому, чтобы стать реальностью» . Архивировано из оригинала 2 июля 2017 года . Проверено 18 июля 2017 г.
^ компьютерного зрения , 5-е издание, издательство ER Davies Academic Press, Elsevier, 2018 ISBN 978-0-12-809284-2 Принципы, алгоритмы, приложения, обучение
^ Перейти обратно: ^а ^б ^с ^д Ричард Селиски (30 сентября 2010 г.). Компьютерное зрение: алгоритмы и приложения . Springer Science & Business Media. стр. 10–16. ISBN 978-1-84882-935-0 .
^ Сейновски, Терренс Дж. (2018). Революция глубокого обучения . Кембридж, Массачусетс, Лондон, Англия: MIT Press. п. 28. ISBN 978-0-262-03803-4 .
^ Паперт, Сеймур (1 июля 1966 г.). «Проект Летнего Видения». Записки MIT AI (1959–2004) . hdl : 1721.1/6125 .
^ Маргарет Энн Боден (2006). Разум как машина: история когнитивной науки . Кларендон Пресс. п. 781. ИСБН 978-0-19-954316-8 .
^ Такео Канаде (6 декабря 2012 г.). Трехмерное машинное зрение . Springer Science & Business Media. ISBN 978-1-4613-1981-8 .
^ Нику Себе; Ира Коэн; Ашутош Гарг; Томас С. Хуанг (3 июня 2005 г.). Машинное обучение в компьютерном зрении . Springer Science & Business Media. ISBN 978-1-4020-3274-5 .
^ Уильям Фриман; Пьетро Перона; Бернхард Шолькопф (2008). «Приглашенная редакция: Машинное обучение для компьютерного зрения» . Международный журнал компьютерного зрения . 77 (1): 1. дои : 10.1007/s11263-008-0127-7 . hdl : 21.11116/0000-0003-30FB-C . ISSN 1573-1405 .
^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение» (PDF) . Природа . 521 (7553): 436–444. Бибкод : 2015Natur.521..436L . дои : 10.1038/nature14539 . ПМИД 26017442 . S2CID 3074096 .
^ Цзяо, Личэн; Чжан, Фань; Лю, Фанг; Ян, Шуюань; Ли, Линлинг; Фэн, Чжиси; Цюй, Ронг (2019). «Обзор обнаружения объектов на основе глубокого обучения». Доступ IEEE . 7 : 128837–128868. arXiv : 1907.09408 . Бибкод : 2019IEEA...7l8837J . дои : 10.1109/ACCESS.2019.2939201 . S2CID 198147317 .
^ Ферри, К.; Кайзер, С. (2019). Нейронные сети для детей . Справочники. ISBN 978-1492671206 .
^ Перейти обратно: ^а ^б Стегер, Карстен; Маркус Ульрих; Кристиан Видеманн (2018). Алгоритмы и приложения машинного зрения (2-е изд.). Вайнхайм: Wiley-VCH . п. 1. ISBN 978-3-527-41365-2 . Архивировано из оригинала 15 марта 2023 г. Проверено 30 января 2018 г.
^ Мюррей, Дон и Каллен Дженнингс. « Картография и навигация на основе стереозрения для мобильных роботов. Архивировано 31 октября 2020 г. в Wayback Machine ». Материалы международной конференции по робототехнике и автоматизации. Том. 2. ИИЭР, 1997.
^ Андраде, Норберто Алмейда. «Вычислительное видение и бизнес-аналитика в сегменте красоты: анализ через Instagram» (PDF) . Журнал маркетингового менеджмента . Американский научно-исследовательский институт разработки политики . Проверено 11 марта 2024 г.
^ Перейти обратно: ^а ^б ^с Солтани, А.А.; Хуанг, Х.; Ву, Дж.; Кулкарни, Т.Д.; Тененбаум, Дж. Б. (2017). «Синтез трехмерных фигур посредством моделирования многовидовых карт глубины и силуэтов с помощью глубоких генеративных сетей». Конференция IEEE 2017 по компьютерному зрению и распознаванию образов (CVPR) . стр. 1511–1519. дои : 10.1109/CVPR.2017.269 . hdl : 1721.1/126644 . ISBN 978-1-5386-0457-1 . S2CID 31373273 .
^ Турек, Фред (июнь 2011 г.). «Основы машинного зрения. Как заставить роботов видеть». Журнал NASA Tech Briefs . 35 (6). страницы 60–62
^ «Будущее автоматического случайного выбора корзин» . Архивировано из оригинала 11 января 2018 г. Проверено 10 января 2018 г.
^ Червяков Н.И.; Ляхов, П.А.; Дерябин, М.А.; Нагорнов Н.Н.; Валуева, М.В.; Валуев, Г.В. (2020). «Решение на основе системы остаточных чисел для снижения стоимости оборудования сверточной нейронной сети». Нейрокомпьютинг . 407 : 439–453. doi : 10.1016/j.neucom.2020.04.018 . S2CID 219470398 . Сверточные нейронные сети (CNN) представляют собой архитектуры глубокого обучения, которые в настоящее время используются в широком спектре приложений, включая компьютерное зрение, распознавание речи, идентификацию белковых последовательностей в биоинформатике, контроль производства, анализ временных рядов в финансах и многие другие.
^ Вельдхен, Яна; Мэдер, Патрик (07 января 2017 г.). «Идентификация видов растений с использованием методов компьютерного зрения: систематический обзор литературы» . Архив вычислительных методов в технике . 25 (2): 507–543. дои : 10.1007/s11831-016-9206-z . ISSN 1134-3060 . ПМК 6003396 . ПМИД 29962832 .
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж Э. Рой Дэвис (2005). Машинное зрение: теория, алгоритмы, практика . Морган Кауфманн. ISBN 978-0-12-206093-9 .
^ Андо, Мицухито; Такей, Тошинобу; Мотияма, Хироми (3 марта 2020 г.). «Резиновый искусственный слой кожи с гибкой структурой для оценки формы микроволнистых поверхностей» . Журнал «РОБОМЕХ» . 7 (1): 11. дои : 10.1186/s40648-020-00159-0 . ISSN 2197-4225 .
^ Чой, Сын Хён; Тахара, Кенджи (12 марта 2020 г.). «Ловкое манипулирование предметами многопалой роботизированной рукой с визуально-тактильными датчиками на кончиках пальцев» . Журнал «РОБОМЕХ» . 7 (1): 14. дои : 10.1186/s40648-020-00162-5 . ISSN 2197-4225 .
^ Гарг, Хитендра (29 февраля 2020 г.). «Обнаружение сонливости водителя с помощью обычного приложения компьютерного зрения» . Международная конференция 2020 года по силовой электронике и приложениям IoT в возобновляемой энергетике и ее контроле (PARC) . стр. 50–53. дои : 10.1109/PARC49193.2020.236556 . ISBN 978-1-7281-6575-2 . S2CID 218564267 . Архивировано из оригинала 27 июня 2022 г. Проверено 6 ноября 2022 г.
^ Хасан, Фудаил; Кашевник, Алексей (14 мая 2021 г.). «Современный анализ современных алгоритмов обнаружения сонливости на основе компьютерного зрения» . 2021 29-я конференция Ассоциации открытых инноваций (FRUCT) . стр. 141–149. дои : 10.23919/FRUCT52173.2021.9435480 . ISBN 978-952-69244-5-8 . S2CID 235207036 . Архивировано из оригинала 27 июня 2022 г. Проверено 6 ноября 2022 г.
^ Баласундарам, А; Ашоккумар, С; Котандараман, Д; кора, СинаНайк; Сударшан, Э; Харшавердхан, А (01 декабря 2020 г.). «Обнаружение усталости на основе компьютерного зрения по параметрам лица» . Серия конференций IOP: Материаловедение и инженерия . 981 (2): 022005. Бибкод : 2020MS&E..981b2005B . дои : 10.1088/1757-899x/981/2/022005 . ISSN 1757-899X . S2CID 230639179 .
^ Перейти обратно: ^а ^б Брюйнинг, Маржолейн; Виссер, Марко Д.; Халлманн, Каспар А.; Йонгеянс, Элке; Голдинг, Ник (2018). «trackdem: автоматическое отслеживание частиц для получения количества населения и распределения размеров по видео в r» . Методы экологии и эволюции . 9 (4): 965–973. Бибкод : 2018MEcEv...9..965B . дои : 10.1111/2041-210X.12975 . hdl : 2066/184075 . ISSN 2041-210X .
^ Дэвид А. Форсайт; Жан Понсе (2003). Компьютерное зрение: современный подход . Прентис Холл. ISBN 978-0-13-085198-7 .
^ Форсайт, Дэвид; Понсе, Жан (2012). Компьютерное зрение: современный подход . Пирсон.
^ Перейти обратно: ^а ^б Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуан, Чжихэн; Карпаты, Андрей; Хосла, Адитья; Бернштейн, Майкл; Берг, Александр К. (декабрь 2015 г.). «Масштабная задача ImageNet по визуальному распознаванию» . Международный журнал компьютерного зрения . 115 (3): 211–252. arXiv : 1409.0575 . дои : 10.1007/s11263-015-0816-y . hdl : 1721.1/104944 . ISSN 0920-5691 . S2CID 2930547 . Архивировано из оригинала 15 марта 2023 г. Проверено 20 ноября 2020 г.
^ Куинн, Артур (9 октября 2022 г.). «Распознавание изображений с помощью искусственного интеллекта: неизбежные тенденции современного образа жизни» . TopTen.ai . Архивировано из оригинала 02 декабря 2022 г. Проверено 23 декабря 2022 г.
^ Барретт, Лиза Фельдман; Адольфс, Ральф; Марселла, Стейси; Мартинес, Алей М.; Поллак, Сет Д. (июль 2019 г.). «Переосмысление выражений эмоций: проблемы определения эмоций по движениям лица человека» . Психологическая наука в общественных интересах . 20 (1): 1–68. дои : 10.1177/1529100619832930 . ISSN 1529-1006 . ПМК 6640856 . ПМИД 31313636 .
^ А. Майти (2015). «Импровизированное обнаружение заметных объектов и манипулирование ими». arXiv : 1511.02999 [ cs.CV ].
^ Баргоут, Лорен. « Визуальный таксометрический подход к сегментации изображений с использованием нечетко-пространственного разреза таксонов дает контекстуально релевантные регионы . Архивировано 14 ноября 2018 г. в Wayback Machine ». Обработка информации и управление неопределенностью в системах, основанных на знаниях. Международное издательство Спрингер, 2014.
^ Лю, Цзыи; Ван, Ле; Хуа, Банда; Чжан, Цилинь; Ню, Чжэньсин; Ву, Ин; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических сетей Маркова» (PDF) . Транзакции IEEE при обработке изображений . 27 (12): 5840–5853. Бибкод : 2018ITIP...27.5840L . дои : 10.1109/tip.2018.2859622 . ISSN 1057-7149 . ПМИД 30059300 . S2CID 51867241 . Архивировано из оригинала (PDF) 7 сентября 2018 г. Проверено 14 сентября 2018 г.
^ Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (22 мая 2018 г.). «Segment-Tube: локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией» (PDF) . Датчики . 18 (5): 1657. Бибкод : 2018Senso..18.1657W . дои : 10.3390/s18051657 . ISSN 1424-8220 . ПМЦ 5982167 . ПМИД 29789447 . Архивировано (PDF) из оригинала 7 сентября 2018 г.
^ Шапиро, Стюарт К. (1992). Энциклопедия искусственного интеллекта, Том 1 . Нью-Йорк: John Wiley & Sons, Inc., стр. 643–646. ISBN 978-0-471-50306-4 .
^ Кагами, Шинго (2010). «Высокоскоростные системы технического зрения и проекторы для восприятия мира в реальном времени». Конференция IEEE Computer Society 2010 по компьютерному зрению и распознаванию образов — семинары . Том. 2010. стр. 100–107. дои : 10.1109/CVPRW.2010.5543776 . ISBN 978-1-4244-7029-7 . S2CID 14111100 .
^ Сет Коланер (3 января 2016 г.). «Третий тип процессора для VR/AR: VPU Movidius Myriad 2» . www.tomshardware.com . Архивировано из оригинала 15 марта 2023 года . Проверено 3 мая 2016 г.

Дальнейшее чтение [ править ]

Джеймс Э. Добсон (2023). Рождение компьютерного зрения . Университет Миннесоты Пресс. ISBN 978-1-5179-1421-9 .
Дэвид Марр (1982). Зрение . WH Фриман и компания. ISBN 978-0-7167-1284-8 .
Азриэль Розенфельд; Авинаш Как (1982). Цифровая обработка изображений . Академическая пресса. ISBN 978-0-12-597301-4 .
Баргут, Лорен; Лоуренс В. Ли (2003). Перцептивная система обработки информации . Заявка на патент США 10/618,543. ISBN 978-0-262-08159-7 .
Бертольд К.П. Хорн (1986). Видение робота . С Прессой. ISBN 978-0-262-08159-7 .
Майкл К. Фэйрхерст (1988). Компьютерное зрение для робототехнических систем . Прентис Холл. ISBN 978-0-13-166919-2 .
Оливье Фожерас (1993). Трехмерное компьютерное зрение: геометрическая точка зрения . МТИ Пресс. ISBN 978-0-262-06158-2 .
Тони Линдеберг (1994). Теория масштаба-пространства в компьютерном зрении . Спрингер. ISBN 978-0-7923-9418-1 .
Джеймс Л. Кроули; Хенрик И. Кристенсен, ред. (1995). Видение как процесс . Спрингер-Верлаг. ISBN 978-3-540-58143-7 .
Гёста Х. Гранлунд; Ханс Кнутссон (1995). Обработка сигналов для компьютерного зрения . Академическое издательство Клувер. ISBN 978-0-7923-9530-0 .
Рейнхард Клетте; Карстен Шлуенс; Андреас Кошан (1998). Компьютерное зрение – трехмерные данные из изображений . Спрингер, Сингапур. ISBN 978-981-3083-71-4 .
Эмануэле Трукко; Алессандро Верри (1998). Вводные методы трехмерного компьютерного зрения . Прентис Холл. ISBN 978-0-13-261108-4 .
Бернд Йене (2002). Цифровая обработка изображений . Спрингер. ISBN 978-3-540-67754-3 .
Ричард Хартли и Эндрю Зиссерман (2003). Множественная геометрия в компьютерном зрении . Издательство Кембриджского университета. ISBN 978-0-521-54051-3 .
Жерар Медиони; Синг Бинг Кан (2004). Новые темы компьютерного зрения . Прентис Холл. ISBN 978-0-13-101366-7 .
Р. Фишер; К. Доусон-Хау; А. Фитцгиббон; К. Робертсон; Э. Трукко (2005). Словарь компьютерного зрения и обработки изображений . Джон Уайли. ISBN 978-0-470-01526-1 .
Никос Парагиос , Юнмей Чен и Оливье Фожерас (2005). Справочник по математическим моделям в компьютерном зрении . Спрингер. ISBN 978-0-387-26371-7 .
Вильгельм Бургер; Марк Дж. Бердж (2007). Цифровая обработка изображений: алгоритмический подход с использованием Java . Спрингер . ISBN 978-1-84628-379-6 . Архивировано из оригинала 17 мая 2014 г. Проверено 13 июня 2007 г.
Педрам Азад; Тило Гокель; Рюдигер Диллманн (2008). Компьютерное зрение – принципы и практика . Электор Интернешнл Медиа Б.В. ISBN 978-0-905705-71-2 .
Ричард Селиски (2010). Компьютерное зрение: алгоритмы и приложения . Спрингер-Верлаг. ISBN 978-1848829343 .
Дж. Р. Паркер (2011). Алгоритмы обработки изображений и компьютерного зрения (2-е изд.). Уайли. ISBN 978-0470643853 .
Ричард Дж. Радке (2013). Компьютерное зрение для визуальных эффектов . Издательство Кембриджского университета. ISBN 978-0-521-76687-6 .
Никсон, Марк; Агуадо, Альберто (2019). Извлечение признаков и обработка изображений для компьютерного зрения (4-е изд.). Академическая пресса. ISBN 978-0128149768 .

Внешние ссылки [ править ]

Список конференций по компьютерному зрению USC Iris
Доклады по компьютерному зрению в Интернете — полный список докладов наиболее актуальных конференций по компьютерному зрению.
Computer Vision Online. Архивировано 30 ноября 2011 г. на Wayback Machine - новости, исходный код, наборы данных и предложения о работе, связанные с компьютерным зрением.
CVonline - Сборник компьютерного зрения Боба Фишера.
Британская ассоциация машинного зрения - поддержка исследований в области компьютерного зрения в Великобритании посредством конференций BMVC и MIUA , Annals of the BMVA (журнал с открытым исходным кодом), Летней школы BMVA и однодневных встреч.
Контейнер компьютерного зрения, Джо Холлер GitHub: широко распространенный контейнер с открытым исходным кодом для приложений компьютерного зрения с ускорением на графическом процессоре. Используется исследователями, университетами, частными компаниями, а также правительством США.

[Klette-2014-1] Перейти обратно: ^а ^б Рейнхард Клетте (2014). Краткое компьютерное зрение . Спрингер. ISBN 978-1-4471-6320-6 .

[Shapiro-Stockman-2001-2] Перейти обратно: ^а ^б Линда Г. Шапиро ; Джордж С. Стокман (2001). Компьютерное зрение . Прентис Холл. ISBN 978-0-13-030796-5 .

[Morris-2004-3] Перейти обратно: ^а ^б Тим Моррис (2004). Компьютерное зрение и обработка изображений . Пэлгрейв Макмиллан. ISBN 978-0-333-99451-1 .

[Jahne-Haussecker-2000-4] Перейти обратно: ^а ^б Бернд Йене; Хорст Хауссекер (2000). Компьютерное зрение и его приложения. Руководство для студентов и практиков . Академическая пресса. ISBN 978-0-13-085198-7 .

[Ballard-Brown-1982-5] Дана Х. Баллард; Кристофер М. Браун (1982). Компьютерное зрение . Прентис Холл. ISBN 978-0-13-165316-0 .

[Huang-1996-6] Хуанг, Т. (19 ноября 1996 г.). Вандони, Карло Э. (ред.). Компьютерное зрение: эволюция и перспективы (PDF) . 19-я школа вычислительной техники ЦЕРН . Женева: ЦЕРН. стр. 21–25. doi : 10.5170/CERN-1996-008.21 . ISBN 978-9290830955 . Архивировано (PDF) из оригинала 7 февраля 2018 г.

[Sonka-Hlavac-Boyle-2008-7] Милан Сонка; Вацлав Главац; Роджер Бойл (2008). Обработка изображений, анализ и машинное зрение . Томсон. ISBN 978-0-495-08252-1 .

[bmva-8] ttp://www.bmva.org/visionoverview. Архивировано 16 февраля 2017 г. в Wayback Machine. Британская ассоциация машинного зрения и общество распознавания образов. Проверено 20 февраля 2017 г.

[9] Мерфи, Майк (13 апреля 2017 г.). «Медицинский сканер «трикодер» из «Звездного пути» стал ближе к тому, чтобы стать реальностью» . Архивировано из оригинала 2 июля 2017 года . Проверено 18 июля 2017 г.

[davies5-10] компьютерного зрения , 5-е издание, издательство ER Davies Academic Press, Elsevier, 2018 ISBN 978-0-12-809284-2 Принципы, алгоритмы, приложения, обучение

[Szeliski2010-11] Перейти обратно: ^а ^б ^с ^д Ричард Селиски (30 сентября 2010 г.). Компьютерное зрение: алгоритмы и приложения . Springer Science & Business Media. стр. 10–16. ISBN 978-1-84882-935-0 .

[12] Сейновски, Терренс Дж. (2018). Революция глубокого обучения . Кембридж, Массачусетс, Лондон, Англия: MIT Press. п. 28. ISBN 978-0-262-03803-4 .

[Seymour1966-13] Паперт, Сеймур (1 июля 1966 г.). «Проект Летнего Видения». Записки MIT AI (1959–2004) . hdl : 1721.1/6125 .

[Boden2006-14] Маргарет Энн Боден (2006). Разум как машина: история когнитивной науки . Кларендон Пресс. п. 781. ИСБН 978-0-19-954316-8 .

[Kanade20122-15] Такео Канаде (6 декабря 2012 г.). Трехмерное машинное зрение . Springer Science & Business Media. ISBN 978-1-4613-1981-8 .

[Sebe2005-16] Нику Себе; Ира Коэн; Ашутош Гарг; Томас С. Хуанг (3 июня 2005 г.). Машинное обучение в компьютерном зрении . Springer Science & Business Media. ISBN 978-1-4020-3274-5 .

[Freeman2008-17] Уильям Фриман; Пьетро Перона; Бернхард Шолькопф (2008). «Приглашенная редакция: Машинное обучение для компьютерного зрения» . Международный журнал компьютерного зрения . 77 (1): 1. дои : 10.1007/s11263-008-0127-7 . hdl : 21.11116/0000-0003-30FB-C . ISSN 1573-1405 .

[NatureBengio-18] ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение» (PDF) . Природа . 521 (7553): 436–444. Бибкод : 2015Natur.521..436L . дои : 10.1038/nature14539 . ПМИД 26017442 . S2CID 3074096 .

[19] Цзяо, Личэн; Чжан, Фань; Лю, Фанг; Ян, Шуюань; Ли, Линлинг; Фэн, Чжиси; Цюй, Ронг (2019). «Обзор обнаружения объектов на основе глубокого обучения». Доступ IEEE . 7 : 128837–128868. arXiv : 1907.09408 . Бибкод : 2019IEEA...7l8837J . дои : 10.1109/ACCESS.2019.2939201 . S2CID 198147317 .

[20] Ферри, К.; Кайзер, С. (2019). Нейронные сети для детей . Справочники. ISBN 978-1492671206 .

[TextbookP1-21] Перейти обратно: ^а ^б Стегер, Карстен; Маркус Ульрих; Кристиан Видеманн (2018). Алгоритмы и приложения машинного зрения (2-е изд.). Вайнхайм: Wiley-VCH . п. 1. ISBN 978-3-527-41365-2 . Архивировано из оригинала 15 марта 2023 г. Проверено 30 января 2018 г.

[22] Мюррей, Дон и Каллен Дженнингс. « Картография и навигация на основе стереозрения для мобильных роботов. Архивировано 31 октября 2020 г. в Wayback Machine ». Материалы международной конференции по робототехнике и автоматизации. Том. 2. ИИЭР, 1997.

[23] Андраде, Норберто Алмейда. «Вычислительное видение и бизнес-аналитика в сегменте красоты: анализ через Instagram» (PDF) . Журнал маркетингового менеджмента . Американский научно-исследовательский институт разработки политики . Проверено 11 марта 2024 г.

[3DVAE-24] Перейти обратно: ^а ^б ^с Солтани, А.А.; Хуанг, Х.; Ву, Дж.; Кулкарни, Т.Д.; Тененбаум, Дж. Б. (2017). «Синтез трехмерных фигур посредством моделирования многовидовых карт глубины и силуэтов с помощью глубоких генеративных сетей». Конференция IEEE 2017 по компьютерному зрению и распознаванию образов (CVPR) . стр. 1511–1519. дои : 10.1109/CVPR.2017.269 . hdl : 1721.1/126644 . ISBN 978-1-5386-0457-1 . S2CID 31373273 .

[NASAarticle-25] Турек, Фред (июнь 2011 г.). «Основы машинного зрения. Как заставить роботов видеть». Журнал NASA Tech Briefs . 35 (6). страницы 60–62

[26] «Будущее автоматического случайного выбора корзин» . Архивировано из оригинала 11 января 2018 г. Проверено 10 января 2018 г.

[27] Червяков Н.И.; Ляхов, П.А.; Дерябин, М.А.; Нагорнов Н.Н.; Валуева, М.В.; Валуев, Г.В. (2020). «Решение на основе системы остаточных чисел для снижения стоимости оборудования сверточной нейронной сети». Нейрокомпьютинг . 407 : 439–453. doi : 10.1016/j.neucom.2020.04.018 . S2CID 219470398 . Сверточные нейронные сети (CNN) представляют собой архитектуры глубокого обучения, которые в настоящее время используются в широком спектре приложений, включая компьютерное зрение, распознавание речи, идентификацию белковых последовательностей в биоинформатике, контроль производства, анализ временных рядов в финансах и многие другие.

[28] Вельдхен, Яна; Мэдер, Патрик (07 января 2017 г.). «Идентификация видов растений с использованием методов компьютерного зрения: систематический обзор литературы» . Архив вычислительных методов в технике . 25 (2): 507–543. дои : 10.1007/s11831-016-9206-z . ISSN 1134-3060 . ПМК 6003396 . ПМИД 29962832 .

[Davies-2005-29] Перейти обратно: ^а ^б ^с ^д ^и ^ж Э. Рой Дэвис (2005). Машинное зрение: теория, алгоритмы, практика . Морган Кауфманн. ISBN 978-0-12-206093-9 .

[:0-30] Андо, Мицухито; Такей, Тошинобу; Мотияма, Хироми (3 марта 2020 г.). «Резиновый искусственный слой кожи с гибкой структурой для оценки формы микроволнистых поверхностей» . Журнал «РОБОМЕХ» . 7 (1): 11. дои : 10.1186/s40648-020-00159-0 . ISSN 2197-4225 .

[:1-31] Чой, Сын Хён; Тахара, Кенджи (12 марта 2020 г.). «Ловкое манипулирование предметами многопалой роботизированной рукой с визуально-тактильными датчиками на кончиках пальцев» . Журнал «РОБОМЕХ» . 7 (1): 14. дои : 10.1186/s40648-020-00162-5 . ISSN 2197-4225 .

[32] Гарг, Хитендра (29 февраля 2020 г.). «Обнаружение сонливости водителя с помощью обычного приложения компьютерного зрения» . Международная конференция 2020 года по силовой электронике и приложениям IoT в возобновляемой энергетике и ее контроле (PARC) . стр. 50–53. дои : 10.1109/PARC49193.2020.236556 . ISBN 978-1-7281-6575-2 . S2CID 218564267 . Архивировано из оригинала 27 июня 2022 г. Проверено 6 ноября 2022 г.

[33] Хасан, Фудаил; Кашевник, Алексей (14 мая 2021 г.). «Современный анализ современных алгоритмов обнаружения сонливости на основе компьютерного зрения» . 2021 29-я конференция Ассоциации открытых инноваций (FRUCT) . стр. 141–149. дои : 10.23919/FRUCT52173.2021.9435480 . ISBN 978-952-69244-5-8 . S2CID 235207036 . Архивировано из оригинала 27 июня 2022 г. Проверено 6 ноября 2022 г.

[34] Баласундарам, А; Ашоккумар, С; Котандараман, Д; кора, СинаНайк; Сударшан, Э; Харшавердхан, А (01 декабря 2020 г.). «Обнаружение усталости на основе компьютерного зрения по параметрам лица» . Серия конференций IOP: Материаловедение и инженерия . 981 (2): 022005. Бибкод : 2020MS&E..981b2005B . дои : 10.1088/1757-899x/981/2/022005 . ISSN 1757-899X . S2CID 230639179 .

[BruijningVisser2018-35] Перейти обратно: ^а ^б Брюйнинг, Маржолейн; Виссер, Марко Д.; Халлманн, Каспар А.; Йонгеянс, Элке; Голдинг, Ник (2018). «trackdem: автоматическое отслеживание частиц для получения количества населения и распределения размеров по видео в r» . Методы экологии и эволюции . 9 (4): 965–973. Бибкод : 2018MEcEv...9..965B . дои : 10.1111/2041-210X.12975 . hdl : 2066/184075 . ISSN 2041-210X .

[Forsyth-Ponce-2003-36] Дэвид А. Форсайт; Жан Понсе (2003). Компьютерное зрение: современный подход . Прентис Холл. ISBN 978-0-13-085198-7 .

[Forsyth2012-37] Форсайт, Дэвид; Понсе, Жан (2012). Компьютерное зрение: современный подход . Пирсон.

[:2-38] Перейти обратно: ^а ^б Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуан, Чжихэн; Карпаты, Андрей; Хосла, Адитья; Бернштейн, Майкл; Берг, Александр К. (декабрь 2015 г.). «Масштабная задача ImageNet по визуальному распознаванию» . Международный журнал компьютерного зрения . 115 (3): 211–252. arXiv : 1409.0575 . дои : 10.1007/s11263-015-0816-y . hdl : 1721.1/104944 . ISSN 0920-5691 . S2CID 2930547 . Архивировано из оригинала 15 марта 2023 г. Проверено 20 ноября 2020 г.

[39] Куинн, Артур (9 октября 2022 г.). «Распознавание изображений с помощью искусственного интеллекта: неизбежные тенденции современного образа жизни» . TopTen.ai . Архивировано из оригинала 02 декабря 2022 г. Проверено 23 декабря 2022 г.

[40] Барретт, Лиза Фельдман; Адольфс, Ральф; Марселла, Стейси; Мартинес, Алей М.; Поллак, Сет Д. (июль 2019 г.). «Переосмысление выражений эмоций: проблемы определения эмоций по движениям лица человека» . Психологическая наука в общественных интересах . 20 (1): 1–68. дои : 10.1177/1529100619832930 . ISSN 1529-1006 . ПМК 6640856 . ПМИД 31313636 .

[41] А. Майти (2015). «Импровизированное обнаружение заметных объектов и манипулирование ими». arXiv : 1511.02999 [ cs.CV ].

[42] Баргоут, Лорен. « Визуальный таксометрический подход к сегментации изображений с использованием нечетко-пространственного разреза таксонов дает контекстуально релевантные регионы . Архивировано 14 ноября 2018 г. в Wayback Machine ». Обработка информации и управление неопределенностью в системах, основанных на знаниях. Международное издательство Спрингер, 2014.

[Liu_Wang_Hua_Zhang_2018_pp._5840–5853-43] Лю, Цзыи; Ван, Ле; Хуа, Банда; Чжан, Цилинь; Ню, Чжэньсин; Ву, Ин; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических сетей Маркова» (PDF) . Транзакции IEEE при обработке изображений . 27 (12): 5840–5853. Бибкод : 2018ITIP...27.5840L . дои : 10.1109/tip.2018.2859622 . ISSN 1057-7149 . ПМИД 30059300 . S2CID 51867241 . Архивировано из оригинала (PDF) 7 сентября 2018 г. Проверено 14 сентября 2018 г.

[Wang_Duan_Zhang_Niu_p=1657-44] Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (22 мая 2018 г.). «Segment-Tube: локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией» (PDF) . Датчики . 18 (5): 1657. Бибкод : 2018Senso..18.1657W . дои : 10.3390/s18051657 . ISSN 1424-8220 . ПМЦ 5982167 . ПМИД 29789447 . Архивировано (PDF) из оригинала 7 сентября 2018 г.

[45] Шапиро, Стюарт К. (1992). Энциклопедия искусственного интеллекта, Том 1 . Нью-Йорк: John Wiley & Sons, Inc., стр. 643–646. ISBN 978-0-471-50306-4 .

[46] Кагами, Шинго (2010). «Высокоскоростные системы технического зрения и проекторы для восприятия мира в реальном времени». Конференция IEEE Computer Society 2010 по компьютерному зрению и распознаванию образов — семинары . Том. 2010. стр. 100–107. дои : 10.1109/CVPRW.2010.5543776 . ISBN 978-1-4244-7029-7 . S2CID 14111100 .

[the_rise_of_VPUs-47] Сет Коланер (3 января 2016 г.). «Третий тип процессора для VR/AR: VPU Movidius Myriad 2» . www.tomshardware.com . Архивировано из оригинала 15 марта 2023 года . Проверено 3 мая 2016 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]