Jump to content

Визуальный тест Тьюринга

Избранные примеры вопросов, созданные генератором запросов для визуального теста Тьюринга

Визуальный тест Тьюринга , [1] это «устройство, управляемое оператором, которое генерирует стохастическую последовательность бинарных вопросов из заданного тестового изображения». [1] Механизм запросов создает последовательность вопросов, ответы на которые непредсказуемы, учитывая историю вопросов. Тест касается только зрения и не требует какой-либо обработки естественного языка . Задача человека-оператора — дать правильный ответ на вопрос или отклонить его как двусмысленный. Генератор запросов создает вопросы таким образом, что они следуют «естественной сюжетной линии», подобно тому, как люди смотрят на картинку.

Исследования в области компьютерного зрения начались в 1960-х годах, когда Сеймур Пейперт впервые попытался решить эту проблему. Эта неудачная попытка получила название Summer Vision Project . Причина, по которой проект не увенчался успехом, заключалась в том, что компьютерное зрение сложнее, чем думают люди. Сложность соответствует зрительной системе человека. Примерно 50% человеческого мозга занято обработкой зрения, что указывает на то, что это сложная проблема.

Позже были попытки решить проблемы с помощью моделей, вдохновленных человеческим мозгом. Перцептроны Фрэнка Розенблатта , представляющие собой разновидность нейронных сетей , были одним из первых подобных подходов. Эти простые нейронные сети не могли оправдать возложенных на них ожиданий и имели определенные ограничения, из-за которых они не рассматривались в будущих исследованиях.

Позже, когда появилось оборудование и некоторая вычислительная мощность, исследования перешли к обработке изображений , которая включает в себя операции на уровне пикселей, такие как поиск краев , шумоподавление изображений или применение фильтров, и это лишь некоторые из них. В этой области был достигнут некоторый прогресс, но проблема зрения, которая должна была заставить машины понимать изображения, все еще не решалась. В это время вновь появились нейронные сети, поскольку было показано, что ограничения перцептронов можно преодолеть с помощью многослойных перцептронов . Также в начале 1990-х годов появились сверточные нейронные сети , которые показали отличные результаты в распознавании цифр, но плохо масштабировались при решении более сложных задач.

В конце 1990-х и начале 2000-х годов зародилось современное компьютерное зрение. Одной из причин, по которой это произошло, была доступность алгоритмов ключа, извлечения признаков и представления. Функции наряду с уже существующими алгоритмами машинного обучения использовались для обнаружения, локализации и сегментации объектов на изображениях.

Несмотря на все эти достижения, сообщество чувствовало необходимость иметь стандартизированные наборы данных и показатели оценки, чтобы можно было сравнивать производительность. Это привело к появлению таких проблем, как проблема Pascal VOC и проблема ImageNet . Наличие стандартных показателей оценки и открытые проблемы определили направление исследования. Были введены улучшенные алгоритмы для конкретных задач, таких как обнаружение и классификация объектов.

Визуальный тест Тьюринга направлен на то, чтобы дать новое направление исследованиям компьютерного зрения, которое приведет к внедрению систем, которые станут на шаг ближе к пониманию изображений так, как это делают люди.

Текущая практика оценки

[ редактировать ]

Большое количество наборов данных было аннотировано и обобщено для оценки производительности различных классов алгоритмов для оценки различных задач зрения (например, обнаружения/распознавания объектов) в некоторой области изображений (например, изображений сцены).

Одним из самых известных наборов данных в компьютерном зрении является ImageNet , который используется для оценки проблемы классификации изображений на уровне объекта. ImageNet — один из крупнейших доступных наборов аннотированных данных, содержащий более миллиона изображений. Другая важная задача зрения — обнаружение и локализация объекта, что означает обнаружение экземпляра объекта на изображении и предоставление координат ограничивающей рамки вокруг экземпляра объекта или сегментирование объекта. Самый популярный набор данных для этой задачи — набор данных Pascal. Аналогично существуют и другие наборы данных для конкретных задач, например H3D. [2] набор данных для определения позы человека. Базовый набор данных для оценки качества обнаруженных атрибутов объекта, таких как цвет, ориентация и активность.

Наличие этих стандартных наборов данных помогло сообществу специалистов по машинному зрению разработать чрезвычайно эффективные алгоритмы для всех этих задач. Следующим логическим шагом является создание более крупной задачи, включающей в себя эти более мелкие подзадачи. Наличие такой задачи приведет к созданию систем, которые будут понимать изображения, поскольку понимание изображений по своей сути будет включать в себя обнаружение объектов, их локализацию и сегментацию.

Подробности

[ редактировать ]

Визуальный тест Тьюринга (VTT), в отличие от теста Тьюринга, имеет систему запросов, которая опрашивает систему компьютерного зрения в присутствии человека-координатора.

Это система, которая генерирует случайную последовательность бинарных вопросов, специфичных для тестового изображения, так что ответ на любой вопрос k непредсказуем, учитывая истинные ответы на предыдущие k - 1 вопросов (также известные как история вопросов).

Тест проводится в присутствии человека-оператора, который служит двум основным целям: устранению неоднозначных вопросов и предоставлению правильных ответов на однозначные вопросы. Имея изображение, можно задать бесконечное количество возможных бинарных вопросов, и многие из них обязательно будут двусмысленными. Эти вопросы, если они генерируются механизмом запросов, удаляются модератором-человеком, и вместо этого механизм запросов генерирует другой вопрос, ответ на который непредсказуем, учитывая историю вопросов.

Целью визуального теста Тьюринга является оценка понимания изображения компьютерной системой, а важной частью понимания изображения является его сюжетная линия. Когда люди смотрят на изображение, они не думают, что есть машина в точках « x » пикселей слева и « y » пикселей сверху, а вместо этого они смотрят на него как на историю, например, они могут думать, что там машина припаркована на дороге, человек выходит из машины и направляется к зданию. Наиболее важными элементами сюжетной линии являются объекты, и поэтому для извлечения любой сюжетной линии из изображения первой и наиболее важной задачей является создание экземпляров объектов в нем, и это то, что делает механизм запросов.

Механизм запросов

[ редактировать ]

Механизм запросов является ядром визуального теста Тьюринга и состоит из двух основных частей: словарный запас и вопросы.

Словарный запас

[ редактировать ]

Словарный запас – это набор слов, обозначающих элементы изображений. Этот словарный запас, когда он используется с соответствующей грамматикой, приводит к ряду вопросов. Грамматика определяется в следующем разделе таким образом, что она ведет к пространству бинарных вопросов.

Словарный запас состоят из трёх компонентов:

  1. Типы объектов
  2. Типозависимые атрибуты объектов
  3. Типозависимые отношения между двумя объектами

Для изображений городских уличных сцен типы объектов включают людей , транспортные средства и здания . Атрибуты относятся к свойствам этих объектов, например, женщина, ребенок, носящий шляпу или несущий что-то , движущийся, припаркованный, остановленный, видимая одна шина или две видимые шины для транспортных средств. Отношения между каждой парой классов объектов могут быть «упорядоченными» или «неупорядоченными». Неупорядоченные отношения могут включать разговор , ходьбу совместную , а упорядоченные отношения включают в себя «выше» , «ближе к камере», «перекрытие», «перекрытие» и т. д.

Примеры регионов, используемые в качестве контекста в визуальном тесте Тьюринга. Слева показаны области размером 1/8 размера изображения, а справа показаны области размером 1/4 размера изображения.

Кроме того, весь этот словарь используется в контексте прямоугольных областей изображения w \in W, которые позволяют локализовать объекты на изображении. Возможно чрезвычайно большое количество таких областей, и это усложняет проблему, поэтому для этого теста используются только области в определенных масштабах, которые включают 1/16 размера изображения, 1/4 размера изображения, 1/2 размера изображения или большего размера.

Пространство вопросов состоит из четырех типов вопросов:

  • Вопросы о существовании. Цель вопросов о существовании — найти на изображении новые объекты, которые ранее не были однозначно идентифицированы.
    Они имеют вид:
Qexist = 'Is there an instance of an object of type t with attributes A partially visible in region w that was not previously instantiated?'
  • Вопросы уникальности. Вопрос уникальности пытается однозначно идентифицировать объект для его создания.
Quniq = 'Is there a unique instance of an object of type t with attributes A partially visible in region w that was not previously instantiated?'

Вопросы уникальности вместе с вопросами существования образуют вопросы реализации. Как упоминалось ранее, создание экземпляров объектов приводит к другим интересным вопросам и, в конечном итоге, к сюжетной линии. Вопросы уникальности следуют за вопросами существования, и положительный ответ на них приводит к созданию экземпляра объекта.

  • Вопросы об атрибутах. Вопрос об атрибутах пытается узнать больше об объекте после его создания. Такие вопросы могут касаться одного атрибута, соединения двух атрибутов или дизъюнкции двух атрибутов.
Qatt(ot) = {'Does object ot have attribute a?' , 'Does object ot have attribute a1 or attribute a2?' , 'Does object ot have attribute a1 and attribute a2?'}
  • Вопросы о взаимоотношениях. После создания экземпляров нескольких объектов вопрос об отношениях исследует отношения между парами объектов.
Qrel(ot,ot') = 'Does object ot have relationship r with object ot'?'

Детали реализации

[ редактировать ]

Как упоминалось ранее, ядром визуального теста Тьюринга является генератор запросов, который генерирует последовательность бинарных вопросов, так что ответ на любой вопрос k непредсказуем, учитывая правильные ответы на предыдущие k - 1 вопросов. Это рекурсивный процесс, учитывая историю вопросов и их правильные ответы, генератор запросов либо останавливается, поскольку непредсказуемых вопросов больше нет, либо случайным образом выбирает непредсказуемый вопрос и добавляет его в историю.

Пространство вопросов, определенное ранее, неявно накладывает ограничения на поток вопросов. Чтобы было более понятно, это означает, что вопросы об атрибутах и ​​отношениях не могут предшествовать вопросам создания экземпляров. Только когда объекты созданы, их можно запрашивать об их атрибутах и ​​отношениях с другими ранее созданными объектами. Таким образом, учитывая историю, мы можем ограничить возможные вопросы, которые могут следовать за ней, и этот набор вопросов называется вопросами-кандидатами. .

Задача состоит в том, чтобы выбрать из этих вопросов-кандидатов непредсказуемый вопрос так, чтобы он соответствовал потоку вопросов, который мы опишем в следующем разделе. Для этого найдите непредсказуемость каждого вопроса среди вопросов-кандидатов.

Позволять — двоичная случайная величина, где , если история действительно для изображения и в противном случае. Позволять может быть предложенный вопрос, и быть ответом на вопрос .

Затем найдите условную вероятность получения ответа X q на вопрос q с учетом истории H .

Учитывая эту вероятность, мера непредсказуемости определяется следующим образом:

Чем ближе равно 0, тем более непредсказуемым является вопрос. за каждый вопрос рассчитывается. Вопросы, по которым , представляют собой набор почти непредсказуемых вопросов, из которых случайным образом выбирается следующий вопрос.

Последовательность вопросов

[ редактировать ]

Как обсуждалось в предыдущем разделе, в пространстве вопросов существует неявный порядок, согласно которому вопросы об атрибутах идут после вопросов о создании экземпляров, а вопросы об отношениях идут после вопросов об атрибутах после создания нескольких объектов.

Таким образом, механизм запросов следует структуре цикла, где он сначала создает экземпляр объекта с вопросами о существовании и уникальности, затем запрашивает его атрибуты, а затем задаются вопросы об отношениях для этого объекта со всеми ранее созданными объектами.

[ редактировать ]

Понятно, что интересные вопросы об атрибутах и ​​отношениях идут после вопросов по созданию экземпляров, поэтому генератор запросов стремится создать экземпляры как можно большего числа объектов.

Вопросы создания экземпляров состоят как из вопросов существования, так и из вопросов уникальности, но именно вопросы уникальности фактически создают экземпляр объекта, если они получают положительный ответ. Таким образом, если генератору запросов приходится случайным образом выбирать конкретизирующий вопрос, он предпочитает выбирать непредсказуемый вопрос об уникальности, если таковой имеется. Если такого вопроса нет, генератор запросов выбирает такой вопрос о существовании, который с высокой вероятностью приведет к вопросу об уникальности в будущем. Таким образом, в этом случае генератор запросов выполняет упреждающий поиск.

Сюжетная линия

[ редактировать ]

Неотъемлемой частью конечной цели создания систем, способных понимать изображения так же, как это делают люди, является сюжетная линия. Люди пытаются угадать сюжетную линию в изображении, которое они видят. Генератор запросов достигает этого за счет непрерывности последовательности вопросов.

Это означает, что после создания экземпляра объекта он пытается изучить его более подробно. Помимо определения его атрибутов и связи с другими объектами, важным шагом также является локализация. Таким образом, на следующем этапе генератор запросов пытается локализовать объект в регионе, в котором он был впервые идентифицирован, поэтому он ограничивает набор вопросов по созданию экземпляров регионами внутри исходного региона.

Предпочтение простоты

[ редактировать ]

Предпочтение простоты гласит, что генератор запросов должен выбирать более простые вопросы, а не более сложные. Более простые вопросы — это те, которые содержат меньше атрибутов. Таким образом, это упорядочивает вопросы в зависимости от количества атрибутов, и генератор запросов отдает предпочтение более простым.

Оценка предсказуемости

[ редактировать ]

Чтобы выбрать следующий вопрос в последовательности, VTT должен оценить предсказуемость каждого предлагаемого вопроса. Это делается с использованием аннотированного обучающего набора изображений. Каждое изображение помечено ограничивающей рамкой вокруг объектов и помечено атрибутами, а пары объектов помечены отношениями.
Рассмотрим каждый тип вопросов отдельно:

  1. Вопросы по созданию экземпляров . Условную оценку вероятности для вопросов по созданию экземпляров можно представить как:

    Вопрос рассматривается только в том случае, если в знаменателе не менее 80 изображений. Состояние очень строгий и может быть неверным для большого количества изображений, поскольку каждый вопрос в истории исключает примерно половину кандидатов (в данном случае изображений). В результате история сокращается и вопросы, которые не могут изменить условную вероятность, исключаются. Имея более короткую историю, мы можем рассмотреть большее количество изображений для оценки вероятности.
    Удаление истории происходит в два этапа:
    • На первом этапе все вопросы об атрибутах и ​​отношениях удаляются, исходя из предположения, что наличие и создание объектов зависит только от других объектов, а не от их атрибутов или отношений. Кроме того, все вопросы существования, относящиеся к регионам, не пересекающимся с регионом, упомянутым в предлагаемом вопросе, отбрасываются, поскольку предполагается, что вероятность присутствия объекта в определенном месте не меняется при наличии или отсутствии объектов в других местах, кроме . И, наконец, все вопросы об уникальности с отрицательным ответом, относящиеся к регионам, отделенным от региона, о котором говорится в предлагаемом вопросе, отбрасываются при условии, что вопросы об уникальности с положительным ответом, если их исключить, могут изменить ответ на будущие вопросы конкретизации. Историю вопросов, полученных после этого первого этапа обрезки, можно назвать .
    • На втором этапе выполняется обрезка изображений по изображениям. Позволять быть вопросом уникальности в который не был обрезан и сохраняется в . Если этот вопрос задается в контексте региона, который не пересекается с регионом, на который ссылается предлагаемый вопрос, то ожидаемый ответ на этот вопрос будет , из-за ограничений на первом этапе. Но если фактический ответ на этот вопрос для обучающего изображения , то это обучающее изображение не учитывается для оценки вероятности, и вопрос также сбрасывается. Окончательная история вопросов после этого такова: , а вероятность определяется выражением:
  2. Вопросы об атрибутах . Оценка вероятности для вопросов об атрибутах зависит от количества помеченных объектов, а не от изображений, в отличие от вопросов по созданию экземпляров.
    Рассмотрим вопрос об атрибутах следующего вида: «Есть ли у объекта атрибут a?» , где это объект типа и . Позволять быть набором атрибутов, о которых уже известно, что они принадлежат из-за истории. Позволять быть набором всех аннотированных объектов (основная истина) в обучающем наборе, и для каждого , позволять быть типом объекта и быть набором атрибутов, принадлежащих . Тогда оценка определяется следующим образом:

    По сути, это соотношение количества раз, когда объект типа с атрибутами встречается в обучающих данных столько раз, сколько объект типа с атрибутами происходит в обучающих данных. Большое количество атрибутов в приводит к проблеме разреженности, аналогичной вопросам создания экземпляров. Чтобы справиться с этим, мы разделяем атрибуты на подмножества, которые приблизительно независимы в зависимости от принадлежности объекту. . Например, для человека, такие атрибуты, как переход улицы и стояние на месте, не являются независимыми, но оба они довольно независимы от пола человека , от того, является ли он ребенком или взрослым , и от того, несет ли он что-то или нет . Эти условные независимости уменьшают размер множества. , и тем самым решить проблему разреженности.
  3. Вопросы об отношениях : подход к вопросам об отношениях такой же, как и к вопросам об атрибутах, где вместо количества объектов рассматривается количество пар объектов, а для предположения независимости - отношения, которые не зависят от атрибутов связанных объектов и включаются отношения, независимые друг от друга.

Подробные примеры последовательностей можно найти здесь . [3]

Набор данных

[ редактировать ]

Изображения, рассмотренные для Geman et al. [1] Работа связана с набором данных «Городские уличные сцены», [1] в котором есть сцены улиц из разных городов мира. Вот почему типы объектов в этом эксперименте ограничены людьми и транспортными средствами.

Изображения сцен городских улиц из обучающих данных. Данные обучения представляют собой набор таких изображений со сценами из разных городов мира.

Другой набор данных, представленный Институтом информатики Макса Планка, известен как DAQUAR. [4] [5] набор данных, который содержит реальные изображения сцен в помещении. Но они [4] предложить другую версию визуального теста Тьюринга, которая использует целостный подход и ожидает, что участвующая система будет проявлять человеческий здравый смысл.

Примеры аннотаций к обучающему изображению, предоставленные работниками

Заключение

[ редактировать ]

Это совсем недавняя работа, опубликованная 9 марта 2015 года в журнале Proceedings of the National Academy of Sciences исследователями из Университета Брауна и Университета Джонса Хопкинса . Он оценивает, насколько системы компьютерного зрения понимают изображения по сравнению с людьми. В настоящее время тест написан, а опросчик представляет собой машину, потому что устная оценка, проводимая человеком-допрашивающим, дает людям неоправданное преимущество в плане субъективности, а также ожидает ответов в реальном времени.

Ожидается, что визуальный тест Тьюринга придаст новое направление исследованиям компьютерного зрения. Такие компании, как Google и Facebook, вкладывают миллионы долларов в исследования компьютерного зрения и пытаются создать системы, очень похожие на зрительную систему человека. Недавно Facebook анонсировал свою новую платформу M, которая просматривает изображение и предоставляет его описание, чтобы помочь слабовидящим. [6] Такие системы могут хорошо работать на VTT.

  1. ^ Jump up to: а б с д Геман, Дональд; Жеман, Стюарт; Халлонквист, Нил; Юнес, Лоран (24 марта 2015 г.). «Визуальный тест Тьюринга для систем компьютерного зрения» . Труды Национальной академии наук . 112 (12): 3618–3623. Бибкод : 2015PNAS..112.3618G . дои : 10.1073/pnas.1422953112 . ISSN   0027-8424 . ПМЦ   4378453 . ПМИД   25755262 .
  2. ^ «Х3Д» . www.eecs.berkeley.edu . Проверено 19 ноября 2015 г.
  3. ^ «Визуальный тест Тьюринга | Отдел прикладной математики» . www.brown.edu . Проверено 19 ноября 2015 г.
  4. ^ Jump up to: а б «Институт компьютерных наук Макса Планка: вызов визуального Тьюринга» . www.mpi-inf.mpg.de . Проверено 19 ноября 2015 г.
  5. ^ Малиновский, Матеуш; Фриц, Марио (29 октября 2014 г.). «К вызову визуального Тьюринга». arXiv : 1410.8027 [ cs.AI ].
  6. ^ Мец, Кейд (27 октября 2015 г.). «ИИ Facebook может самостоятельно подписывать фотографии для слепых» . ПРОВОДНОЙ . Проверено 19 ноября 2015 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b6dee40f3acda0cffad8bd7f6a5c0ae3__1698138600
URL1:https://arc.ask3.ru/arc/aa/b6/e3/b6dee40f3acda0cffad8bd7f6a5c0ae3.html
Заголовок, (Title) документа по адресу, URL1:
Visual Turing Test - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)