ImageNet
Проект ImageNet представляет собой большую визуальную базу данных , предназначенную для использования в исследованиях программного обеспечения для распознавания визуальных объектов . Более 14 миллионов [1] [2] В рамках проекта изображения были вручную аннотированы, чтобы указать, какие объекты изображены, и как минимум в одном миллионе изображений также предусмотрены ограничивающие рамки. [3] ImageNet содержит более 20 000 категорий, [2] с типичной категорией, например «воздушный шар» или «клубника», состоящей из нескольких сотен изображений. [4] сторонних изображений База данных аннотаций URL-адресов находится в свободном доступе непосредственно из ImageNet, хотя сами изображения не принадлежат ImageNet. [5] С 2010 года проект ImageNet проводит ежегодный конкурс программного обеспечения ImageNet Large Scale Visual Recognition Challenge ( ILSVRC ), в котором программы соревнуются в правильной классификации и обнаружении объектов и сцен. В задаче используется «обрезанный» список из тысячи непересекающихся классов. [6]
Значение для глубокого обучения
[ редактировать ]30 сентября 2012 года сверточная нейронная сеть (CNN) под названием AlexNet [7] в рейтинге ImageNet 2012 Challenge ошибка топ-5 составила 15,3%, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Использование сверточных нейронных сетей стало возможным благодаря использованию графических процессоров (GPU) во время обучения. [7] важный компонент революции глубокого обучения . По данным The Economist , «внезапно люди начали обращать на это внимание не только в сообществе ИИ, но и во всей технологической отрасли в целом». [4] [8] [9]
В 2015 году AlexNet уступила Microsoft от очень глубокую CNN с более чем 100 слоями, которая выиграла конкурс ImageNet 2015. [10]
История базы данных
[ редактировать ]Исследователь искусственного интеллекта Фей-Фей Ли начал работать над идеей ImageNet в 2006 году. В то время, когда большинство исследований искусственного интеллекта были сосредоточены на моделях и алгоритмах, Ли хотел расширить и улучшить данные, доступные для обучения алгоритмов искусственного интеллекта. [11] В 2007 году Ли встретился с профессором Принстона Кристианой Феллбаум , одной из создательниц WordNet , чтобы обсудить проект. В результате этой встречи Ли продолжил создание ImageNet, на основе текстовой базы данных WordNet и используя многие из ее функций. [12]
Будучи доцентом Принстона , Ли собрал команду исследователей для работы над проектом ImageNet. Они использовали Amazon Mechanical Turk , чтобы помочь с классификацией изображений. [12]
Впервые они представили свою базу данных в виде плаката на конференции по компьютерному зрению и распознаванию образов (CVPR) 2009 года во Флориде. [12] [13] [14]
Набор данных
[ редактировать ]ImageNet использует краудсорсинг процесса аннотирования. Аннотации на уровне изображения указывают на наличие или отсутствие класса объекта на изображении, например «на этом изображении есть тигры» или «на этом изображении нет тигров». Аннотации на уровне объекта создают ограничивающую рамку вокруг указанного объекта (видимой части). ImageNet использует вариант широкой схемы WordNet для категоризации объектов, дополненной 120 категориями пород собак для демонстрации детальной классификации. [6] Одним из недостатков использования WordNet является то, что категории могут быть более «возвышенными», чем было бы оптимально для ImageNet: «Большинство людей больше интересуются Леди Гагой или iPod Mini, чем этим редким видом диплодока ». [ нужны разъяснения ] В 2012 году ImageNet была крупнейшим в мире академическим пользователем Mechanical Turk . Среднестатистический работник идентифицирует 50 изображений в минуту. [2]
Подмножества набора данных
[ редактировать ]Существуют различные подмножества набора данных ImageNet, используемые в различных контекстах. Одним из наиболее часто используемых подмножеств ImageNet является «Набор данных классификации и локализации изображений ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012–2017». В исследовательской литературе это также называется ImageNet-1K или ILSVRC2017, что отражает первоначальную задачу ILSVRC, в которой участвовало 1000 классов. ImageNet-1K содержит 1 281 167 обучающих изображений, 50 000 проверочных изображений и 100 000 тестовых изображений. [15] Полный исходный набор данных называется ImageNet-21K. ImageNet-21k содержит 14 197 122 изображения, разделенных на 21 841 класс. В некоторых статьях это округляют и называют ImageNet-22k. [16]
История конкурса ImageNet
[ редактировать ]ILSVRC стремится «идти по стопам» меньшего масштаба проекта PASCAL VOC, созданного в 2005 году и содержавшего всего около 20 000 изображений и двадцати классов объектов. [6] Чтобы «демократизировать» ImageNet, Фей-Фей Ли предложил команде PASCAL VOC сотрудничество, начиная с 2010 года, в рамках которого исследовательские группы будут оценивать свои алгоритмы на заданном наборе данных и соревноваться за достижение более высокой точности в некоторых задачах визуального распознавания. [12]
Итоговый ежегодный конкурс теперь известен как ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC использует «обрезанный» список, состоящий всего из 1000 категорий изображений или «классов», включая 90 из 120 пород собак, классифицированных по полной схеме ImageNet. [6] В 2010-е годы произошел значительный прогресс в обработке изображений. Примерно в 2011 году уровень ошибок в топ-5 хорошей классификации ILSVRC составлял 25%. В 2012 году глубокая сверточная нейронная сеть под названием AlexNet достигла 16%; в следующие пару лет уровень ошибок в топ-5 упал до нескольких процентов. [17] В то время как прорыв 2012 года «объединил все, что было раньше», резкое количественное улучшение ознаменовало начало общеотраслевого бума искусственного интеллекта. [4] К 2015 году исследователи из Microsoft сообщили, что их CNN превосходят человеческие возможности в решении узких задач ILSVRC. [10] [18] Однако, как отметила в 2015 году один из организаторов конкурса Ольга Русаковский , программам достаточно лишь идентифицировать изображения как принадлежащие к одной из тысячи категорий; люди могут распознавать большее количество категорий, а также (в отличие от программ) оценивать контекст изображения. [19]
К 2014 году в ILSVRC приняли участие более пятидесяти учреждений. [6] В 2017 году 29 из 38 конкурирующих команд имели точность более 95%. [20] В 2017 году ImageNet заявила, что в 2018 году поставит перед собой новую, гораздо более сложную задачу, которая включает классификацию 3D-объектов с использованием естественного языка. Поскольку создание 3D-данных обходится дороже, чем аннотирование уже существующего 2D-изображения, ожидается, что набор данных будет меньше. Применение прогресса в этой области будет варьироваться от роботизированной навигации до дополненной реальности . [1]
Предвзятость в ImageNet
[ редактировать ]Исследование истории нескольких уровней ( таксономии , классов объектов и маркировки) ImageNet и WordNet в 2019 году показало, как предвзятость [ нужны разъяснения ] глубоко внедрен в большинство подходов к классификации всех видов изображений. [21] [22] [23] [24] ImageNet работает над устранением различных источников предвзятости. [25]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б «Новая задача по компьютерному зрению направлена на то, чтобы научить роботов видеть в 3D» . Новый учёный . 7 апреля 2017 года . Проверено 3 февраля 2018 г.
- ^ Jump up to: а б с Маркофф, Джон (19 ноября 2012 г.). «Для веб-изображений: создание новых технологий для поиска и нахождения» . Нью-Йорк Таймс . Проверено 3 февраля 2018 г.
- ^ «ИмиджНет» . 7 сентября 2020 г. Архивировано из оригинала 7 сентября 2020 г. Проверено 11 октября 2022 г.
- ^ Jump up to: а б с «От неработы к нейронным сетям» . Экономист . 25 июня 2016 г. Проверено 3 февраля 2018 г.
- ^ «Обзор ImageNet» . Имиджнет . Проверено 15 октября 2022 г.
- ^ Jump up to: а б с д и Ольга Русаковский*, Цзя Дэн*, Хао Су, Джонатан Краузе, Санджив Сатиш, Шон Ма, Чжихэн Хуанг, Андрей Карпати , Адитья Хосла, Майкл Бернштейн, Александр К. Берг и Ли Фей-Фей. (* = равный вклад) Масштабный конкурс визуального распознавания ImageNet. ЦЖКВ, 2015.
- ^ Jump up to: а б Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (июнь 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN 0001-0782 . S2CID 195908774 . Проверено 24 мая 2017 г.
- ^ «Машины «побивают людей» при выполнении растущего числа задач» . Файнэншл Таймс . 30 ноября 2017 года . Проверено 3 февраля 2018 г.
- ^ Гершгорн, Дэйв (18 июня 2018 г.). «Внутренняя история того, как искусственный интеллект стал достаточно хорош, чтобы доминировать в Кремниевой долине» . Кварц . Проверено 10 декабря 2018 г.
- ^ Jump up to: а б Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN 978-1-4673-8851-1 . S2CID 206594692 .
- ^ Хемпель, Джесси (13 ноября 2018 г.). «Стремления Фей-Фей Ли по улучшению ИИ для человечества» . Проводной . Проверено 5 мая 2019 г.
Когда Ли, вернувшаяся в Принстон, чтобы устроиться на работу доцентом в 2007 году, рассказала о своей идее создания ImageNet, ей было трудно убедить преподавателей помочь ей. Наконец, профессор, специализирующийся на компьютерной архитектуре, согласился присоединиться к ней в качестве сотрудника.
- ^ Jump up to: а б с д Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, весь мир» . Кварц . Атлантик Медиа Ко . Проверено 26 июля 2017 г.
Прочитав о подходе WordNet, Ли во время визита в Принстон в 2006 году встретился с профессором Кристианой Феллбаум, исследователем, оказавшим влияние на дальнейшую работу над WordNet.
- ^ Дэн, Цзя; Донг, Вэй; Сошер, Ричард; Ли, Ли-Цзя; Ли, Кай; Фей-Фей, Ли (2009), «ImageNet: крупномасштабная иерархическая база данных изображений» (PDF) , конференция 2009 г. по компьютерному зрению и распознаванию образов , заархивировано из оригинала (PDF) 15 января 2021 г. , получено 26 июля 2017 г.
- ^ Ли, Фей-Фей (23 марта 2015 г.), Как мы учим компьютеры понимать изображения , дата обращения 16 декабря 2018 г.
- ^ «ИмиджНет» . www.image-net.org . Проверено 19 октября 2022 г.
- ^ Ридник, Таль; Бен-Барух, Эмануэль; Ной, Асаф; Зельник-Усадьба, Лихи (5 августа 2021 г.). «Предварительная подготовка ImageNet-21K для масс». arXiv : 2104.10972 [ cs.CV ].
- ^ Роббинс, Мартин (6 мая 2016 г.). «Нужно ли ИИ заниматься любовью с девушкой Рембрандта, чтобы заниматься искусством?» . Хранитель . Проверено 22 июня 2016 г.
- ^ Маркофф, Джон (10 декабря 2015 г.). «Прогресс в области искусственного интеллекта соперничает с человеческими способностями» . Нью-Йорк Таймс . Проверено 22 июня 2016 г.
- ^ Арон, Джейкоб (21 сентября 2015 г.). «Забудьте о тесте Тьюринга – есть более эффективные способы оценки ИИ» . Новый учёный . Проверено 22 июня 2016 г.
- ^ Гершгорн, Дэйв (10 сентября 2017 г.). «Руководство «Кварц» по искусственному интеллекту: что это такое, почему это важно и стоит ли нам бояться?» . Кварц . Проверено 3 февраля 2018 г.
- ^ «Вирусное приложение, которое навешивает на вас ярлык, — это не совсем то, что вы думаете» . Проводной . ISSN 1059-1028 . Проверено 22 сентября 2019 г.
- ^ Вонг, Джулия Кэрри (18 сентября 2019 г.). «Вирусное приложение для селфи ImageNet Roulette казалось забавным, пока оно не назвало меня расистским оскорблением» . Хранитель . ISSN 0261-3077 . Проверено 22 сентября 2019 г.
- ^ Кроуфорд, Кейт; Паглен, Тревор (19 сентября 2019 г.). «Раскопки ИИ: политика обучающих наборов для машинного обучения» . - . Проверено 22 сентября 2019 г.
- ^ Лайонс, Майкл (24 декабря 2020 г.). «Раскопки «Раскопки ИИ»: Слон в галерее». arXiv : 2009.01215 .
- ^ «На пути к более справедливым наборам данных: фильтрация и балансировка распределения поддерева людей в иерархии ImageNet» . image-net.org . 17 сентября 2019 г. Проверено 22 сентября 2019 г.