80 миллионов крошечных изображений
80 Million Tiny Images — набор данных , предназначенный для обучения машинного обучения . систем [1] Он содержит 79 302 017 цветных изображений размером 32×32 пикселя, уменьшенных по сравнению с изображениями, извлеченными из Всемирной паутины в 2008 году с использованием автоматических поисковых запросов в Интернете по набору из 75 062 неабстрактных существительных, полученных из WordNet . Слова из поисковых запросов затем использовались в качестве меток для изображений. [2] Для этой цели исследователи использовали семь поисковых веб-ресурсов: Altavista , Ask.com , Flickr , Cydral , Google , Picsearch и Webshots . [2]
Набор данных «80 миллионов крошечных изображений» был исключен из использования его создателями в 2020 году. [3] после того, как в статье исследователей Абебы Бирхане и Виная Прабху было обнаружено, что некоторые маркировки нескольких общедоступных наборов данных изображений, в том числе 80 миллионов крошечных изображений, содержали расистские и женоненавистнические оскорбления, из-за которых модели, обученные на них, проявляли расовую и сексуальную предвзятость. [4] [5] Бирхане и Прабху также обнаружили, что набор данных содержит ряд оскорбительных изображений. [5]
После публикации статьи создатели набора данных удалили набор данных из распространения и попросили других исследователей не использовать его для дальнейших исследований и удалить свои копии набора данных. [3]
Набор данных CIFAR-10 использует подмножество изображений из этого набора данных, но с независимо сгенерированными метками. [6]
Ссылки
[ редактировать ]- ^ Куах, Катянна (1 июля 2020 г.). «MIT извиняется и навсегда удаляет из сети огромный массив данных, который научил системы искусственного интеллекта использовать расистские и женоненавистнические оскорбления» . www.theregister.com . Проверено 2 июля 2020 г.
- ^ Jump up to: а б Торральба, Антонио; Фергюс, Роб; Фриман, Уильям Т. (ноябрь 2008 г.). «80 миллионов крошечных изображений: большой набор данных для непараметрического распознавания объектов и сцен» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 30 (11): 1958–1970. дои : 10.1109/TPAMI.2008.128 . ISSN 1939-3539 . ПМИД 18787244 . S2CID 7487588 .
- ^ Jump up to: а б «80 миллионов крошечных изображений» . groups.csail.mit.edu . Проверено 2 июля 2020 г.
- ^ Устик, Джорджина (01 июля 2020 г.). «MIT удаляет огромный набор данных, который учит системы искусственного интеллекта использовать расистские и женоненавистнические оскорбления» . Нейронный | Следующая сеть . Проверено 2 июля 2020 г.
- ^ Jump up to: а б Прабху, Винай Удай; Бирхане, Абаба (24 июня 2020 г.). «Большие наборы данных изображений: пиррова победа компьютерного зрения?». arXiv : 2006.16923 [ cs.CY ].
- ^ А. Крижевский. Изучение нескольких уровней функций на крошечных изображениях . Технический отчет, 2009 г. Университет Торонто.