80 миллионов крошечных изображений

80 Million Tiny Images — набор данных , предназначенный для обучения машинного обучения . систем ^[1] Он содержит 79 302 017 цветных изображений размером 32×32 пикселя, уменьшенных по сравнению с изображениями, извлеченными из Всемирной паутины в 2008 году с использованием автоматических поисковых запросов в Интернете по набору из 75 062 неабстрактных существительных, полученных из WordNet . Слова из поисковых запросов затем использовались в качестве меток для изображений. ^[2] Для этой цели исследователи использовали семь поисковых веб-ресурсов: Altavista , Ask.com , Flickr , Cydral , Google , Picsearch и Webshots . ^[2]

Набор данных «80 миллионов крошечных изображений» был исключен из использования его создателями в 2020 году. ^[3] после того, как в статье исследователей Абебы Бирхане и Виная Прабху было обнаружено, что некоторые маркировки нескольких общедоступных наборов данных изображений, в том числе 80 миллионов крошечных изображений, содержали расистские и женоненавистнические оскорбления, из-за которых модели, обученные на них, проявляли расовую и сексуальную предвзятость. ^[4]^[5] Бирхане и Прабху также обнаружили, что набор данных содержит ряд оскорбительных изображений. ^[5]

После публикации статьи создатели набора данных удалили набор данных из распространения и попросили других исследователей не использовать его для дальнейших исследований и удалить свои копии набора данных. ^[3]

Набор данных CIFAR-10 использует подмножество изображений из этого набора данных, но с независимо сгенерированными метками. ^[6]

Ссылки

^ Куах, Катянна (1 июля 2020 г.). «MIT извиняется и навсегда удаляет из сети огромный массив данных, который научил системы искусственного интеллекта использовать расистские и женоненавистнические оскорбления» . www.theregister.com . Проверено 2 июля 2020 г.
^ Jump up to: ^а ^б Торральба, Антонио; Фергюс, Роб; Фриман, Уильям Т. (ноябрь 2008 г.). «80 миллионов крошечных изображений: большой набор данных для непараметрического распознавания объектов и сцен» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 30 (11): 1958–1970. дои : 10.1109/TPAMI.2008.128 . ISSN 1939-3539 . ПМИД 18787244 . S2CID 7487588 .
^ Jump up to: ^а ^б «80 миллионов крошечных изображений» . groups.csail.mit.edu . Проверено 2 июля 2020 г.
^ Устик, Джорджина (01 июля 2020 г.). «MIT удаляет огромный набор данных, который учит системы искусственного интеллекта использовать расистские и женоненавистнические оскорбления» . Нейронный | Следующая сеть . Проверено 2 июля 2020 г.
^ Jump up to: ^а ^б Прабху, Винай Удай; Бирхане, Абаба (24 июня 2020 г.). «Большие наборы данных изображений: пиррова победа компьютерного зрения?». arXiv : 2006.16923 [ cs.CY ].
^ А. Крижевский. Изучение нескольких уровней функций на крошечных изображениях . Технический отчет, 2009 г. Университет Торонто.

Эта по информатике статья незавершена . Вы можете помочь Википедии, расширив ее .

Эта социологии статья по незавершена . Вы можете помочь Википедии, расширив ее .

[1] Куах, Катянна (1 июля 2020 г.). «MIT извиняется и навсегда удаляет из сети огромный массив данных, который научил системы искусственного интеллекта использовать расистские и женоненавистнические оскорбления» . www.theregister.com . Проверено 2 июля 2020 г.

[Torralba2008-2] Jump up to: ^а ^б Торральба, Антонио; Фергюс, Роб; Фриман, Уильям Т. (ноябрь 2008 г.). «80 миллионов крошечных изображений: большой набор данных для непараметрического распознавания объектов и сцен» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 30 (11): 1958–1970. дои : 10.1109/TPAMI.2008.128 . ISSN 1939-3539 . ПМИД 18787244 . S2CID 7487588 .

[:0-3] Jump up to: ^а ^б «80 миллионов крошечных изображений» . groups.csail.mit.edu . Проверено 2 июля 2020 г.

[4] Устик, Джорджина (01 июля 2020 г.). «MIT удаляет огромный набор данных, который учит системы искусственного интеллекта использовать расистские и женоненавистнические оскорбления» . Нейронный | Следующая сеть . Проверено 2 июля 2020 г.

[:1-5] Jump up to: ^а ^б Прабху, Винай Удай; Бирхане, Абаба (24 июня 2020 г.). «Большие наборы данных изображений: пиррова победа компьютерного зрения?». arXiv : 2006.16923 [ cs.CY ].

[6] А. Крижевский. Изучение нескольких уровней функций на крошечных изображениях . Технический отчет, 2009 г. Университет Торонто.

[1]

[2]

[3]

[4]

[5]

[6]