база данных МНИСТ
База данных MNIST ( модифицированная Национального института стандартов и технологий). база данных [1] ) — это большая база данных рукописных цифр, которая обычно используется для обучения различных обработки изображений . систем [2] [3] База данных также широко используется для обучения и тестирования в области машинного обучения . [4] [5] Он был создан путем «повторного смешивания» образцов из исходных наборов данных NIST. [6] Создатели посчитали, что, поскольку набор обучающих данных NIST был взят у сотрудников Американского бюро переписи населения , а набор тестовых данных был взят у американских старшеклассников , он не очень подходит для экспериментов по машинному обучению. [7] Кроме того, черно-белые изображения из NIST были нормализованы , чтобы вписаться в ограничивающую рамку размером 28x28 пикселей, и были сглажены , что привело к появлению уровней оттенков серого. [7]
База данных MNIST содержит 60 000 обучающих изображений и 10 000 тестовых изображений. [8] Половина обучающего набора и половина тестового набора были взяты из набора обучающих данных NIST, а другая половина обучающего набора и другая половина тестового набора были взяты из набора тестовых данных NIST. [9] Первоначальные создатели базы данных хранят список некоторых протестированных в ней методов. [7] В своей оригинальной статье они используют машину опорных векторов , чтобы получить коэффициент ошибок 0,8%. [10]
Расширенный MNIST (EMNIST) — это новый набор данных, разработанный и выпущенный NIST как (окончательный) преемник MNIST. [11] [12] MNIST включил изображения только рукописных цифр. EMNIST включает в себя все изображения из специальной базы данных NIST 19, которая представляет собой большую базу данных, состоящую из рукописных прописных и строчных букв, а также цифр. [13] [14] Изображения в EMNIST были преобразованы в тот же формат 28x28 пикселей с помощью того же процесса, что и изображения MNIST. Соответственно, инструменты, которые работают со старым и меньшим набором данных MNIST, скорее всего, будут работать с EMNIST без изменений.
Исходный набор данных MNIST содержит как минимум 4 неправильных метки. [15]
История
[ редактировать ]Набор изображений в базе данных MNIST был создан в 1994 году как комбинация двух баз данных NIST : Special Database 1; и Специальная база данных 3. [16]
Специальная база данных 1 и Специальная база данных 3 состоят из цифр, написанных старшеклассниками и сотрудниками Бюро переписи населения США соответственно. [7]
Исходный набор данных представлял собой набор бинарных изображений размером 128x128, обработанных в изображения в оттенках серого 28x28. И обучающий набор, и тестовый набор изначально содержали по 60 тысяч выборок, но 50 тысяч выборок из тестового набора были отброшены. [17]
Производительность
[ редактировать ]Некоторые исследователи достигли «почти человеческой производительности» в базе данных MNIST, используя комитет нейронных сетей ; в той же статье авторы достигают производительности, вдвое превышающей эффективность людей при выполнении других задач распознавания. [18] Самый высокий уровень ошибок указан [7] на исходном сайте базы данных составляет 12 процентов, что достигается с помощью простого линейного классификатора без предварительной обработки. [10]
В 2004 году исследователи с использованием нового классификатора под названием LIRA, который представляет собой нейронный классификатор с тремя слоями нейронов, основанный на принципах перцептрона Розенблатта, достигли в базе данных коэффициента ошибок в лучшем случае 0,42 процента. [19]
Некоторые исследователи тестировали системы искусственного интеллекта , используя базу данных, подвергшуюся случайным искажениям. Системы в этих случаях обычно представляют собой нейронные сети, и используемые искажения имеют тенденцию быть либо аффинными , либо упругими искажениями . [7] Иногда эти системы могут быть очень успешными; одна такая система достигла уровня ошибок в базе данных 0,39 процента. [20]
В 2011 году исследователи, использующие аналогичную систему нейронных сетей, сообщили о коэффициенте ошибок 0,27 процента, что улучшило предыдущий лучший результат. [21] В 2013 году было заявлено, что подход, основанный на регуляризации нейронных сетей с использованием DropConnect, обеспечивает коэффициент ошибок 0,21 процента. [22] В 2016 году лучшая производительность одиночной сверточной нейронной сети составила 0,25 процента ошибок. [23] По состоянию на август 2018 года лучшая производительность одиночной сверточной нейронной сети, обученной на обучающих данных MNIST без увеличения данных, составляет 0,25 процента ошибок. [23] [24] Кроме того, Центр параллельных вычислений (Хмельницкий, Украина) получил ансамбль всего из 5 сверточных нейронных сетей, который работает на MNIST с коэффициентом ошибок 0,21 процента. [25] [26]
Классификаторы
[ редактировать ]Это таблица некоторых методов машинного обучения , используемых в наборе данных, и их частоты ошибок по типам классификаторов :
Тип | Классификатор | Искажение | Предварительная обработка | Коэффициент ошибок (%) |
---|---|---|---|---|
Нейронная сеть | Туннелирование градиентного спуска | Никто | Никто | 0 [27] |
Линейный классификатор | Попарный линейный классификатор | Никто | Устранение перекосов | 7.6 [10] |
K-Ближайшие соседи | К-НН с жесткими преобразованиями | Никто | Никто | 0.96 [28] |
K-Ближайшие соседи | К-НН с нелинейным деформированием (П2ДХМДМ) | Никто | Сдвигаемые края | 0.52 [29] |
Усиленные пни | Произведение пней по характеристикам Хаара | Никто | Ее особенности | 0.87 [30] |
Нелинейный классификатор | 40 PCA + квадратичный классификатор | Никто | Никто | 3.3 [10] |
Случайный лес | Быстрые унифицированные случайные леса для выживания, регрессии и классификации (RF-SRC) [31] | Никто | Простая статистическая важность пикселей | 2.8 [32] |
Машина опорных векторов (SVM) | Виртуальный SVM , полигон 9 градусов, дрожание 2 пикселя | Никто | Устранение перекосов | 0.56 [33] |
Нейронная сеть | 2-слойный 784-800-10 | Никто | Никто | 1.6 [34] |
Нейронная сеть | 2-слойный 784-800-10 | Упругие искажения | Никто | 0.7 [34] |
Глубокая нейронная сеть (DNN) | 6-слойный 784-2500-2000-1500-1000-500-10 | Упругие искажения | Никто | 0.35 [35] |
Сверточная нейронная сеть (CNN) | 6-слойный 784-40-80-500-1000-2000-10 | Никто | Расширение обучающих данных | 0.31 [36] |
Сверточная нейронная сеть | 6-слойный 784-50-100-500-1000-10-10 | Никто | Расширение обучающих данных | 0.27 [37] |
Сверточная нейронная сеть (CNN) | 13-слойный 64-128(5х)-256(3х)-512-2048-256-256-10 | Никто | Никто | 0.25 [23] |
Сверточная нейронная сеть | Комитет 35 CNN, 1-20-P-40-P-150-10 | Упругие искажения | Нормализация ширины | 0.23 [18] |
Сверточная нейронная сеть | Комитет 5 CNN, 6-слойный 784-50-100-500-1000-10-10 | Никто | Расширение обучающих данных | 0.21 [25] [26] |
Сверточная нейронная сеть | Комитет 20 CNNS с сетями сжатия и возбуждения [38] | Никто | Увеличение данных | 0.17 [39] |
Сверточная нейронная сеть | Ансамбль из 3 CNN с разными размерами ядра | Никто | Увеличение данных, состоящее из вращения и перевода | 0.09 [40] |
См. также
[ редактировать ]- Список наборов данных для исследований в области машинного обучения
- Калтех 101
- LabelMe
- оптическое распознавание символов
Ссылки
[ редактировать ]- ^ «База рукописных цифр MNIST» . Янн ЛеКун , Институт Куранта, Нью-Йоркский университет Коринна Кортес, Google Labs, Нью-Йорк Кристофер Дж. К. Берджес, Microsoft Research, Редмонд.
- ^ «Опорные векторные машины распознавания образов скорости — Vision Systems Design» . Проектирование систем технического зрения . Сентябрь 2004 года . Проверено 17 августа 2013 г.
- ^ Гангапутра, Сачин. «База данных рукописных цифр» . Проверено 17 августа 2013 г.
- ^ Цяо, Ю (2007). «База рукописных цифр MNIST» . Проверено 18 августа 2013 г.
- ^ Платт, Джон К. (1999). «Использование аналитического QP и разреженности для ускорения обучения машин опорных векторов» (PDF) . Достижения в области нейронных систем обработки информации : 557–563. Архивировано из оригинала (PDF) 4 марта 2016 года . Проверено 18 августа 2013 г.
- ^ Гротер, Патрик Дж. «Специальная база данных 19 NIST — база данных рукописных форм и символов» (PDF) . Национальный институт стандартов и технологий .
- ^ Jump up to: а б с д и ж ЛеКун, Янн; Кортес, Коринна; Берджес, Кристофер Си Джей «База данных рукописных цифр MNIST» . Веб-сайт Яна Лекуна yann.lecun.com . Проверено 30 апреля 2020 г.
- ^ Куссул, Эрнст; Байдык, Татьяна (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST». Вычисление изображений и зрительных образов . 22 (12): 971–981. дои : 10.1016/j.imavis.2004.03.008 .
- ^ Чжан, Бинь; Шрихари, Саргур Н. (2004). «Быстрая классификация k -ближайших соседей с использованием деревьев на основе кластеров» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 26 (4): 525–528. дои : 10.1109/TPAMI.2004.1265868 . ПМИД 15382657 . S2CID 6883417 . Проверено 20 апреля 2020 г.
- ^ Jump up to: а б с д ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. дои : 10.1109/5.726791 . S2CID 14542261 . Проверено 18 августа 2013 г.
- ^ НИСТ (4 апреля 2017 г.). «Набор данных EMNIST» . НИСТ . Проверено 11 апреля 2022 г.
- ^ НИСТ (27 августа 2010 г.). «Специальная база данных NIST 19» . НИСТ . Проверено 11 апреля 2022 г.
- ^ Коэн, Г.; Афшар, С.; Тэпсон, Дж.; ван Шайк, А. (2017). «EMNIST: расширение MNIST на рукописные письма». arXiv : 1702.05373 [ cs.CV ].
- ^ Коэн, Г.; Афшар, С.; Тэпсон, Дж.; ван Шайк, А. (2017). «EMNIST: расширение MNIST на рукописные письма». arXiv : 1702.05373v1 [ cs.CV ].
- ^ Мюллер, Николас М.; Маркерт, Карла (июль 2019 г.). Идентификация неправильно помеченных экземпляров в наборах классификационных данных . Международная совместная конференция по нейронным сетям 2019 г. (IJCNN). IEEE. стр. 1–8. arXiv : 1912.05283 . дои : 10.1109/IJCNN.2019.8851920 . ISBN 978-1-7281-1985-4 .
- ^ Ботту, Леон; Кортес, Коринна; Денкер, Джон С.; Друкер, Харрис; Гийон, Изабель; Джекель, LD; ЛеКун, Ю.; Мюллер, Украина; Сакингер, Э.; Симард, П.; Вапник, В. (1994). «Сравнение методов классификатора: пример распознавания рукописных цифр». Материалы 12-й Международной конференции IAPR по распознаванию образов (кат. № 94CH3440-5) . Том. 2. Иерусалим, Израиль. стр. 77–82. дои : 10.1109/ICPR.1994.576879 . ISBN 0-8186-6270-0 .
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - ^ Ядав, Чхави; Ботту, Леон (2019). «Нераскрытое дело: потерянные цифры MNIST» . Достижения в области нейронных систем обработки информации . 32 . arXiv : 1905.10498 .
Статья содержит подробную историю и реконструкцию выброшенного тестового набора.
- ^ Jump up to: а б Чиресён, Дэн; Ули Мейер; Юрген Шмидхубер (2012). «Многостолбцовые глубокие нейронные сети для классификации изображений» (PDF) . Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110 . ISBN 978-1-4673-1228-8 . S2CID 2161592 .
- ^ Куссул, Эрнст; Татьяна Байдык (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST» (PDF) . Вычисление изображений и зрительных образов . 22 (12): 971–981. дои : 10.1016/j.imavis.2004.03.008 . Архивировано из оригинала (PDF) 21 сентября 2013 года . Проверено 20 сентября 2013 г.
- ^ Ранзато, Марк'Аурелио; Кристофер Поултни; Сумит Чопра; Янн ЛеКун (2006). «Эффективное изучение разреженных представлений с помощью энергетической модели» (PDF) . Достижения в области нейронных систем обработки информации . 19 :1137–1144 . Проверено 20 сентября 2013 г.
- ^ Чиресан, Дэн Клаудиу; Ули Мейер; Лука Мария Гамбарделла; Юрген Шмидхубер (2011). «Комитеты сверточных нейронных сетей для классификации рукописных символов» (PDF) . 2011 Международная конференция по анализу и распознаванию документов (ICDAR) . стр. 1135–1139. CiteSeerX 10.1.1.465.2138 . дои : 10.1109/ICDAR.2011.229 . ISBN 978-1-4577-1350-7 . S2CID 10122297 . Архивировано из оригинала (PDF) 22 февраля 2016 года . Проверено 20 сентября 2013 г.
- ^ Ван, Ли; Мэтью Зейлер; Сиксин Чжан; Ян ЛеКун; Роб Фергюс (2013). Регуляризация нейронной сети с помощью DropConnect . Международная конференция по машинному обучению (ICML).
- ^ Jump up to: а б с СимплНет (2016). «Давайте будем проще, используя простые архитектуры, чтобы превзойти по производительности более глубокие и сложные архитектуры» . arXiv : 1608.06037 . Проверено 3 декабря 2020 г.
- ^ СимпНет (2018). «На пути к принципиальному проектированию глубоких сверточных сетей: введение в SimpNet» . Гитхаб . arXiv : 1802.06205 . Проверено 3 декабря 2020 г.
- ^ Jump up to: а б Романюк, Вадим. «Параллельный вычислительный центр (Хмельницкий, Украина) представляет собой ансамбль из 5 сверточных нейронных сетей, который работает на MNIST с коэффициентом ошибок 0,21 процента» . Проверено 24 ноября 2016 г.
- ^ Jump up to: а б Романуке, Вадим (2016). «Расширение обучающих данных и усиление сверточных нейронных сетей для снижения частоты ошибок в наборе данных MNIST» . Научно-исследовательский вестник НТУУ «Киевский политехнический институт» . 6 (6): 29–34. дои : 10.20535/1810-0546.2016.6.84115 .
- ^ Дэн, Бо (26 декабря 2023 г.). «Безошибочное обучение искусственной нейронной сети». arXiv : 2312.16060 [ cs.LG ].
- ^ Линдблад, Йоаким; Наташа Сладое (январь 2014 г.). «Линейные временные расстояния между нечеткими множествами с применением к сопоставлению с образцом и классификации». Транзакции IEEE при обработке изображений . 23 (1): 126–136. Бибкод : 2014ИТИП...23..126Л . дои : 10.1109/TIP.2013.2286904 . ПМИД 24158476 . S2CID 1908950 .
- ^ Кейзерс, Дэниел; Томас Деселерс; Кристиан Голлан; Герман Ней (август 2007 г.). «Модели деформации для распознавания изображений». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 29 (8): 1422–1435. CiteSeerX 10.1.1.106.3963 . дои : 10.1109/TPAMI.2007.1153 . ПМИД 17568145 . S2CID 2528485 .
- ^ Кегль, Балаж; Роберт Буса-Фекете (2009). «Продукты базовых классификаторов» (PDF) . Материалы 26-й ежегодной международной конференции по машинному обучению . стр. 497–504. дои : 10.1145/1553374.1553439 . ISBN 9781605585161 . S2CID 8460779 . Проверено 27 августа 2013 г.
- ^ «RandomForestSRC: быстрые унифицированные случайные леса для выживания, регрессии и классификации (RF-SRC)» . 21 января 2020 г.
- ^ «Мехрад Махмудян / MNIST совместно с RandomForest» .
- ^ Декост, Деннис; Шёлкопф, Бернхард (2002). «Обучение машин инвариантных опорных векторов» . Машинное обучение . 46 (1–3): 161–190. дои : 10.1023/А:1012454411458 . ISSN 0885-6125 . OCLC 703649027 .
- ^ Jump up to: а б Патрис Ю. Симард; Дэйв Стейнкраус; Джон К. Платт (2003). «Лучшие практики использования сверточных нейронных сетей применительно к визуальному анализу документов» . Материалы Седьмой Международной конференции по анализу и распознаванию документов . Том. 1. Институт инженеров электротехники и электроники . п. 958. дои : 10.1109/ICDAR.2003.1227801 . ISBN 978-0-7695-1960-9 . S2CID 4659176 .
- ^ Чиресан, Клаудиу Дан; Ули Мейер; Лука Мария Гамбарделла; Юрген Шмидхубер (декабрь 2010 г.). «Глубокие большие простые нейронные сети превосходны в распознавании рукописных цифр». Нейронные вычисления . 22 (12): 3207–20. arXiv : 1003.0358 . дои : 10.1162/NECO_a_00052 . ПМИД 20858131 . S2CID 1918673 .
- ^ Романюк, Вадим. «Лучшая производительность одиночной сверточной нейронной сети за 18 эпох на расширенных обучающих данных в Параллельном вычислительном центре, Хмельницкий, Украина» . Проверено 16 ноября 2016 г. .
- ^ Романюк, Вадим. «Параллельный вычислительный центр (Хмельницкий, Украина) предоставляет единственную сверточную нейронную сеть, работающую на MNIST с коэффициентом ошибок 0,27 процента» . Проверено 24 ноября 2016 г.
- ^ Ху, Цзе; Шен, Ли; Олбани, Сэмюэл; Солнце, Банда; Ву, Эньхуа (2019). «Сети сжатия и возбуждения». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 42 (8): 2011–2023. arXiv : 1709.01507 . дои : 10.1109/TPAMI.2019.2913372 . ПМИД 31034408 . S2CID 140309863 .
- ^ «GitHub — Matuzas77/MNIST-0.17: классификатор MNIST со средней ошибкой 0,17%» . Гитхаб . 25 февраля 2020 г.
- ^ Ан, Санхён; Ли, Минджун; Парк, Сангли; Ян, Хирин; Итак, Чонмин (04.10.2020). «Ансамбль простых моделей сверточных нейронных сетей для распознавания цифр MNIST». arXiv : 2008.10400 [ cs.CV ].
Дальнейшее чтение
[ редактировать ]- Чиресан, Дэн; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений» (PDF) . Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике . стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110 . ISBN 9781467312264 . OCLC 812295155 . S2CID 2161592 . Проверено 9 декабря 2013 г.
Внешние ссылки
[ редактировать ]- Официальный сайт
- Визуализация базы данных MNIST — группы изображений рукописных цифр MNIST на GitHub