Увеличение данных

Увеличение данных — это статистический метод, который позволяет оценить максимальное правдоподобие на основе неполных данных. ^[1]^[2] Увеличение данных имеет важные применения в байесовском анализе . ^[3] и этот метод широко используется в машинном обучении , чтобы уменьшить переобучение при обучении моделей машинного обучения, ^[4] достигается путем обучения моделей на нескольких слегка измененных копиях существующих данных.

Методы синтетической передискретизации обучения для традиционного машинного

Метод синтетической избыточной выборки меньшинства (SMOTE) — это метод, используемый для устранения несбалансированных наборов данных в машинном обучении. В таких наборах данных количество выборок в разных классах значительно различается, что приводит к смещению производительности модели. Например, в наборе данных медицинского диагноза, состоящем из 90 образцов, представляющих здоровых людей, и только 10 образцов, представляющих людей с определенным заболеванием, традиционные алгоритмы могут с трудом точно классифицировать класс меньшинства. SMOTE меняет баланс набора данных, генерируя синтетические выборки для класса меньшинства. Например, если имеется 100 выборок в классе большинства и 10 в классе меньшинства, SMOTE может создавать синтетические выборки, случайным образом выбирая выборку класса меньшинства и ее ближайших соседей, а затем генерируя новые выборки вдоль отрезков линий, соединяющих этих соседей. Этот процесс помогает увеличить представительство класса меньшинства, улучшая производительность модели. ^[5]

данных для классификации изображений Увеличение

Когда в середине 1990-х годов сверточные нейронные сети стали больше, возникла нехватка данных для использования, особенно если учесть, что некоторую часть общего набора данных следует сохранить для последующего тестирования. Было предложено исказить существующие данные с помощью аффинных преобразований, чтобы создать новые примеры с теми же метками, ^[6] которые были дополнены так называемыми упругими искажениями в 2003 г., ^[7] и этот метод широко использовался с 2010-х годов. ^[8] Увеличение данных может повысить производительность CNN и выступать в качестве контрмеры против атак с профилированием CNN. ^[9]

Расширение данных стало основополагающим в классификации изображений, увеличивая разнообразие наборов обучающих данных для улучшения обобщения и производительности модели. Эволюция этой практики привела к появлению широкого спектра методов, включая геометрические преобразования, настройку цветового пространства и введение шума. ^[10]

Геометрические преобразования [ править ]

Геометрические преобразования изменяют пространственные свойства изображений для имитации различных перспектив, ориентаций и масштабов. Общие методы включают в себя:

Вращение: поворот изображений на определенный градус, чтобы помочь моделям распознавать объекты под разными углами.
Переворот: отражение изображений по горизонтали или вертикали для изменения ориентации.
Обрезка: удаление частей изображения, чтобы сосредоточиться на определенных функциях или имитировать более близкие виды.
Перевод: Смещение изображений в разных направлениях для обучения модели позиционной инвариантности.

пространства Преобразования цветового

Преобразования цветового пространства изменяют цветовые свойства изображений, устраняя различия в освещении, цветовой насыщенности и контрастности. Методы включают в себя:

Регулировка яркости: изменение яркости изображения для имитации различных условий освещения.
Регулировка контраста: изменение контраста, чтобы помочь моделям распознавать объекты с различными уровнями четкости.
Регулировка насыщенности: изменение насыщенности для подготовки моделей к изображениям с различной интенсивностью цвета.
Дрожание цвета: произвольная регулировка яркости, контрастности, насыщенности и оттенка для обеспечения изменчивости цвета.

Шумовая инъекция [ править ]

Внесение шума в изображения имитирует несовершенства реального мира, обучая модели игнорировать ненужные вариации. Техники включают в себя:

Гауссов шум: добавление гауссова шума имитирует шум датчика или зернистость.
Шум соли и перца: добавление черных или белых пикселей случайное имитирует пыль на сенсоре или битые пиксели .

Увеличение данных для обработки сигналов [ править ]

Остаточный или блочный бутстрап можно использовать для увеличения временных рядов.

Биологические сигналы [ править ]

Синтетическое увеличение данных имеет первостепенное значение для классификации машинного обучения, особенно для биологических данных, которые, как правило, имеют большую размерность и скудны. Применение роботизированного управления и аугментации у людей с ограниченными возможностями и трудоспособных людей по-прежнему в основном основано на анализе конкретных предметов. Нехватка данных заметна при проблемах обработки сигналов, таких как сигналы электромиографии при болезни Паркинсона , источник которых трудно найти - Занини и др. отметили, что можно использовать генеративно-состязательную сеть (в частности, DCGAN) для передачи стиля с целью генерации синтетических электромиографических сигналов, соответствующих тем, которые наблюдаются у страдающих болезнью Паркинсона. ^[11]

Эти подходы также важны для электроэнцефалографии (мозговых волн). Ван и др. исследовали идею использования глубоких сверточных нейронных сетей для распознавания эмоций на основе ЭЭГ. Результаты показывают, что распознавание эмоций улучшалось при использовании увеличения данных. ^[12]

Распространенный подход заключается в генерации синтетических сигналов путем перестановки компонентов реальных данных. Лотте ^[13] предложил метод «искусственной генерации проб на основе аналогии» , в котором три примера данных $x_{1},x_{2},x_{3}$ приведите примеры и искусственное $x_{synthetic}$ формируется то, что $x_{3}$ что $x_{2}$ это $x_{1}$ . Преобразование применяется к $x_{1}$ чтобы сделать его более похожим на $x_{2}$ то же преобразование затем применяется к $x_{3}$ который генерирует $x_{synthetic}$ . Было показано, что этот подход повышает производительность классификатора линейного дискриминантного анализа на трех различных наборах данных.

Текущие исследования показывают, что относительно простые методы могут дать большой эффект. Например, Фрир ^[14] заметил, что введение шума в собранные данные для формирования дополнительных точек данных улучшило способность к обучению нескольких моделей, которые в противном случае работали относительно плохо. Цинганос и др. ^[15] изучили подходы к искажению величины, вейвлет-разложению и синтетическим поверхностным моделям ЭМГ (генеративные подходы) для распознавания жестов рук, обнаружив, что эффективность классификации увеличивается до + 16% при вводе дополненных данных во время обучения. Совсем недавно исследования по дополнению данных начали сосредотачиваться на области глубокого обучения, а точнее на способности генеративных моделей создавать искусственные данные, которые затем вводятся в процессе обучения модели классификации. В 2018 году Луо и др. ^[16] заметил, что полезные данные сигнала ЭЭГ могут быть сгенерированы с помощью условных генеративно-состязательных сетей Вассерштейна (GAN), которые затем были представлены в обучающем наборе в классической структуре обучения с использованием обучающих тестов. Авторы обнаружили, что эффективность классификации улучшилась, когда были внедрены такие методы.

Механические сигналы [ править ]

Прогнозирование механических сигналов на основе увеличения данных приносит новое поколение технологических инноваций, таких как новая диспетчеризация энергии, область связи 5G и техника управления робототехникой. ^[17] В 2022 году Ян и др. ^[17] интегрируйте ограничения, оптимизацию и контроль в глубокую сетевую структуру, основанную на увеличении и сокращении данных с пространственно-временной корреляцией данных, а также улучшите интерпретируемость, безопасность и управляемость глубокого обучения в реальных промышленных проектах с помощью явных уравнений математического программирования и аналитических решений.

См. также [ править ]

Ссылки [ править ]

^ Демпстер, AP; Лэрд, Нью-Мексико; Рубин, Д.Б. (1977). «Максимальное правдоподобие на основе неполных данных с помощью алгоритма EM» . Журнал Королевского статистического общества. Серия Б (Методическая) . 39 (1): 1–22. дои : 10.1111/j.2517-6161.1977.tb01600.x .
^ Рубин, Дональд (1987). «Комментарий: расчет апостериорных распределений путем увеличения данных» . Журнал Американской статистической ассоциации . 82 (398). дои : 10.2307/2289460 . JSTOR 2289460 .
^ Джекман, Саймон (2009). Байесовский анализ для социальных наук . Джон Уайли и сыновья. п. 236. ИСБН 978-0-470-01154-6 .
^ Шортен, Коннор; Хошгофтаар, Таги М. (2019). «Опрос по увеличению данных изображений для глубокого обучения» . Математика и компьютеры в моделировании . 6 . Спрингер: 60. doi : 10.1186/s40537-019-0197-0 .
^ Ван, Шуцзюань; Дай, Юнтао; Шен, Цзихун; Сюань, Цзинсюэ (15 декабря 2021 г.). «Исследование по расширению и классификации несбалансированных данных на основе алгоритма SMOTE» . Научные отчеты . 11 (1): 24039. Бибкод : 2021NatSR..1124039W . дои : 10.1038/s41598-021-03430-5 . ISSN 2045-2322 . ПМЦ 8674253 . ПМИД 34912009 .
^ Ян Лекун; и др. (1995). Алгоритмы обучения классификации: сравнение распознавания рукописных цифр (доклад конференции) . Всемирная научная. стр. 261–276 . Проверено 14 мая 2023 г. {{cite book}}: |website= игнорируется ( помогите )
^ Симард, ПЮ; Стейнкраус, Д.; Платт, Дж. К. (2003). «Лучшие практики использования сверточных нейронных сетей применительно к визуальному анализу документов». Седьмая международная конференция по анализу и распознаванию документов, 2003 г. Материалы . Том. 1. С. 958–963. дои : 10.1109/ICDAR.2003.1227801 . ISBN 0-7695-1960-1 . S2CID 4659176 .
^ Хинтон, Джеффри Э.; Шривастава, Нитиш; Крижевский, Алекс; Суцкевер, Илья; Салахутдинов, Руслан Р. (2012). «Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов признаков». arXiv : 1207.0580 [ cs.NE ].
^ Кагли, Элеонора; Дюма, Сесиль; Пруфф, Эммануэль (2017). «Сверточные нейронные сети с увеличением данных против мер противодействия джиттеру: профилирование атак без предварительной обработки» . В Фишере, Виланде; Хомма, Наофуми (ред.). Криптографическое оборудование и встраиваемые системы – CHES 2017 . Конспекты лекций по информатике. Том. 10529. Чам: Springer International Publishing. стр. 45–68. дои : 10.1007/978-3-319-66787-4_3 . ISBN 978-3-319-66787-4 . S2CID 54088207 .
^ Шортен, Коннор; Хошгофтаар, Таги М. (6 июля 2019 г.). «Опрос по увеличению данных изображений для глубокого обучения» . Журнал больших данных . 6 (1): 60. дои : 10.1186/s40537-019-0197-0 . ISSN 2196-1115 .
^ Анисет Занини, Рафаэль; Луна Коломбини, Эстер (2020). «Увеличение и моделирование данных ЭМГ болезни Паркинсона с помощью DCGAN и переноса стиля» . Датчики . 20 (9): 2605. Бибкод : 2020Senso..20.2605A . дои : 10.3390/s20092605 . ISSN 1424-8220 . ПМЦ 7248755 . ПМИД 32375217 .
^ Ван, Фанг; Чжун, Шэн-хуа; Пэн, Цзяньфэн; Цзян, Цзяньминь; Лю, Ян (2018). «Увеличение данных для распознавания эмоций на основе ЭЭГ с помощью глубоких сверточных нейронных сетей». Мультимедийное моделирование . Конспекты лекций по информатике. Том. 10705. стр. 82–93. дои : 10.1007/978-3-319-73600-6_8 . ISBN 978-3-319-73599-3 . ISSN 0302-9743 .
^ Лотте, Фабьен (2015). «Подходы к обработке сигналов для минимизации или подавления времени калибровки в интерфейсах мозг-компьютер, основанных на колебательной активности» (PDF) . Труды IEEE . 103 (6): 871–890. дои : 10.1109/JPROC.2015.2404941 . ISSN 0018-9219 . S2CID 22472204 .
^ Фрир, Дэниел; Ян, Гуан-Чжун (2020). «Увеличение данных для самостоятельной классификации изображений движений с помощью C-LSTM». Журнал нейронной инженерии . 17 (1): 016041. Бибкод : 2020JNEng..17a6041F . дои : 10.1088/1741-2552/ab57c0 . hdl : 10044/1/75376 . ISSN 1741-2552 . PMID 31726440 . S2CID 208034533 .
^ Цинганос, Панайотис; Корнелис, Бруно; Корнелис, Ян; Янсен, Барт; Скодрас, Афанассиос (2020). «Расширение данных поверхностной электромиографии для распознавания жестов рук» . Датчики . 20 (17): 4892. Бибкод : 2020Senso..20.4892T . дои : 10.3390/s20174892 . ISSN 1424-8220 . ПМК 7506981 . ПМИД 32872508 .
^ Ло, Юн; Лу, Бао-Лян (2018). «Увеличение данных ЭЭГ для распознавания эмоций с использованием условного GAN Вассерштейна». 2018 40-я ежегодная международная конференция Общества инженерии в медицине и биологии IEEE (EMBC) . Том. 2018. С. 2535–2538. дои : 10.1109/EMBC.2018.8512865 . ISBN 978-1-5386-3646-6 . ПМИД 30440924 . S2CID 53105445 .
↑ Перейти обратно: Перейти обратно: ^а ^б Ян, Ян (2022). «Прогнозирование скорости ветра с сокращением и увеличением корреляционной сети: двухэтапный метод глубокого обучения». Возобновляемая энергия . 198 (1): 267–282. arXiv : 2306.01986 . doi : 10.1016/j.renene.2022.07.125 . ISSN 0960-1481 . S2CID 251511199 .

[1] Демпстер, AP; Лэрд, Нью-Мексико; Рубин, Д.Б. (1977). «Максимальное правдоподобие на основе неполных данных с помощью алгоритма EM» . Журнал Королевского статистического общества. Серия Б (Методическая) . 39 (1): 1–22. дои : 10.1111/j.2517-6161.1977.tb01600.x .

[2] Рубин, Дональд (1987). «Комментарий: расчет апостериорных распределений путем увеличения данных» . Журнал Американской статистической ассоциации . 82 (398). дои : 10.2307/2289460 . JSTOR 2289460 .

[3] Джекман, Саймон (2009). Байесовский анализ для социальных наук . Джон Уайли и сыновья. п. 236. ИСБН 978-0-470-01154-6 .

[Big_Data_2019_6:60-4] Шортен, Коннор; Хошгофтаар, Таги М. (2019). «Опрос по увеличению данных изображений для глубокого обучения» . Математика и компьютеры в моделировании . 6 . Спрингер: 60. doi : 10.1186/s40537-019-0197-0 .

[5] Ван, Шуцзюань; Дай, Юнтао; Шен, Цзихун; Сюань, Цзинсюэ (15 декабря 2021 г.). «Исследование по расширению и классификации несбалансированных данных на основе алгоритма SMOTE» . Научные отчеты . 11 (1): 24039. Бибкод : 2021NatSR..1124039W . дои : 10.1038/s41598-021-03430-5 . ISSN 2045-2322 . ПМЦ 8674253 . ПМИД 34912009 .

[6] Ян Лекун; и др. (1995). Алгоритмы обучения классификации: сравнение распознавания рукописных цифр (доклад конференции) . Всемирная научная. стр. 261–276 . Проверено 14 мая 2023 г. {{cite book}}: |website= игнорируется ( помогите )

[7] Симард, ПЮ; Стейнкраус, Д.; Платт, Дж. К. (2003). «Лучшие практики использования сверточных нейронных сетей применительно к визуальному анализу документов». Седьмая международная конференция по анализу и распознаванию документов, 2003 г. Материалы . Том. 1. С. 958–963. дои : 10.1109/ICDAR.2003.1227801 . ISBN 0-7695-1960-1 . S2CID 4659176 .

[8] Хинтон, Джеффри Э.; Шривастава, Нитиш; Крижевский, Алекс; Суцкевер, Илья; Салахутдинов, Руслан Р. (2012). «Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов признаков». arXiv : 1207.0580 [ cs.NE ].

[9] Кагли, Элеонора; Дюма, Сесиль; Пруфф, Эммануэль (2017). «Сверточные нейронные сети с увеличением данных против мер противодействия джиттеру: профилирование атак без предварительной обработки» . В Фишере, Виланде; Хомма, Наофуми (ред.). Криптографическое оборудование и встраиваемые системы – CHES 2017 . Конспекты лекций по информатике. Том. 10529. Чам: Springer International Publishing. стр. 45–68. дои : 10.1007/978-3-319-66787-4_3 . ISBN 978-3-319-66787-4 . S2CID 54088207 .

[10] Шортен, Коннор; Хошгофтаар, Таги М. (6 июля 2019 г.). «Опрос по увеличению данных изображений для глубокого обучения» . Журнал больших данных . 6 (1): 60. дои : 10.1186/s40537-019-0197-0 . ISSN 2196-1115 .

[Anicet_ZaniniLuna_Colombini2020-11] Анисет Занини, Рафаэль; Луна Коломбини, Эстер (2020). «Увеличение и моделирование данных ЭМГ болезни Паркинсона с помощью DCGAN и переноса стиля» . Датчики . 20 (9): 2605. Бибкод : 2020Senso..20.2605A . дои : 10.3390/s20092605 . ISSN 1424-8220 . ПМЦ 7248755 . ПМИД 32375217 .

[WangZhong2018-12] Ван, Фанг; Чжун, Шэн-хуа; Пэн, Цзяньфэн; Цзян, Цзяньминь; Лю, Ян (2018). «Увеличение данных для распознавания эмоций на основе ЭЭГ с помощью глубоких сверточных нейронных сетей». Мультимедийное моделирование . Конспекты лекций по информатике. Том. 10705. стр. 82–93. дои : 10.1007/978-3-319-73600-6_8 . ISBN 978-3-319-73599-3 . ISSN 0302-9743 .

[Lotte2015-13] Лотте, Фабьен (2015). «Подходы к обработке сигналов для минимизации или подавления времени калибровки в интерфейсах мозг-компьютер, основанных на колебательной активности» (PDF) . Труды IEEE . 103 (6): 871–890. дои : 10.1109/JPROC.2015.2404941 . ISSN 0018-9219 . S2CID 22472204 .

[FreerYang2020-14] Фрир, Дэниел; Ян, Гуан-Чжун (2020). «Увеличение данных для самостоятельной классификации изображений движений с помощью C-LSTM». Журнал нейронной инженерии . 17 (1): 016041. Бибкод : 2020JNEng..17a6041F . дои : 10.1088/1741-2552/ab57c0 . hdl : 10044/1/75376 . ISSN 1741-2552 . PMID 31726440 . S2CID 208034533 .

[TsinganosCornelis2020-15] Цинганос, Панайотис; Корнелис, Бруно; Корнелис, Ян; Янсен, Барт; Скодрас, Афанассиос (2020). «Расширение данных поверхностной электромиографии для распознавания жестов рук» . Датчики . 20 (17): 4892. Бибкод : 2020Senso..20.4892T . дои : 10.3390/s20174892 . ISSN 1424-8220 . ПМК 7506981 . ПМИД 32872508 .

[LuoLu2018-16] Ло, Юн; Лу, Бао-Лян (2018). «Увеличение данных ЭЭГ для распознавания эмоций с использованием условного GAN Вассерштейна». 2018 40-я ежегодная международная конференция Общества инженерии в медицине и биологии IEEE (EMBC) . Том. 2018. С. 2535–2538. дои : 10.1109/EMBC.2018.8512865 . ISBN 978-1-5386-3646-6 . ПМИД 30440924 . S2CID 53105445 .

[YangYang2022-17] Перейти обратно: Перейти обратно: ^а ^б Ян, Ян (2022). «Прогнозирование скорости ветра с сокращением и увеличением корреляционной сети: двухэтапный метод глубокого обучения». Возобновляемая энергия . 198 (1): 267–282. arXiv : 2306.01986 . doi : 10.1016/j.renene.2022.07.125 . ISSN 0960-1481 . S2CID 251511199 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]