Увеличение данных

Из Википедии, бесплатной энциклопедии

Увеличение данных — это статистический метод, который позволяет оценить максимальное правдоподобие на основе неполных данных. [1] [2] Увеличение данных имеет важные применения в байесовском анализе . [3] и этот метод широко используется в машинном обучении , чтобы уменьшить переобучение при обучении моделей машинного обучения, [4] достигается путем обучения моделей на нескольких слегка измененных копиях существующих данных.

синтетической передискретизации для машинного обучения традиционного Методы

Метод синтетической избыточной выборки меньшинства (SMOTE) — это метод, используемый для устранения несбалансированных наборов данных в машинном обучении. В таких наборах данных количество выборок в разных классах значительно различается, что приводит к смещению производительности модели. Например, в наборе данных медицинского диагноза, состоящем из 90 образцов, представляющих здоровых людей, и только 10 образцов, представляющих людей с определенным заболеванием, традиционные алгоритмы могут с трудом точно классифицировать класс меньшинства. SMOTE меняет баланс набора данных, генерируя синтетические выборки для класса меньшинства. Например, если имеется 100 выборок в классе большинства и 10 в классе меньшинства, SMOTE может создавать синтетические выборки, случайным образом выбирая выборку класса меньшинства и ее ближайших соседей, а затем генерируя новые выборки вдоль отрезков линий, соединяющих этих соседей. Этот процесс помогает увеличить представительство класса меньшинства, улучшая производительность модели. [5]

данных для классификации Увеличение изображений

Когда в середине 1990-х годов сверточные нейронные сети стали больше, возникла нехватка данных для использования, особенно если учесть, что некоторую часть общего набора данных следует сохранить для последующего тестирования. Было предложено исказить существующие данные с помощью аффинных преобразований, чтобы создать новые примеры с теми же метками, [6] которые были дополнены так называемыми упругими искажениями в 2003 г., [7] и этот метод широко использовался с 2010-х годов. [8] Увеличение данных может повысить производительность CNN и выступать в качестве контрмеры против атак с профилированием CNN. [9]

Увеличение данных стало основополагающим в классификации изображений, увеличивая разнообразие наборов обучающих данных для улучшения обобщения и производительности модели. Эволюция этой практики привела к появлению широкого спектра методов, включая геометрические преобразования, настройку цветового пространства и введение шума. [10]

Геометрические преобразования [ править ]

Геометрические преобразования изменяют пространственные свойства изображений для имитации различных перспектив, ориентаций и масштабов. Общие методы включают в себя:

  • Вращение: поворот изображений на определенный градус, чтобы помочь моделям распознавать объекты под разными углами.
  • Переворот: отражение изображений по горизонтали или вертикали для изменения ориентации.
  • Обрезка: удаление частей изображения, чтобы сосредоточиться на определенных функциях или имитировать более близкие виды.
  • Перевод: Смещение изображений в разных направлениях для обучения модели позиционной инвариантности.

цветового Преобразования пространства

Преобразования цветового пространства изменяют цветовые свойства изображений, устраняя различия в освещении, цветовой насыщенности и контрастности. Методы включают в себя:

  • Регулировка яркости: изменение яркости изображения для имитации различных условий освещения.
  • Регулировка контраста: изменение контраста, чтобы помочь моделям распознавать объекты с различными уровнями четкости.
  • Регулировка насыщенности: изменение насыщенности для подготовки моделей к изображениям с различной интенсивностью цвета.
  • Цветовое дрожание: случайная регулировка яркости, контрастности, насыщенности и оттенка для обеспечения изменчивости цвета.

Шумовая инъекция [ править ]

Внесение шума в изображения имитирует несовершенства реального мира, обучая модели игнорировать ненужные вариации. Техники включают в себя:

Увеличение данных для обработки сигналов [ править ]

Остаточный или блочный бутстрап можно использовать для увеличения временных рядов.

Биологические сигналы [ править ]

Синтетическое увеличение данных имеет первостепенное значение для классификации машинного обучения, особенно для биологических данных, которые, как правило, имеют большую размерность и скудны. Применение роботизированного управления и аугментации у людей с ограниченными возможностями и трудоспособных людей по-прежнему в основном основано на анализе конкретных предметов. при болезни Паркинсона Нехватка данных заметна при проблемах обработки сигналов, таких как сигналы электромиографии , источник которых трудно получить - Занини и др. отметили, что можно использовать генеративно-состязательную сеть (в частности, DCGAN) для передачи стиля с целью генерации синтетических электромиографических сигналов, соответствующих тем, которые наблюдаются у страдающих болезнью Паркинсона. [11]

Эти подходы также важны для электроэнцефалографии (мозговых волн). Ван и др. исследовали идею использования глубоких сверточных нейронных сетей для распознавания эмоций на основе ЭЭГ. Результаты показывают, что распознавание эмоций улучшалось при использовании увеличения данных. [12]

Распространенный подход заключается в генерации синтетических сигналов путем перестановки компонентов реальных данных. Лотте [13] предложил метод «искусственной генерации проб на основе аналогии», в котором три примера данных приведите примеры и искусственное формируется то, что что это . Преобразование применяется к чтобы сделать его более похожим на то же преобразование затем применяется к который генерирует . Было показано, что этот подход повышает производительность классификатора линейного дискриминантного анализа на трех различных наборах данных.

Текущие исследования показывают, что относительно простые методы могут дать большой эффект. Например, Фрир [14] заметил, что введение шума в собранные данные для формирования дополнительных точек данных улучшило способность к обучению нескольких моделей, которые в противном случае работали относительно плохо. Цинганос и др. [15] изучили подходы деформации величины, вейвлет-разложения и синтетических поверхностных моделей ЭМГ (генеративные подходы) для распознавания жестов рук, обнаружив, что эффективность классификации увеличивается до + 16% при вводе дополненных данных во время обучения. Совсем недавно исследования по дополнению данных начали сосредотачиваться на области глубокого обучения, а точнее на способности генеративных моделей создавать искусственные данные, которые затем вводятся в процессе обучения модели классификации. В 2018 году Луо и др. [16] заметил, что полезные данные сигнала ЭЭГ могут быть сгенерированы с помощью условных генеративно-состязательных сетей Вассерштейна (GAN), которые затем были представлены в обучающем наборе в классической системе обучения с использованием обучающих тестов. Авторы обнаружили, что эффективность классификации улучшилась после введения таких методов.

Механические сигналы [ править ]

Прогнозирование механических сигналов на основе увеличения данных приносит новое поколение технологических инноваций, таких как новая диспетчеризация энергии, область связи 5G и техника управления робототехникой. [17] В 2022 году Ян и др. [17] интегрировать ограничения, оптимизацию и контроль в глубокую сетевую структуру, основанную на увеличении и сокращении данных с пространственно-временной корреляцией данных, а также улучшить интерпретируемость, безопасность и управляемость глубокого обучения в реальных промышленных проектах с помощью явных уравнений математического программирования и аналитических решений.

См. также [ править ]

Ссылки [ править ]

  1. ^ Демпстер, AP; Лэрд, Нью-Мексико; Рубин, Д.Б. (1977). «Максимальное правдоподобие на основе неполных данных с помощью алгоритма EM» . Журнал Королевского статистического общества. Серия Б (Методическая) . 39 (1): 1–22. дои : 10.1111/j.2517-6161.1977.tb01600.x .
  2. ^ Рубин, Дональд (1987). «Комментарий: расчет апостериорных распределений путем увеличения данных» . Журнал Американской статистической ассоциации . 82 (398). дои : 10.2307/2289460 . JSTOR   2289460 .
  3. ^ Джекман, Саймон (2009). Байесовский анализ для социальных наук . Джон Уайли и сыновья. п. 236. ИСБН  978-0-470-01154-6 .
  4. ^ Шортен, Коннор; Хошгофтаар, Таги М. (2019). «Опрос по увеличению данных изображений для глубокого обучения» . Математика и компьютеры в моделировании . 6 . Спрингер: 60. doi : 10.1186/s40537-019-0197-0 .
  5. ^ Ван, Шуцзюань; Дай, Юнтао; Шен, Цзихун; Сюань, Цзинсюэ (15 декабря 2021 г.). «Исследование по расширению и классификации несбалансированных данных на основе алгоритма SMOTE» . Научные отчеты . 11 (1): 24039. Бибкод : 2021NatSR..1124039W . дои : 10.1038/s41598-021-03430-5 . ISSN   2045-2322 . ПМЦ   8674253 . ПМИД   34912009 .
  6. ^ Ян Лекун; и другие. (1995). Алгоритмы обучения классификации: сравнение распознавания рукописных цифр (доклад конференции) . Всемирная научная. стр. 261–276 . Проверено 14 мая 2023 г. {{cite book}}: |website= игнорируется ( помогите )
  7. ^ Симард, ПЮ; Стейнкраус, Д.; Платт, Дж. К. (2003). «Лучшие практики использования сверточных нейронных сетей применительно к визуальному анализу документов». Седьмая международная конференция по анализу и распознаванию документов, 2003 г. Материалы . Том. 1. С. 958–963. дои : 10.1109/ICDAR.2003.1227801 . ISBN  0-7695-1960-1 . S2CID   4659176 .
  8. ^ Хинтон, Джеффри Э.; Шривастава, Нитиш; Крижевский, Алекс; Суцкевер, Илья; Салахутдинов, Руслан Р. (2012). «Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов признаков». arXiv : 1207.0580 [ cs.NE ].
  9. ^ Кагли, Элеонора; Дюма, Сесиль; Пруфф, Эммануэль (2017). «Сверточные нейронные сети с увеличением данных против мер противодействия джиттеру: профилирование атак без предварительной обработки» . В Фишере, Виланде; Хомма, Наофуми (ред.). Криптографическое оборудование и встраиваемые системы – CHES 2017 . Конспекты лекций по информатике. Том. 10529. Чам: Springer International Publishing. стр. 45–68. дои : 10.1007/978-3-319-66787-4_3 . ISBN  978-3-319-66787-4 . S2CID   54088207 .
  10. ^ Шортен, Коннор; Хошгофтаар, Таги М. (06 июля 2019 г.). «Опрос по увеличению данных изображений для глубокого обучения» . Журнал больших данных . 6 (1): 60. дои : 10.1186/s40537-019-0197-0 . ISSN   2196-1115 .
  11. ^ Анисет Занини, Рафаэль; Луна Коломбини, Эстер (2020). «Увеличение и моделирование данных ЭМГ болезни Паркинсона с помощью DCGAN и переноса стиля» . Датчики . 20 (9): 2605. Бибкод : 2020Senso..20.2605A . дои : 10.3390/s20092605 . ISSN   1424-8220 . ПМЦ   7248755 . ПМИД   32375217 .
  12. ^ Ван, Фанг; Чжун, Шэн-хуа; Пэн, Цзяньфэн; Цзян, Цзяньминь; Лю, Ян (2018). «Увеличение данных для распознавания эмоций на основе ЭЭГ с помощью глубоких сверточных нейронных сетей». Мультимедийное моделирование . Конспекты лекций по информатике. Том. 10705. стр. 82–93. дои : 10.1007/978-3-319-73600-6_8 . ISBN  978-3-319-73599-3 . ISSN   0302-9743 .
  13. ^ Лотте, Фабьен (2015). «Подходы к обработке сигналов для минимизации или подавления времени калибровки в интерфейсах мозг-компьютер, основанных на колебательной активности» (PDF) . Труды IEEE . 103 (6): 871–890. дои : 10.1109/JPROC.2015.2404941 . ISSN   0018-9219 . S2CID   22472204 .
  14. ^ Фрир, Дэниел; Ян, Гуан-Чжун (2020). «Увеличение данных для самостоятельной классификации изображений движений с помощью C-LSTM». Журнал нейронной инженерии . 17 (1): 016041. Бибкод : 2020JNEng..17a6041F . дои : 10.1088/1741-2552/ab57c0 . hdl : 10044/1/75376 . ISSN   1741-2552 . PMID   31726440 . S2CID   208034533 .
  15. ^ Цинганос, Панайотис; Корнелис, Бруно; Корнелис, Ян; Янсен, Барт; Скодрас, Афанассиос (2020). «Расширение данных поверхностной электромиографии для распознавания жестов рук» . Датчики . 20 (17): 4892. Бибкод : 2020Senso..20.4892T . дои : 10.3390/s20174892 . ISSN   1424-8220 . ПМЦ   7506981 . ПМИД   32872508 .
  16. ^ Ло, Юн; Лу, Бао-Лян (2018). «Увеличение данных ЭЭГ для распознавания эмоций с использованием условного GAN Вассерштейна». 2018 40-я ежегодная международная конференция Общества инженерии в медицине и биологии IEEE (EMBC) . Том. 2018. С. 2535–2538. дои : 10.1109/EMBC.2018.8512865 . ISBN  978-1-5386-3646-6 . ПМИД   30440924 . S2CID   53105445 .
  17. ^ Перейти обратно: а б Ян, Ян (2022). «Прогнозирование скорости ветра с сокращением и увеличением корреляционной сети: двухэтапный метод глубокого обучения». Возобновляемая энергия . 198 (1): 267–282. arXiv : 2306.01986 . doi : 10.1016/j.renene.2022.07.125 . ISSN   0960-1481 . S2CID   251511199 .