Jump to content

Передискретизация и недостаточная выборка при анализе данных

В статистике при анализе данных избыточная и недостаточная выборка — это методы, используемые для корректировки распределения классов в наборе данных (т. е. соотношения между различными представленными классами/категориями). Эти термины используются как в статистической выборке, методологии разработки опросов, так и в машинном обучении .

Передискретизация и недостаточная выборка являются противоположными и примерно эквивалентными методами. Существуют также более сложные методы передискретизации, включая создание искусственных точек данных с помощью таких алгоритмов, как метод передискретизации синтетического меньшинства . [1] [2]

Мотивация для передискретизации и недостаточной выборки

[ редактировать ]

Как избыточная, так и недостаточная выборка предполагает внесение систематической ошибки в выборку большего количества выборок из одного класса, чем из другого, чтобы компенсировать дисбаланс, который либо уже присутствует в данных, либо может возникнуть, если была взята чисто случайная выборка. Дисбаланс данных может быть следующих типов:

  1. Недостаточное представление класса в одной или нескольких важных переменных-предикторах. Предположим, что для решения вопроса о гендерной дискриминации у нас есть данные опроса о заработной плате в определенной области, например, в сфере компьютерного программного обеспечения. Известно, что женщины значительно недопредставлены в случайной выборке инженеров-программистов, что было бы важно при поправке на другие переменные, такие как годы работы и текущий уровень стажа. Предположим, что только 20% инженеров-программистов — женщины, т. е. мужчин в 4 раза больше, чем женщин. Если бы мы разрабатывали опрос для сбора данных, мы бы опросили в 4 раза больше женщин, чем мужчин, чтобы в окончательной выборке оба пола были представлены одинаково. (См. также «Стратифицированная выборка ».)
  2. Недостаточное представление одного класса в выходной (зависимой) переменной. Предположим, мы хотим на основе большого набора клинических данных спрогнозировать, у каких пациентов может развиться определенное заболевание (например, диабет). Однако предположим, что заболевание развивается только у 10% пациентов. Предположим, у нас есть большой существующий набор данных. Затем мы можем выбрать в 9 раз больше пациентов, у которых болезнь не развилась, на каждого пациента, у которого она развилась.

Передискретизация обычно используется чаще, чем недостаточная выборка, особенно когда подробные данные еще не собраны с помощью опроса, интервью или иным образом. Недостаточная выборка применяется гораздо реже. Переизбыток уже собранных данных стал проблемой только в эпоху «больших данных», а причины использования недостаточной выборки в основном практические и связаны с затратами ресурсов. данные необходимо очистить В частности, хотя для получения достоверных статистических выводов необходим достаточно большой размер выборки, перед использованием . Очистка обычно включает в себя значительный человеческий компонент и обычно зависит от набора данных и аналитической проблемы и, следовательно, требует времени и денег. Например:

  • Эксперты в предметной области предложат средства проверки конкретных наборов данных, включающие не только проверки внутри переменных (допустимые значения, максимально и минимально возможные допустимые значения и т. д.), но и проверки между переменными. Например, сумма отдельных компонентов дифференциального количества лейкоцитов должна составлять 100, поскольку каждый из них представляет собой процент от общего числа.
  • Данные, встроенные в описательный текст (например, стенограммы интервью), должны быть вручную закодированы в дискретные переменные, с которыми может справиться статистический пакет или пакет машинного обучения. Чем больше данных, тем больше усилий по кодированию. (Иногда кодирование может быть выполнено с помощью программного обеспечения, но часто для этого кто-то должен написать специальную одноразовую программу, а выходные данные программы должны быть проверены на точность с точки зрения ложноположительных и ложноотрицательных результатов.)

По этим причинам обычно очищают только столько данных, сколько необходимо для ответа на вопрос с разумной статистической достоверностью (см. Размер выборки), но не более того.

Методы передискретизации для задач классификации

[ редактировать ]

Случайная передискретизация

[ редактировать ]

Случайная передискретизация предполагает дополнение обучающих данных несколькими копиями некоторых классов меньшинства. Передискретизацию можно выполнять более одного раза (2x, 3x, 5x, 10x и т. д.). Это один из самых ранних предложенных методов, эффективность которого также доказала свою эффективность. [3] Вместо дублирования каждого образца в классе меньшинства некоторые из них могут быть выбраны случайным образом с заменой.

Существует ряд методов избыточной выборки набора данных, используемых в типичной задаче классификации (использование алгоритма классификации для классификации набора изображений с учетом помеченного обучающего набора изображений). Самый распространенный метод известен как SMOTE: метод чрезмерной выборки синтетического меньшинства. [4] Однако было показано, что этот метод дает плохо откалиброванные модели с завышенной вероятностью принадлежности к классу меньшинства. [5]

Чтобы проиллюстрировать, как работает этот метод, рассмотрим некоторые обучающие данные, которые имеют s выборок и f признаков в пространстве признаков данных. Обратите внимание, что эти функции для простоты являются непрерывными. В качестве примера рассмотрим набор данных о птицах для классификации. Пространством признаков для класса меньшинства, для которого мы хотим выполнить передискретизацию, может быть длина клюва, размах крыльев и вес (все непрерывно). Чтобы затем выполнить передискретизацию, возьмите выборку из набора данных и рассмотрите ее k ближайших соседей (в пространстве признаков). Чтобы создать синтетическую точку данных, возьмите вектор между одним из этих k соседей и текущей точкой данных. Умножьте этот вектор на случайное число x, которое находится между 0 и 1. Добавьте его к текущей точке данных, чтобы создать новую синтетическую точку данных.

С момента его появления в метод SMOTE было внесено множество модификаций и расширений. [6]

ЭТО ПРОСТО

[ редактировать ]

Подход адаптивной синтетической выборки или алгоритм ADASYN. [7] основывается на методологии SMOTE, перенося важность классификационных границ на те классы меньшинств, которые являются трудными. ADASYN использует взвешенное распределение для различных примеров классов меньшинств в зависимости от их уровня сложности в обучении, при этом больше синтетических данных генерируется для примеров классов меньшинств, которые труднее выучить.

Увеличение

[ редактировать ]

Увеличение данных при анализе данных — это методы, используемые для увеличения объема данных путем добавления слегка измененных копий уже существующих данных или вновь созданных синтетических данных из существующих данных. Он действует как регуляризатор и помогает уменьшить переобучение при обучении модели машинного обучения. [8] (См.: Увеличение данных )

Методы недостаточной выборки для задач классификации

[ редактировать ]

Случайная недостаточная выборка

[ редактировать ]

Случайным образом удалите образцы из класса большинства, с заменой или без нее. Это один из самых ранних методов, используемых для устранения дисбаланса в наборе данных, однако он может увеличить дисперсию классификатора и с большой вероятностью приведет к отбрасыванию полезных или важных выборок. [6]

Центроиды кластера — это метод, который заменяет кластер выборок центроидом кластера алгоритма K-средних, где количество кластеров задается уровнем недостаточной выборки.

Ссылки Tomek устраняют нежелательное перекрытие между классами, при этом ссылки большинства классов удаляются до тех пор, пока все пары ближайших соседей с минимальным расстоянием не будут принадлежать к одному и тому же классу. Ссылка Tomek определяется следующим образом: задана пара экземпляров , где и это расстояние между и , то пара называется ссылкой Tomek, если нет экземпляра такой, что или . Таким образом, если два экземпляра образуют ссылку Tomek, то либо один из этих экземпляров является шумом, либо оба находятся рядом с границей. Таким образом, можно использовать ссылки Tomek для устранения дублирования между классами. Удалив перекрывающиеся примеры, можно создать четко определенные кластеры в обучающем наборе и привести к повышению эффективности классификации.

Недостаточная выборка с ансамблевым обучением

Недавнее исследование показывает, что сочетание недостаточной выборки с ансамблевым обучением может достичь лучших результатов, см. IFME: фильтрация информации по множеству примеров с недостаточной выборкой в ​​среде цифровой библиотеки. [9]

Методы решения проблем регрессии

[ редактировать ]

Хотя методы выборки были разработаны в основном для задач классификации, все большее внимание уделяется проблеме несбалансированной регрессии. [10] Доступны адаптации популярных стратегий, включая недостаточную выборку, передискретизацию и SMOTE. [11] [12] Методы выборки также изучались в контексте численного прогнозирования данных, ориентированных на зависимости, таких как прогнозирование временных рядов. [13] и пространственно-временное прогнозирование. [14]

Дополнительные техники

[ редактировать ]

Можно объединить методы передискретизации и недостаточной выборки в гибридную стратегию. Типичные примеры включают ссылки SMOTE и Tomek или SMOTE и Edited Nearest Neighbours (ENN). Дополнительные способы обучения на несбалансированных наборах данных включают взвешивание обучающих экземпляров, введение различных затрат на неправильную классификацию для положительных и отрицательных примеров и начальную загрузку. [15]

Реализации

[ редактировать ]
  • В пакете несбалансированного обучения реализованы различные методы повторной выборки данных. [1] совместим с scikit-learn библиотекой Python . Методы повторной выборки реализованы в четырех различных категориях: недостаточная выборка класса большинства, передискретизация класса меньшинства, объединение избыточной и недостаточной выборки и ансамблевая выборка.
  • Реализация на Python 85 методов миноритарной передискретизации с функциями выбора модели доступна в вариантах smote. [2] упаковка.

Плохие модели в настройке [двоичной классификации] часто являются результатом — любой комбинации — подгонки детерминированных классификаторов, использования методов повторной выборки или повторного взвешивания для балансировки частот классов в обучающих данных и оценки модели с помощью такой оценки, как точность. . ... Никакая техника повторной выборки не сможет волшебным образом получить больше информации из немногих случаев с редким классом.

- Руководство пользователя по сравнению моделей и оценке калибровки для согласованных функций оценки в машинном обучении и актуарной практике, Тобиас Фисслер, arXiv:2202.12780v3, Кристиан Лоренцен, Майкл Майер, 2023 г.

Вероятностные модели машинного обучения, пытающиеся смоделировать условное распределение (по правилу Байеса ) будет неправильно откалиброван при изменении естественного распределения во время обучения путем применения пониженной или понижающей дискретизации. [16]

Этот момент можно проиллюстрировать простым примером: предположим, что прогнозируемые переменные отсутствуют. и где доля составляет 0,01, а доля составляет 0,99. Это модель, которая учится бесполезно и его следует изменить с помощью недостаточной или передискретизации? Ответ — нет. Классовый дисбаланс сам по себе вовсе не является проблемой.

Кроме того,

  1. передискретизация
  2. недостаточная выборка
  3. а также присвоение весов образцам

может применяться практиками в многоклассовой классификации или в ситуациях с очень несбалансированной структурой затрат . Это может быть сделано для достижения «желательных», наилучших показателей для каждого класса (потенциально измеряемых точностью и полнотой в каждом классе).Однако поиск наилучшей эффективности многоклассовой классификации или наилучшего компромисса между точностью и полнотой является по своей сути многоцелевой задачей оптимизации. Хорошо известно, что эти задачи обычно имеют множество несравнимых оптимальных по Парето решений. Передискретизация или недостаточная выборка, а также присвоение весов выборкам — это неявный способ найти определенный оптимум Парето (и при этом приходится жертвовать калибровкой оцененных вероятностей). Более явным способом, чем передискретизация или понижение дискретизации, может быть выбор оптимума Парето по формуле

См. также

[ редактировать ]

Литература

[ редактировать ]
  • Кубат, М. (2000). Решение проблемы несбалансированных обучающих наборов: односторонний отбор. Четырнадцатая международная конференция по машинному обучению.
  • Чавла, Нитеш В. (2010) Интеллектуальный анализ данных для несбалансированных наборов данных: обзор doi : 10.1007/978-0-387-09823-4_45 В: Маймон, Одед; Рокач, Лиор (ред.), Справочник по интеллектуальному анализу данных и обнаружению знаний , Springer ISBN   978-0-387-09823-4 (страницы 875–886)
  • Леметр, Г. Ногейра, Ф. Аридас, Ч.К. (2017) Imbalanced-learn: набор инструментов Python для решения проблемы несбалансированных наборов данных в машинном обучении , Journal of Machine Learning Research, vol. 18, нет. 17, 2017, стр. 1–5.
  1. ^ Jump up to: а б «Scikit-learn-contrib/Imbalanced-learn» . Гитхаб . 25 октября 2021 г.
  2. ^ Jump up to: а б «Analyticalmindsltd/Smote_variants» . Гитхаб . 26 октября 2021 г.
  3. ^ Линг, Чарльз X. и Чэнхуэй Ли. «Интеллектуальный анализ данных для прямого маркетинга: проблемы и решения». Кдд . Том. 98. 1998.
  4. ^ Чавла, Невада; Бойер, КВ; Холл, Лоу; Кегельмейер, WP (01 июня 2002 г.). «SMOTE: метод избыточной выборки синтетического меньшинства» . Журнал исследований искусственного интеллекта . 16 : 321–357. arXiv : 1106.1813 . дои : 10.1613/jair.953 . ISSN   1076-9757 . S2CID   1554582 .
  5. ^ ван ден Гурберг, Рубен; ван Смеден, Мартен; Тиммерман, Дирк; Ван Калстер, Бен (01 сентября 2022 г.). «Вред коррекции дисбаланса классов для моделей прогнозирования рисков: иллюстрация и моделирование с использованием логистической регрессии» . Журнал Американской ассоциации медицинской информатики . 29 (9): 1525–1534. дои : 10.1093/jamia/ocac093 . ISSN   1527-974X . ПМЦ   9382395 . PMID   35686364 .
  6. ^ Jump up to: а б Чавла, Нитеш В.; Эррера, Франциско; Гарсия, Сальвадор; Фернандес, Альберто (20 апреля 2018 г.). «SMOTE для обучения на несбалансированных данных: прогресс и проблемы, посвященные 15-летнему юбилею» . Журнал исследований искусственного интеллекта . 61 : 863–905. дои : 10.1613/jair.1.11192 . hdl : 10481/56411 . ISSN   1076-9757 .
  7. ^ Он, Хайбо; Бай, Ян; Гарсия, Эдвардо А.; Ли, Шутао (июнь 2008 г.). «ADASYN: Адаптивный синтетический подход к выборке для несбалансированного обучения» (PDF) . 2008 Международная совместная конференция IEEE по нейронным сетям (Всемирный конгресс IEEE по вычислительному интеллекту) . стр. 1322–1328. дои : 10.1109/IJCNN.2008.4633969 . ISBN  978-1-4244-1820-6 . S2CID   1438164 . Проверено 5 декабря 2022 г.
  8. ^ Шортен, Коннор; Хошгофтаар, Таги М. (2019). «Опрос по увеличению данных изображений для глубокого обучения» . Математика и компьютеры в моделировании . 6 . Спрингер: 60. doi : 10.1186/s40537-019-0197-0 .
  9. ^ Чжу, Минчжу; Сюй, Чао; Ву, И-Фан Брук (22 июля 2013 г.). IFME: фильтрация информации по множеству примеров с недостаточной выборкой в ​​среде электронной библиотеки . АКМ. стр. 107–110. дои : 10.1145/2467696.2467736 . ISBN  9781450320771 . S2CID   13279787 .
  10. ^ Рибейро, Рита П.; Мониш, Нуно (01 сентября 2020 г.). «Несбалансированная регрессия и прогнозирование экстремальных значений» . Машинное обучение . 109 (9): 1803–1835. дои : 10.1007/s10994-020-05900-9 . ISSN   1573-0565 . S2CID   222143074 .
  11. ^ Торго, Луис; Бранко, Паула; Рибейро, Рита П.; Пфарингер, Бернхард (июнь 2015 г.). «Стратегии повторной выборки для регрессии» . Экспертные системы . 32 (3): 465–476. дои : 10.1111/exsy.12081 . S2CID   205129966 .
  12. ^ Торго, Луис; Рибейро, Рита П.; Пфарингер, Бернхард; Бранко, Паула (2013). «SMOTE для регресса» . В Коррейе, Луис; Рейс, Луис Пауло; Каскальо, Хосе (ред.). Прогресс в области искусственного интеллекта . Конспекты лекций по информатике. Том 8154. Берлин, Гейдельберг: Springer. стр. 378–389. дои : 10.1007/978-3-642-40669-0_33 . hdl : 10289/8518 . ISBN  978-3-642-40669-0 . S2CID   16253787 .
  13. ^ Мониш, Нуно; Бранко, Паула; Торго, Луис (01 мая 2017 г.). «Стратегии повторной выборки для прогнозирования несбалансированных временных рядов» . Международный журнал науки о данных и аналитики . 3 (3): 161–181. дои : 10.1007/s41060-017-0044-3 . ISSN   2364-4168 . S2CID   25975914 .
  14. ^ Оливейра, Мариана; Мониш, Нуно; Торго, Луис; Сантос Коста, Витор (01 сентября 2021 г.). «Стратегии предвзятой повторной выборки для несбалансированного пространственно-временного прогнозирования» . Международный журнал науки о данных и аналитики . 12 (3): 205–228. дои : 10.1007/s41060-021-00256-2 . ISSN   2364-4168 . S2CID   210931099 .
  15. ^ Хайбо Хэ; Гарсия, Э.А. (2009). «Обучение на несбалансированных данных». Транзакции IEEE по знаниям и инженерии данных . 21 (9): 1263–1284. дои : 10.1109/TKDE.2008.239 . S2CID   206742563 .
  16. ^ «Коррекция дисбаланса привела к созданию моделей с сильной ошибкой калибровки без лучшей способности различать пациентов с исходным событием и без него. Неточные оценки вероятности снижают клиническую полезность модели, поскольку решения о лечении необоснованны». поправки на дисбаланс классов для моделей прогнозирования рисков: иллюстрация и моделирование с использованием логистической регрессии, 2022, Рубен ван ден Гурберг, Маартен ван Смеден, Дирк Тиммерман, Бен Ван Кальстер https://doi.org/10.1093/jamia/ocac093
  17. ^ Энциклопедия машинного обучения. (2011). Германия: Шпрингер. Страница 193, https://books.google.de/books?id=i8hQhp1a62UC&pg=PT193.
  18. ^ https://arxiv.org/abs/2201.08528v3
  19. ^ Гийом Леметр EuroSciPy 2023 — Получите максимум от классификатора научного обучения https://www.youtube.com/watch?v=6YnhoCfArQo
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b97d7af3604f8cd79d94a8a7384c497d__1722273180
URL1:https://arc.ask3.ru/arc/aa/b9/7d/b97d7af3604f8cd79d94a8a7384c497d.html
Заголовок, (Title) документа по адресу, URL1:
Oversampling and undersampling in data analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)