Передискретизация и недостаточная выборка при анализе данных
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
В статистике при анализе данных избыточная и недостаточная выборка — это методы, используемые для корректировки распределения классов в наборе данных (т. е. соотношения между различными представленными классами/категориями). Эти термины используются как в статистической выборке, методологии разработки опросов, так и в машинном обучении .
Передискретизация и недостаточная выборка являются противоположными и примерно эквивалентными методами. Существуют также более сложные методы передискретизации, включая создание искусственных точек данных с помощью таких алгоритмов, как метод передискретизации синтетического меньшинства . [1] [2]
Мотивация для передискретизации и недостаточной выборки
[ редактировать ]Как избыточная, так и недостаточная выборка предполагает внесение систематической ошибки в выборку большего количества выборок из одного класса, чем из другого, чтобы компенсировать дисбаланс, который либо уже присутствует в данных, либо может возникнуть, если была взята чисто случайная выборка. Дисбаланс данных может быть следующих типов:
- Недостаточное представление класса в одной или нескольких важных переменных-предикторах. Предположим, что для решения вопроса о гендерной дискриминации у нас есть данные опроса о заработной плате в определенной области, например, в сфере компьютерного программного обеспечения. Известно, что женщины значительно недопредставлены в случайной выборке инженеров-программистов, что было бы важно при поправке на другие переменные, такие как годы работы и текущий уровень стажа. Предположим, что только 20% инженеров-программистов — женщины, т. е. мужчин в 4 раза больше, чем женщин. Если бы мы разрабатывали опрос для сбора данных, мы бы опросили в 4 раза больше женщин, чем мужчин, чтобы в окончательной выборке оба пола были представлены одинаково. (См. также «Стратифицированная выборка ».)
- Недостаточное представление одного класса в выходной (зависимой) переменной. Предположим, мы хотим на основе большого набора клинических данных спрогнозировать, у каких пациентов может развиться определенное заболевание (например, диабет). Однако предположим, что заболевание развивается только у 10% пациентов. Предположим, у нас есть большой существующий набор данных. Затем мы можем выбрать в 9 раз больше пациентов, у которых болезнь не развилась, на каждого пациента, у которого она развилась.
Передискретизация обычно используется чаще, чем недостаточная выборка, особенно когда подробные данные еще не собраны с помощью опроса, интервью или иным образом. Недостаточная выборка применяется гораздо реже. Переизбыток уже собранных данных стал проблемой только в эпоху «больших данных», а причины использования недостаточной выборки в основном практические и связаны с затратами ресурсов. данные необходимо очистить В частности, хотя для получения достоверных статистических выводов необходим достаточно большой размер выборки, перед использованием . Очистка обычно включает в себя значительный человеческий компонент и обычно зависит от набора данных и аналитической проблемы и, следовательно, требует времени и денег. Например:
- Эксперты в предметной области предложат средства проверки конкретных наборов данных, включающие не только проверки внутри переменных (допустимые значения, максимально и минимально возможные допустимые значения и т. д.), но и проверки между переменными. Например, сумма отдельных компонентов дифференциального количества лейкоцитов должна составлять 100, поскольку каждый из них представляет собой процент от общего числа.
- Данные, встроенные в описательный текст (например, стенограммы интервью), должны быть вручную закодированы в дискретные переменные, с которыми может справиться статистический пакет или пакет машинного обучения. Чем больше данных, тем больше усилий по кодированию. (Иногда кодирование может быть выполнено с помощью программного обеспечения, но часто для этого кто-то должен написать специальную одноразовую программу, а выходные данные программы должны быть проверены на точность с точки зрения ложноположительных и ложноотрицательных результатов.)
По этим причинам обычно очищают только столько данных, сколько необходимо для ответа на вопрос с разумной статистической достоверностью (см. Размер выборки), но не более того.
Методы передискретизации для задач классификации
[ редактировать ]Случайная передискретизация
[ редактировать ]Случайная передискретизация предполагает дополнение обучающих данных несколькими копиями некоторых классов меньшинства. Передискретизацию можно выполнять более одного раза (2x, 3x, 5x, 10x и т. д.). Это один из самых ранних предложенных методов, эффективность которого также доказала свою эффективность. [3] Вместо дублирования каждого образца в классе меньшинства некоторые из них могут быть выбраны случайным образом с заменой.
СМОТЕ
[ редактировать ]Существует ряд методов избыточной выборки набора данных, используемых в типичной задаче классификации (использование алгоритма классификации для классификации набора изображений с учетом помеченного обучающего набора изображений). Самый распространенный метод известен как SMOTE: метод чрезмерной выборки синтетического меньшинства. [4] Однако было показано, что этот метод дает плохо откалиброванные модели с завышенной вероятностью принадлежности к классу меньшинства. [5]
Чтобы проиллюстрировать, как работает этот метод, рассмотрим некоторые обучающие данные, которые имеют s выборок и f признаков в пространстве признаков данных. Обратите внимание, что эти функции для простоты являются непрерывными. В качестве примера рассмотрим набор данных о птицах для классификации. Пространством признаков для класса меньшинства, для которого мы хотим выполнить передискретизацию, может быть длина клюва, размах крыльев и вес (все непрерывно). Чтобы затем выполнить передискретизацию, возьмите выборку из набора данных и рассмотрите ее k ближайших соседей (в пространстве признаков). Чтобы создать синтетическую точку данных, возьмите вектор между одним из этих k соседей и текущей точкой данных. Умножьте этот вектор на случайное число x, которое находится между 0 и 1. Добавьте его к текущей точке данных, чтобы создать новую синтетическую точку данных.
С момента его появления в метод SMOTE было внесено множество модификаций и расширений. [6]
ЭТО ПРОСТО
[ редактировать ]Подход адаптивной синтетической выборки или алгоритм ADASYN. [7] основывается на методологии SMOTE, перенося важность классификационных границ на те классы меньшинств, которые являются трудными. ADASYN использует взвешенное распределение для различных примеров классов меньшинств в зависимости от их уровня сложности в обучении, при этом больше синтетических данных генерируется для примеров классов меньшинств, которые труднее выучить.
Увеличение
[ редактировать ]Увеличение данных при анализе данных — это методы, используемые для увеличения объема данных путем добавления слегка измененных копий уже существующих данных или вновь созданных синтетических данных из существующих данных. Он действует как регуляризатор и помогает уменьшить переобучение при обучении модели машинного обучения. [8] (См.: Увеличение данных )
Методы недостаточной выборки для задач классификации
[ редактировать ]Случайная недостаточная выборка
[ редактировать ]Случайным образом удалите образцы из класса большинства, с заменой или без нее. Это один из самых ранних методов, используемых для устранения дисбаланса в наборе данных, однако он может увеличить дисперсию классификатора и с большой вероятностью приведет к отбрасыванию полезных или важных выборок. [6]
Кластер
[ редактировать ]Центроиды кластера — это метод, который заменяет кластер выборок центроидом кластера алгоритма K-средних, где количество кластеров задается уровнем недостаточной выборки.
Tomek links
[ редактировать ]Ссылки Tomek устраняют нежелательное перекрытие между классами, при этом ссылки большинства классов удаляются до тех пор, пока все пары ближайших соседей с минимальным расстоянием не будут принадлежать к одному и тому же классу. Ссылка Tomek определяется следующим образом: задана пара экземпляров , где и это расстояние между и , то пара называется ссылкой Tomek, если нет экземпляра такой, что или . Таким образом, если два экземпляра образуют ссылку Tomek, то либо один из этих экземпляров является шумом, либо оба находятся рядом с границей. Таким образом, можно использовать ссылки Tomek для устранения дублирования между классами. Удалив перекрывающиеся примеры, можно создать четко определенные кластеры в обучающем наборе и привести к повышению эффективности классификации.
Недостаточная выборка с ансамблевым обучением
Недавнее исследование показывает, что сочетание недостаточной выборки с ансамблевым обучением может достичь лучших результатов, см. IFME: фильтрация информации по множеству примеров с недостаточной выборкой в среде цифровой библиотеки. [9]
Методы решения проблем регрессии
[ редактировать ]Хотя методы выборки были разработаны в основном для задач классификации, все большее внимание уделяется проблеме несбалансированной регрессии. [10] Доступны адаптации популярных стратегий, включая недостаточную выборку, передискретизацию и SMOTE. [11] [12] Методы выборки также изучались в контексте численного прогнозирования данных, ориентированных на зависимости, таких как прогнозирование временных рядов. [13] и пространственно-временное прогнозирование. [14]
Дополнительные техники
[ редактировать ]Можно объединить методы передискретизации и недостаточной выборки в гибридную стратегию. Типичные примеры включают ссылки SMOTE и Tomek или SMOTE и Edited Nearest Neighbours (ENN). Дополнительные способы обучения на несбалансированных наборах данных включают взвешивание обучающих экземпляров, введение различных затрат на неправильную классификацию для положительных и отрицательных примеров и начальную загрузку. [15]
Реализации
[ редактировать ]- В пакете несбалансированного обучения реализованы различные методы повторной выборки данных. [1] совместим с scikit-learn библиотекой Python . Методы повторной выборки реализованы в четырех различных категориях: недостаточная выборка класса большинства, передискретизация класса меньшинства, объединение избыточной и недостаточной выборки и ансамблевая выборка.
- Реализация на Python 85 методов миноритарной передискретизации с функциями выбора модели доступна в вариантах smote. [2] упаковка.
Критика
[ редактировать ]Плохие модели в настройке [двоичной классификации] часто являются результатом — любой комбинации — подгонки детерминированных классификаторов, использования методов повторной выборки или повторного взвешивания для балансировки частот классов в обучающих данных и оценки модели с помощью такой оценки, как точность. . ... Никакая техника повторной выборки не сможет волшебным образом получить больше информации из немногих случаев с редким классом.
- Руководство пользователя по сравнению моделей и оценке калибровки для согласованных функций оценки в машинном обучении и актуарной практике, Тобиас Фисслер, arXiv:2202.12780v3, Кристиан Лоренцен, Майкл Майер, 2023 г.
Вероятностные модели машинного обучения, пытающиеся смоделировать условное распределение (по правилу Байеса ) будет неправильно откалиброван при изменении естественного распределения во время обучения путем применения пониженной или понижающей дискретизации. [16]
Этот момент можно проиллюстрировать простым примером: предположим, что прогнозируемые переменные отсутствуют. и где доля составляет 0,01, а доля составляет 0,99. Это модель, которая учится бесполезно и его следует изменить с помощью недостаточной или передискретизации? Ответ — нет. Классовый дисбаланс сам по себе вовсе не является проблемой.
Кроме того,
- передискретизация
- недостаточная выборка
- а также присвоение весов образцам
может применяться практиками в многоклассовой классификации или в ситуациях с очень несбалансированной структурой затрат . Это может быть сделано для достижения «желательных», наилучших показателей для каждого класса (потенциально измеряемых точностью и полнотой в каждом классе).Однако поиск наилучшей эффективности многоклассовой классификации или наилучшего компромисса между точностью и полнотой является по своей сути многоцелевой задачей оптимизации. Хорошо известно, что эти задачи обычно имеют множество несравнимых оптимальных по Парето решений. Передискретизация или недостаточная выборка, а также присвоение весов выборкам — это неявный способ найти определенный оптимум Парето (и при этом приходится жертвовать калибровкой оцененных вероятностей). Более явным способом, чем передискретизация или понижение дискретизации, может быть выбор оптимума Парето по формуле
- назначьте явные затраты неправильно классифицированным образцам, а затем минимизируйте общие (скаляризованные) затраты с помощью экономически чувствительного машинного обучения . [17]
- выполнить настройку порога в настройке двоичной классификации, чтобы достичь определенной точности проверки и отзыва [18] [19]
См. также
[ редактировать ]- Выборка (статистика)
- Увеличение данных
- Недостаточная дискретизация (при обработке сигналов)
Литература
[ редактировать ]- Кубат, М. (2000). Решение проблемы несбалансированных обучающих наборов: односторонний отбор. Четырнадцатая международная конференция по машинному обучению.
- Чавла, Нитеш В. (2010) Интеллектуальный анализ данных для несбалансированных наборов данных: обзор doi : 10.1007/978-0-387-09823-4_45 В: Маймон, Одед; Рокач, Лиор (ред.), Справочник по интеллектуальному анализу данных и обнаружению знаний , Springer ISBN 978-0-387-09823-4 (страницы 875–886)
- Леметр, Г. Ногейра, Ф. Аридас, Ч.К. (2017) Imbalanced-learn: набор инструментов Python для решения проблемы несбалансированных наборов данных в машинном обучении , Journal of Machine Learning Research, vol. 18, нет. 17, 2017, стр. 1–5.
Ссылки
[ редактировать ]- ^ Jump up to: а б «Scikit-learn-contrib/Imbalanced-learn» . Гитхаб . 25 октября 2021 г.
- ^ Jump up to: а б «Analyticalmindsltd/Smote_variants» . Гитхаб . 26 октября 2021 г.
- ^ Линг, Чарльз X. и Чэнхуэй Ли. «Интеллектуальный анализ данных для прямого маркетинга: проблемы и решения». Кдд . Том. 98. 1998.
- ^ Чавла, Невада; Бойер, КВ; Холл, Лоу; Кегельмейер, WP (01 июня 2002 г.). «SMOTE: метод избыточной выборки синтетического меньшинства» . Журнал исследований искусственного интеллекта . 16 : 321–357. arXiv : 1106.1813 . дои : 10.1613/jair.953 . ISSN 1076-9757 . S2CID 1554582 .
- ^ ван ден Гурберг, Рубен; ван Смеден, Мартен; Тиммерман, Дирк; Ван Калстер, Бен (01 сентября 2022 г.). «Вред коррекции дисбаланса классов для моделей прогнозирования рисков: иллюстрация и моделирование с использованием логистической регрессии» . Журнал Американской ассоциации медицинской информатики . 29 (9): 1525–1534. дои : 10.1093/jamia/ocac093 . ISSN 1527-974X . ПМЦ 9382395 . PMID 35686364 .
- ^ Jump up to: а б Чавла, Нитеш В.; Эррера, Франциско; Гарсия, Сальвадор; Фернандес, Альберто (20 апреля 2018 г.). «SMOTE для обучения на несбалансированных данных: прогресс и проблемы, посвященные 15-летнему юбилею» . Журнал исследований искусственного интеллекта . 61 : 863–905. дои : 10.1613/jair.1.11192 . hdl : 10481/56411 . ISSN 1076-9757 .
- ^ Он, Хайбо; Бай, Ян; Гарсия, Эдвардо А.; Ли, Шутао (июнь 2008 г.). «ADASYN: Адаптивный синтетический подход к выборке для несбалансированного обучения» (PDF) . 2008 Международная совместная конференция IEEE по нейронным сетям (Всемирный конгресс IEEE по вычислительному интеллекту) . стр. 1322–1328. дои : 10.1109/IJCNN.2008.4633969 . ISBN 978-1-4244-1820-6 . S2CID 1438164 . Проверено 5 декабря 2022 г.
- ^ Шортен, Коннор; Хошгофтаар, Таги М. (2019). «Опрос по увеличению данных изображений для глубокого обучения» . Математика и компьютеры в моделировании . 6 . Спрингер: 60. doi : 10.1186/s40537-019-0197-0 .
- ^ Чжу, Минчжу; Сюй, Чао; Ву, И-Фан Брук (22 июля 2013 г.). IFME: фильтрация информации по множеству примеров с недостаточной выборкой в среде электронной библиотеки . АКМ. стр. 107–110. дои : 10.1145/2467696.2467736 . ISBN 9781450320771 . S2CID 13279787 .
- ^ Рибейро, Рита П.; Мониш, Нуно (01 сентября 2020 г.). «Несбалансированная регрессия и прогнозирование экстремальных значений» . Машинное обучение . 109 (9): 1803–1835. дои : 10.1007/s10994-020-05900-9 . ISSN 1573-0565 . S2CID 222143074 .
- ^ Торго, Луис; Бранко, Паула; Рибейро, Рита П.; Пфарингер, Бернхард (июнь 2015 г.). «Стратегии повторной выборки для регрессии» . Экспертные системы . 32 (3): 465–476. дои : 10.1111/exsy.12081 . S2CID 205129966 .
- ^ Торго, Луис; Рибейро, Рита П.; Пфарингер, Бернхард; Бранко, Паула (2013). «SMOTE для регресса» . В Коррейе, Луис; Рейс, Луис Пауло; Каскальо, Хосе (ред.). Прогресс в области искусственного интеллекта . Конспекты лекций по информатике. Том 8154. Берлин, Гейдельберг: Springer. стр. 378–389. дои : 10.1007/978-3-642-40669-0_33 . hdl : 10289/8518 . ISBN 978-3-642-40669-0 . S2CID 16253787 .
- ^ Мониш, Нуно; Бранко, Паула; Торго, Луис (01 мая 2017 г.). «Стратегии повторной выборки для прогнозирования несбалансированных временных рядов» . Международный журнал науки о данных и аналитики . 3 (3): 161–181. дои : 10.1007/s41060-017-0044-3 . ISSN 2364-4168 . S2CID 25975914 .
- ^ Оливейра, Мариана; Мониш, Нуно; Торго, Луис; Сантос Коста, Витор (01 сентября 2021 г.). «Стратегии предвзятой повторной выборки для несбалансированного пространственно-временного прогнозирования» . Международный журнал науки о данных и аналитики . 12 (3): 205–228. дои : 10.1007/s41060-021-00256-2 . ISSN 2364-4168 . S2CID 210931099 .
- ^ Хайбо Хэ; Гарсия, Э.А. (2009). «Обучение на несбалансированных данных». Транзакции IEEE по знаниям и инженерии данных . 21 (9): 1263–1284. дои : 10.1109/TKDE.2008.239 . S2CID 206742563 .
- ^ «Коррекция дисбаланса привела к созданию моделей с сильной ошибкой калибровки без лучшей способности различать пациентов с исходным событием и без него. Неточные оценки вероятности снижают клиническую полезность модели, поскольку решения о лечении необоснованны». поправки на дисбаланс классов для моделей прогнозирования рисков: иллюстрация и моделирование с использованием логистической регрессии, 2022, Рубен ван ден Гурберг, Маартен ван Смеден, Дирк Тиммерман, Бен Ван Кальстер https://doi.org/10.1093/jamia/ocac093
- ^ Энциклопедия машинного обучения. (2011). Германия: Шпрингер. Страница 193, https://books.google.de/books?id=i8hQhp1a62UC&pg=PT193.
- ^ https://arxiv.org/abs/2201.08528v3
- ^ Гийом Леметр EuroSciPy 2023 — Получите максимум от классификатора научного обучения https://www.youtube.com/watch?v=6YnhoCfArQo