Выброс
В статистике выброс — это точка данных , которая значительно отличается от других наблюдений. [1] [2] Выброс может быть вызван изменчивостью измерений, указанием новых данных или результатом экспериментальной ошибки; последние иногда исключаются из набора данных . [3] [4] Выбросы могут указывать на интересные возможности, но также могут вызывать серьезные проблемы при статистическом анализе.
Выбросы могут возникнуть случайно в любом распределении, но они могут указывать на новое поведение или структуру в наборе данных, на ошибку измерения или на то, что совокупность имеет распределение с тяжелым хвостом . В случае ошибок измерения их желательно отбросить или использовать статистику, устойчивую к выбросам, тогда как в случае распределений с тяжелым хвостом они указывают на то, что распределение имеет высокую асимметрию и что следует быть очень осторожным при использовании инструментов или интуиции, предполагающие нормальное распределение . Частой причиной выбросов является смесь двух распределений, которые могут представлять собой две отдельные подгруппы или могут указывать на «правильное испытание» или «ошибку измерения»; это моделируется смешанной моделью .
В большинстве более крупных выборок данных некоторые точки данных будут находиться дальше от среднего значения выборки, чем это считается разумным. Это может быть связано со случайной систематической ошибкой или недостатками теории , которая создала предполагаемое семейство вероятностных распределений , или это может быть связано с тем, что некоторые наблюдения находятся далеко от центра данных. Таким образом, точки выбросов могут указывать на ошибочные данные, ошибочные процедуры или области, в которых определенная теория может оказаться недействительной. Однако в больших выборках следует ожидать небольшого количества выбросов (и не из-за каких-либо аномальных условий).
Выбросы, являющиеся наиболее экстремальными наблюдениями, могут включать выборочный максимум или выборочный минимум , или и то, и другое, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не всегда являются выбросами, поскольку они не могут быть необычно далекими от других наблюдений.
Наивная интерпретация статистики, полученной на основе наборов данных, включающих выбросы, может ввести в заблуждение. Например, если вычисляется средняя температура 10 объектов в комнате, и девять из них имеют температуру от 20 до 25 градусов по Цельсию , а духовка имеет температуру 175 °C, среднее значение данных будет между 20 и 25 °C. C, но средняя температура будет между 35,5 и 40 °C. В этом случае медиана лучше отражает температуру случайно выбранного объекта (но не температуру в комнате), чем среднее значение; наивно интерпретировать среднее значение как «типичную выборку», эквивалентную медиане, неверно. Как показано в этом случае, выбросы могут указывать на точки данных, которые принадлежат другой совокупности , чем остальная часть выборки .
Оценщики, способные справляться с выбросами, считаются устойчивыми: медиана — это устойчивая статистика центральной тенденции , а среднее — нет. [5] Однако среднее значение обычно является более точной оценкой. [6]
Возникновение и причины
[ редактировать ]В случае нормально распределенных данных правило трех сигм означает, что примерно 1 из 22 наблюдений будет отличаться от среднего значения на двойное или более стандартное отклонение , а 1 из 370 будет отклоняться на трехкратное стандартное отклонение. [7] В выборке из 1000 наблюдений наличие до пяти наблюдений, отклоняющихся от среднего значения более чем в три раза на стандартное отклонение, находится в пределах ожидаемого, будучи менее чем в два раза больше ожидаемого числа и, следовательно, в пределах 1 стандартного отклонения. ожидаемое число – см. распределение Пуассона – и не указывает на аномалию. Однако если размер выборки составляет всего 100 человек, то всего лишь три таких выброса уже являются поводом для беспокойства, поскольку они более чем в 11 раз превышают ожидаемое число.
В общем, если характер распределения совокупности известен априори , можно проверить, значительно ли отклоняется число выбросов от ожидаемого: для данного порогового значения (поэтому выборки выходят за пределы порогового значения с вероятностью p ) при данном распределении количество выбросов будет следовать биномиальному распределению с параметром p , которое обычно может быть хорошо аппроксимировано распределением Пуассона с λ = pn . Таким образом, если взять нормальное распределение с отсечкой 3 стандартных отклонений от среднего значения, p составляет примерно 0,3%, и, таким образом, для 1000 испытаний можно аппроксимировать количество образцов, отклонение которых превышает 3 сигмы, распределением Пуассона с λ = 3.
Причины
[ редактировать ]Выбросы могут иметь множество аномальных причин. Физическое устройство для проведения измерений могло выйти из строя. Возможно, произошла ошибка при передаче или транскрипции данных. Выбросы возникают из-за изменений в поведении системы, мошеннического поведения, человеческой ошибки, ошибки приборов или просто из-за естественных отклонений в популяциях. Образец мог быть загрязнен элементами, не входящими в исследуемую популяцию. Альтернативно, выброс может быть результатом ошибки в предполагаемой теории, требующей дальнейшего исследования со стороны исследователя. Кроме того, патологический внешний вид выбросов определенной формы появляется в различных наборах данных, что указывает на то, что причинный механизм для данных может отличаться в крайних случаях ( эффект Кинга ).
Определения и обнаружение
[ редактировать ]Не существует жесткого математического определения того, что представляет собой выброс; определение того, является ли наблюдение выбросом, в конечном итоге является субъективным занятием. [8] Существуют различные методы обнаружения выбросов, некоторые из которых рассматриваются как синонимы обнаружения новизны. [9] [10] [11] [12] [13] Некоторые из них являются графическими, например графики нормальной вероятности . Другие основаны на моделях. Коробочные диаграммы представляют собой гибрид.
Методы, основанные на моделях, которые обычно используются для идентификации, предполагают, что данные имеют нормальное распределение, и идентифицируют наблюдения, которые считаются «маловероятными» на основе среднего и стандартного отклонения:
- Критерий Шовене
- Тест Граббса на выбросы
- Диксона Q -тест
- ASTM E178: Стандартная практика работы с отдаленными наблюдениями [14]
- Расстояние Махаланобиса и рычаг часто используются для обнаружения выбросов, особенно при разработке моделей линейной регрессии.
- Методы, основанные на подпространстве и корреляции, для многомерных числовых данных [13]
Критерий Пирса
[ редактировать ]Предлагается определить в серии наблюдений — предел погрешности, за пределами которого все наблюдения, содержащие столь большую ошибку, могут быть отклонены, при условии, что их не менее такие наблюдения. Принцип, по которому предлагается решить эту задачу, состоит в том, что предлагаемые наблюдения следует отбрасывать, когда вероятность системы ошибок, полученной путем их сохранения, меньше, чем вероятность системы ошибок, полученной путем их отклонения, умноженной на вероятность делая так много, и не более, аномальных наблюдений. (Цитируется в редакционной заметке на стр. 516 к Пирсу (издание 1982 г.) из «Руководства по астрономии 2:558» Шовене.) [15] [16] [17] [18]
Заборы Тьюки
[ редактировать ]Другие методы отмечают наблюдения на основе таких показателей, как межквартильный размах . Например, если и являются нижним и верхним квартилем соответственно, то можно определить выброс как любое наблюдение за пределами диапазона:
для некоторой неотрицательной константы . Джон Тьюки предложил этот тест, в котором указывает на «выброс», и указывает на данные, которые находятся «далеко». [19]
При обнаружении аномалий
[ редактировать ]В различных областях, таких как, помимо прочего, статистика , обработка сигналов , финансы , эконометрика , производство , сетевые технологии и интеллектуальный анализ данных , задача обнаружения аномалий может решаться другими подходами. Некоторые из них могут быть основаны на расстоянии. [20] [21] и на основе плотности, например, локальный коэффициент выбросов (LOF). [22] Некоторые подходы могут использовать расстояние до k-ближайших соседей , чтобы пометить наблюдения как выбросы или не выбросы. [23]
Модифицированный тау-тест Томпсона
[ редактировать ]Модифицированный тау-тест Томпсона. [ нужна ссылка ] — это метод, используемый для определения наличия выброса в наборе данных. Сила этого метода заключается в том, что он учитывает стандартное отклонение набора данных, среднее значение и обеспечивает статистически определенную зону отклонения; тем самым предоставляя объективный метод определения того, является ли точка данных выбросом. [ нужна ссылка ] [24] Как это работает:Сначала определяется среднее значение набора данных. Затем определяется абсолютное отклонение между каждой точкой данных и средним значением. В-третьих, определяется область отбраковки по формуле:
- ;
где — критическое значение распределения Стьюдента с n - 2 степенями свободы, n — размер выборки, а s — стандартное отклонение выборки.Чтобы определить, является ли значение выбросом:Рассчитать .Если δ > Область отклонения, точка данных является выбросом.Если δ ≤ Область отклонения, точка данных не является выбросом.
Модифицированный тест Томпсона Тау используется для поиска одного выброса за раз (наибольшее значение δ удаляется, если оно является выбросом). Это означает, что если точка данных оказывается выбросом, она удаляется из набора данных, и тест применяется снова с новым средним значением и областью отклонения. Этот процесс продолжается до тех пор, пока в наборе данных не останется выбросов.
В некоторых работах также изучались выбросы номинальных (или категориальных) данных. В контексте набора примеров (или экземпляров) в наборе данных жесткость экземпляра измеряет вероятность того, что экземпляр будет неправильно классифицирован ( где y — назначенная метка класса, а x — значение входного атрибута для экземпляра в обучающем наборе t ). [25] В идеале жесткость экземпляра должна рассчитываться путем суммирования набора всех возможных гипотез H :
На практике эта формулировка неосуществима, поскольку H потенциально бесконечен и вычисляет неизвестно для многих алгоритмов. Таким образом, твердость экземпляра можно аппроксимировать, используя разнообразное подмножество :
где это гипотеза, вызванная алгоритмом обучения обучен на обучающем наборе t с гиперпараметрами . Твердость экземпляра предоставляет непрерывное значение для определения того, является ли экземпляр экземпляром-выбросом.
Работа с выбросами
[ редактировать ]Выбор способа борьбы с выбросом должен зависеть от причины. Некоторые средства оценки очень чувствительны к выбросам, особенно оценка ковариационных матриц .
Удержание
[ редактировать ]Даже если модель нормального распределения подходит для анализируемых данных, для больших размеров выборки ожидаются выбросы, и в этом случае их не следует автоматически отбрасывать. [26] Вместо этого следует использовать метод, устойчивый к выбросам, для моделирования или анализа данных с естественными выбросами. [26]
Исключение
[ редактировать ]При принятии решения об удалении выброса необходимо учитывать причину. Как упоминалось ранее, если происхождение выброса можно объяснить экспериментальной ошибкой или если иным образом можно определить, что исходящая точка данных ошибочна, обычно рекомендуется удалить ее. [26] [27] Однако более желательно исправить ошибочное значение, если это возможно.
С другой стороны, удаление точки данных только потому, что она является выбросом, является спорной практикой, часто осуждаемой многими учеными и преподавателями естественных наук, поскольку это обычно делает статистические результаты недействительными. [26] [27] Хотя математические критерии обеспечивают объективный и количественный метод отклонения данных, они не делают эту практику более обоснованной с научной или методологической точки зрения, особенно в небольших наборах или там, где невозможно предположить нормальное распределение. Отклонение выбросов более приемлемо в тех областях практики, где достоверно известны базовая модель измеряемого процесса и обычное распределение ошибок измерения.
Двумя распространенными подходами к исключению выбросов являются усечение (или обрезка) и Winsorising . Обрезка отбрасывает выбросы, тогда как Winsorising заменяет выбросы ближайшими «неподозрительными» данными. [28] Исключение также может быть следствием процесса измерения, например, когда эксперимент не полностью способен измерить такие экстремальные значения, что приводит к цензуре данных. [29]
В задачах регрессии альтернативным подходом может быть исключение только тех точек, которые оказывают большое влияние на оцененные коэффициенты, с использованием такой меры, как расстояние Кука . [30]
Если точка данных (или точки) исключена из анализа данных , это должно быть четко указано в любом последующем отчете.
Ненормальные распределения
[ редактировать ]Следует учитывать возможность того, что основное распределение данных не является примерно нормальным и имеет « толстые хвосты ». Например, при выборке из распределения Коши , [31] дисперсия выборки увеличивается с увеличением размера выборки, среднее значение выборки не сходится по мере увеличения размера выборки, а выбросы ожидаются с гораздо большей частотой, чем при нормальном распределении. Даже небольшая разница в толщине хвостов может существенно повлиять на ожидаемое количество экстремальных значений.
Неопределенности членства в множестве
[ редактировать ]предполагает Подход к членству в наборе , что неопределенность, соответствующая i -му измерению неизвестного случайного вектора x, представлена набором X i (вместо функции плотности вероятности). Если выбросов нет, x должен принадлежать пересечению всех X i . При возникновении выбросов это пересечение может быть пустым, и нам следует ослабить небольшое количество наборов X i (как можно меньше), чтобы избежать несогласованности. [32] Это можно сделать, используя понятие q - релаксированного пересечения . Как показано на рисунке, q -релаксированное пересечение соответствует множеству всех x , которые принадлежат всем наборам, кроме q . Множества X i , которые не пересекают q -релаксированное пересечение, можно заподозрить как выбросы.
Альтернативные модели
[ редактировать ]В тех случаях, когда причина выбросов известна, возможно включить этот эффект в структуру модели, например, используя иерархическую модель Байеса или смешанную модель . [33] [34]
См. также
[ редактировать ]- Аномалия (естественные науки)
- Обнаружение новинок
- квартет Анскомба
- Преобразование данных (статистика)
- Теория экстремальных ценностей
- Влиятельное наблюдение
- Консенсус случайной выборки
- Устойчивая регрессия
- Стьюдентизированный остаток
- Винсоризация
Ссылки
[ редактировать ]- ^ Граббс, Ф.Е. (февраль 1969 г.). «Процедуры обнаружения посторонних наблюдений в выборках». Технометрика . 11 (1): 1–21. дои : 10.1080/00401706.1969.10490657 .
Исключительное наблюдение, или «выброс», — это наблюдение, которое заметно отличается от других членов выборки, в которой оно встречается.
- ^ Маддала, GS (1992). «Выбросы» . Введение в эконометрику (2-е изд.). Нью-Йорк: Макмиллан. стр. 89 . ISBN 978-0-02-374545-4 .
Выброс — это наблюдение, которое далеко удалено от остальных наблюдений.
- ^ Пиментель, Массачусетс, Клифтон, Д.А., Клифтон, Л., и Тарасенко, Л. (2014). Обзор обнаружения новизны. Обработка сигналов, 99, 215–249.
- ^ Граббс 1969 , с. 1, в котором говорится: «Отклоняющееся наблюдение может быть просто крайним проявлением случайной изменчивости, присущей данным. ... С другой стороны, отдаленное наблюдение может быть результатом грубого отклонения от предписанной экспериментальной процедуры или ошибки в расчетах или регистрации. числовое значение».
- ^ Рипли, Брайан Д. 2004. Надежная статистика. Архивировано 21 октября 2012 г. в Wayback Machine.
- ^ Чандан Мукерджи, Ховард Уайт, Марк Вуйтс, 1998, «Эконометрика и анализ данных для развивающихся стран, том 1» [1]
- ^ Руан, Да ; Чен, Гоцин; Керре, Этьен (2005). Уэтс, Г. (ред.). Интеллектуальный интеллектуальный анализ данных: методы и приложения . Исследования в области вычислительного интеллекта Vol. 5. Спрингер. п. 318 . ISBN 978-3-540-26256-5 .
- ^ Зимек, Артур; Фильцмозер, Питер (2018). «Туда и обратно: обнаружение выбросов между статистическими рассуждениями и алгоритмами интеллектуального анализа данных» (PDF) . Междисциплинарные обзоры Wiley: интеллектуальный анализ данных и обнаружение знаний . 8 (6): e1280. дои : 10.1002/widm.1280 . ISSN 1942-4787 . S2CID 53305944 . Архивировано из оригинала (PDF) 14 ноября 2021 г. Проверено 11 декабря 2019 г.
- ^ Пиментель, Массачусетс, Клифтон, Д.А., Клифтон, Л., и Тарасенко, Л. (2014). Обзор обнаружения новизны. Обработка сигналов, 99, 215–249.
- ^ Руссеу, П ; Лерой, А. (1996), Робастная регрессия и обнаружение выбросов (3-е изд.), John Wiley & Sons
- ^ Ходж, Виктория Дж.; Остин, Джим (2004), «Обзор методологий обнаружения выбросов», Обзор искусственного интеллекта , 22 (2): 85–126, CiteSeerX 10.1.1.109.1943 , doi : 10.1023/B:AIRE.0000045502.10941.a9 , S2CID 3330313
- ^ Барнетт, Вик; Льюис, Тоби (1994) [1978], Выбросы в статистических данных (3-е изд.), Wiley, ISBN 978-0-471-93094-5
- ^ Jump up to: а б Зимек, А.; Шуберт, Э.; Кригель, Х.-П. (2012). «Опрос по неконтролируемому обнаружению выбросов в многомерных числовых данных». Статистический анализ и интеллектуальный анализ данных . 5 (5): 363–387. дои : 10.1002/sam.11161 . S2CID 6724536 .
- ^ E178: Стандартная практика работы с отдаленными наблюдениями
- ^ Бенджамин Пирс , «Критерий отклонения сомнительных наблюдений» , Astronomical Journal II 45 (1852 г.) и исправления к оригинальной статье .
- ^ Пирс, Бенджамин (май 1877 – май 1878). «По критерию Пирса». Труды Американской академии искусств и наук . 13 : 348–351. дои : 10.2307/25138498 . JSTOR 25138498 .
- ^ Пирс, Чарльз Сандерс (1873) [1870]. «Приложение № 21. К теории ошибок наблюдения». Отчет суперинтенданта береговой службы США, показывающий ход исследования в 1870 году : 200–224. . Электронная версия NOAA PDF (переходит к стр. 200 отчета, стр. 215 PDF-файла).
- ^ Пирс, Чарльз Сандерс (1986) [1982]. «К теории ошибок наблюдения». В Клозеле, Кристиан Дж.В.; и др. (ред.). Сочинения Чарльза С. Пирса: хронологическое издание . Том. 3, 1872–1878. Блумингтон, Индиана: Издательство Университета Индианы. стр. 140–160 . ISBN 978-0-253-37201-7 . – Приложение 21, согласно примечанию редакции на стр. 515.
- ^ Тьюки, Джон В. (1977). Исследовательский анализ данных . Аддисон-Уэсли. ISBN 978-0-201-07616-5 . ОСЛК 3058187 .
- ^ Кнорр, Э.М.; Нг, РТ; Туцаков, В. (2000). «Выбросы на основе расстояния: алгоритмы и приложения». Журнал VLDB — международный журнал по очень большим базам данных . 8 (3–4): 237. CiteSeerX 10.1.1.43.1842 . дои : 10.1007/s007780050006 . S2CID 11707259 .
- ^ Рамасвами, С.; Растоги, Р.; Шим, К. (2000). Эффективные алгоритмы обнаружения выбросов из больших наборов данных . Материалы международной конференции ACM SIGMOD 2000 г. по управлению данными - SIGMOD '00. п. 427. дои : 10.1145/342009.335437 . ISBN 1581132174 .
- ^ Брюниг, ММ; Кригель, Х.-П. ; Нг, РТ; Сандер, Дж. (2000). LOF: Идентификация локальных выбросов на основе плотности (PDF) . Материалы Международной конференции ACM SIGMOD 2000 года по управлению данными . СИГМОД . стр. 93–104. дои : 10.1145/335191.335388 . ISBN 1-58113-217-4 .
- ^ Шуберт, Э.; Зимек, А.; Кригель, Х.-П. (2012). «Переосмысление обнаружения локальных выбросов: обобщенный взгляд на местность с приложениями для обнаружения пространственных, видео и сетевых выбросов». Интеллектуальный анализ данных и обнаружение знаний . 28 : 190–237. дои : 10.1007/s10618-012-0300-z . S2CID 19036098 .
- ^ Томпсон .Р. (1985). « Заметка об ограниченной оценке максимального правдоподобия с использованием альтернативной модели выбросов ». Журнал Королевского статистического общества. Серия Б (Методическая), Том. 47, № 1, стр. 53-55.
- ^ Смит, MR; Мартинес, Т.; Жиро-Кэррье, К. (2014). « Анализ сложности данных на уровне экземпляра ». Машинное обучение, 95(2): 225–256.
- ^ Jump up to: а б с д Карч, Джулиан Д. (2023). «Выбросы не могут быть удалены автоматически» . Журнал экспериментальной психологии: Общие сведения . 152 (6): 1735–1753. дои : 10.1037/xge0001357 . ПМИД 37104797 . S2CID 258376426 .
- ^ Jump up to: а б Баккер, Марьян; Вихертс, Желте М. (2014). «Удаление выбросов, сумма баллов и увеличение частоты ошибок типа I в независимых выборках t-тестов: сила альтернатив и рекомендаций». Психологические методы . 19 (3): 409–427. дои : 10.1037/met0000014 . ПМИД 24773354 .
- ^ Вайк, Эдвард Л. (2006). Анализ данных: статистический учебник для студентов-психологов . Издатели транзакций. стр. 24–25. ISBN 9780202365350 .
- ^ Диксон, WJ (июнь 1960 г.). «Упрощенная оценка по цензурированным нормальным образцам» . Анналы математической статистики . 31 (2): 385–391. дои : 10.1214/aoms/1177705900 .
- ^ Кук, Р. Деннис (февраль 1977 г.). «Обнаружение влиятельных наблюдений в линейной регрессии». Технометрика (Американская статистическая ассоциация) 19 (1): 15–18.
- ^ Вайсштейн, Эрик В. Коши. Распределение. Из MathWorld — веб-ресурса Wolfram
- ^ Жолен, Л. (2010). «Вероятностный подход к членству в наборе для устойчивой регрессии» (PDF) . Журнал статистической теории и практики . 4 : 155–167. дои : 10.1080/15598608.2010.10411978 . S2CID 16500768 .
- ^ Робертс, С. и Тарасенко, Л.: 1995, Вероятностная сеть распределения ресурсов для обнаружения новизны. Нейронные вычисления 6, 270–284.
- ^ Бишоп, КМ (август 1994 г.). «Обнаружение новинок и проверка нейронной сети». Слушания IEE - Видение, изображение и обработка сигналов . 141 (4): 217–222. дои : 10.1049/ip-vis:19941330 .
Внешние ссылки
[ редактировать ]- Рензе, Джон. «Аутсайдер» . Математический мир .
- Балакришнан, Н.; Чайлдс, А. (2001) [1994], «Выброс» , Энциклопедия математики , EMS Press
- Тест Граббса, описанный в руководстве NIST.