Критерий Шовене
Эта статья нуждается в дополнительных цитатах для проверки . ( июль 2013 г. ) |
В статистической теории критерий Шовене (названный в честь Уильяма Шовене [ 1 ] ) — это средство оценки того, может ли одна часть экспериментальных данных — выброс — из набора наблюдений быть ложной. [ 2 ]
Вывод
[ редактировать ]Идея, лежащая в основе критерия Шовене, заключается в поиске вероятностного диапазона, который разумно содержит все n выборок набора данных, сосредоточенных на среднем значении нормального распределения . При этом любую точку данных из n выборок, которая лежит за пределами этого диапазона вероятности, можно считать выбросом , удалить из набора данных, и можно рассчитать новое среднее и стандартное отклонение на основе оставшихся значений и нового размера выборки. Такая идентификация выбросов будет достигнута путем нахождения количества стандартных отклонений, которые соответствуют границам диапазона вероятности вокруг среднего значения ( ) и сравнение этого значения с абсолютным значением разницы между предполагаемыми выбросами и средним значением, деленным на стандартное отклонение выборки (уравнение 1).
( 1 ) |
где
- – максимально допустимое отклонение,
- это абсолютное значение,
- значение предполагаемого выброса,
- является выборочным средним, и
- — стандартное отклонение выборки.
Чтобы считаться включающим все наблюдений в выборке, полоса вероятности (с центром по среднему значению) должна учитывать только образцы (если тогда только 2,5 выборки должны быть учтены в полосе вероятности). На самом деле у нас не может быть частичных выборок, поэтому (2,5 за ) примерно . Что-нибудь меньше, чем примерно (2, если ) и недействителен, поскольку мы хотим найти диапазон вероятностей, содержащий наблюдения, не образцы. Короче говоря, мы ищем вероятность, , что равно из образцы (уравнение 2).
( 2 ) |
где
- - это полоса вероятности, центрированная на выборочном среднем и
- это размер выборки.
Количество соответствует объединенной вероятности, представленной двумя хвостами нормального распределения, выходящими за пределы диапазона вероятностей. . Чтобы найти уровень стандартного отклонения, связанный с , необходимо анализировать только вероятность одного из хвостов нормального распределения из-за его симметрии (уравнение 3).
( 3 ) |
где
- вероятность представлена одним хвостом нормального распределения и
- = размер выборки.
Уравнение 1 аналогично уравнение -оценки (уравнение 4).
( 4 ) |
где
- это -счет,
- это выборочное значение,
- является средним значением стандартного нормального распределения, а
- — стандартное отклонение стандартного нормального распределения.
На основании уравнения 4 найти (Уравнение 1) найдите z-показатель, соответствующий в -таблица баллов. равен баллу за . Используя этот метод можно определить для любого размера выборки. В Excel можно найти по следующей формуле: =ABS(НОРМ.С.ОБР(1/(4 n ))).
Расчет
[ редактировать ]Чтобы применить критерий Шовене, сначала рассчитайте среднее и стандартное отклонение наблюдаемых данных. В зависимости от того, насколько подозрительные данные отличаются от среднего, используйте функцию нормального распределения (или ее таблицу), чтобы определить вероятность того, что данная точка данных будет иметь значение подозрительной точки данных. Умножьте эту вероятность на количество взятых точек данных. Если результат меньше 0,5, подозрительная точка данных может быть отброшена, т. е. показания могут быть отклонены, если вероятность получения конкретного отклонения от среднего значения меньше, чем . [ нужна ссылка ]
Пример
[ редактировать ]Например, предположим, что значение измерено экспериментально в нескольких испытаниях как 9, 10, 10, 10, 11 и 50, и мы хотим выяснить, является ли 50 выбросом.
Сначала мы находим .
Затем мы находим подключив в функцию квантиля .
Затем мы находим z-оценку, равную 50.
Отсюда мы видим, что и можем заключить, что 50 — это выброс согласно критерию Шовене.
Критерий Пирса
[ редактировать ]Другой метод устранения ложных данных называется критерием Пирса . Он был разработан за несколько лет до публикации критерия Шовене и представляет собой более строгий подход к рациональному удалению выбросов. [ 3 ] Другие методы, такие как тест Граббса на выбросы, упомянуты в списке Outlier . [ нужна ссылка ]
Критика
[ редактировать ]Удаление выбросов — спорная практика, не одобряемая многими учеными и преподавателями естественных наук; хотя критерий Шовене обеспечивает объективный и количественный метод отклонения данных, он не делает эту практику более обоснованной с научной или методологической точки зрения, особенно в небольших наборах или там, где нормальное распределение нельзя предположить . Отклонение выбросов более приемлемо в тех областях практики, где достоверно известны базовая модель измеряемого процесса и обычное распределение ошибок измерения.
Ссылки
[ редактировать ]- ^ Шовене, Уильям. Руководство по сферической и практической астрономии V. II. 1863. Перепечатка 1891 года. 5-е изд. Дувр, Нью-Йорк: 1960. стр. 474–566.
- ^ Фратта, М; Скаринги, С; Дрю, Дж. Э.; Монгио, М; Книгге, К; Маккароне, Ти Джей; Суд, JMC; Илкевич, К.А.; Пала, А.Ф.; Ганди, П; Генсике, Б. (21 июля 2021 г.). «Популяционная идентификация источников избытка H α в каталогах Gaia DR2 и IPHAS» . Ежемесячные уведомления Королевского астрономического общества . 505 (1): 1135–1152. дои : 10.1093/mnras/stab1258 . hdl : 2117/366137 . ISSN 0035-8711 .
- ^ Росс, доктор философии, Стивен (2003). Статья Университета Нью-Хейвена. Дж. Энгр. Technology, осень 2003 г. Получено с https://www.researchgate.net/profile/Stephen-Ross-9 .
Библиография
[ редактировать ]- Тейлор, Джон Р. Введение в анализ ошибок . 2-е издание. Саусалито, Калифорния: Университетские научные книги, 1997. стр. 166–8.
- Барнетт, Вик и Льюис, Тоби. «Выбросы в статистических данных». 3-е издание. Чичестер: Дж. Уайли и сыновья, 1994. ISBN 0-471-93094-6 .
- Айша Зербет, Михаил Никулин. Новая статистика для обнаружения выбросов в экспоненциальном случае, Коммуникации в статистике: теория и методы, 2003, т.32, стр. 573–584.