Отклонение (статистика)
Эта статья нуждается в дополнительных цитатах для проверки . ( ноябрь 2022 г. ) |
В математике и статистике служит мерой отклонение количественной оценки несоответствия между наблюдаемым значением переменной и другим назначенным значением, часто средним значением этой переменной. Отклонения относительно выборочного среднего и генерального среднего (или « истинного значения ») называются ошибками и остатками соответственно. Знак . отклонения указывает направление этой разницы: отклонение является положительным, когда наблюдаемое значение превышает опорное значение Абсолютное значение отклонения указывает на размер или величину разницы. В данной выборке имеется столько отклонений, сколько точек выборки . Сводная статистика может быть получена на основе набора отклонений, таких как стандартное отклонение и среднее абсолютное отклонение , меры дисперсии , и среднее знаковое отклонение , мера систематической ошибки. [1]
Отклонение каждой точки данных рассчитывается путем вычитания среднего значения набора данных из отдельной точки данных. Математически отклонение d точки данных x в наборе данных определяется выражением
Этот расчет представляет собой «расстояние» точки данных от среднего значения и предоставляет информацию о том, насколько отдельные значения отличаются от среднего. Положительные отклонения указывают на значения выше среднего, а отрицательные отклонения указывают на значения ниже среднего. [1]
Сумма квадратов отклонений является ключевым компонентом расчета дисперсии , еще одной мерой разброса или дисперсии набора данных. Дисперсия рассчитывается путем усреднения квадратов отклонений. Отклонение является фундаментальной концепцией для понимания распределения и изменчивости точек данных в статистическом анализе. [1]
Типы
[ редактировать ]Отклонение, которое представляет собой разницу между наблюдаемым значением и истинным значением интересующей величины (где истинное значение обозначает ожидаемое значение, например среднее значение генеральной совокупности), является ошибкой. [2]
Знаковые отклонения
[ редактировать ]Отклонение, которое представляет собой разницу между наблюдаемым значением и оценкой истинного значения (например, выборочного среднего), является остатком . Эти концепции применимы к данным на интервальном и относительном уровнях измерения. [3]
Беззнаковое или абсолютное отклонение
[ редактировать ]- Абсолютное отклонение в статистике — это показатель, который измеряет общую разницу между отдельными точками данных и центральным значением, обычно средним или медианным значением набора данных. Оно определяется путем взятия абсолютного значения разницы между каждой точкой данных и центральным значением и последующего усреднения этих абсолютных различий. [4] Формула выражается следующим образом:
где
- D i – абсолютное отклонение,
- x i — элемент данных,
- m ( X ) — выбранная мера центральной тенденции набора данных — иногда среднее значение ( ), но чаще всего медианное .
Среднее абсолютное отклонение (AAD) в статистике — это мера дисперсии или разброса набора точек данных вокруг центрального значения, обычно среднего или медианы. Он рассчитывается путем взятия среднего значения абсолютных разностей между каждой точкой данных и выбранным центральным значением. AAD позволяет измерить типичную величину отклонений от центрального значения в наборе данных, что дает представление об общей изменчивости данных. [5]
Наименьшее абсолютное отклонение (LAD) — это статистический метод, используемый в регрессионном анализе для оценки коэффициентов линейной модели. В отличие от более распространенного метода наименьших квадратов, который минимизирует сумму квадратов вертикальных расстояний (остатков) между наблюдаемыми и прогнозируемыми значениями, метод LAD минимизирует сумму абсолютных вертикальных расстояний.
В контексте линейной регрессии, если ( x 1 , y 1 ), ( x 2 , y 2 ), ... являются точками данных, а a и b являются коэффициентами, которые необходимо оценить для линейной модели.
оценки наименьшего абсолютного отклонения ( a и b ) получаются путем минимизации суммы.
Метод LAD менее чувствителен к выбросам по сравнению с методом наименьших квадратов, что делает его надежным методом регрессии при наличии асимметричных или тяжелых распределений остатков. [6]
Сводная статистика
[ редактировать ]Среднее знаковое отклонение
[ редактировать ]Для несмещенной оценки среднее значение отклонений со знаком по всему набору всех наблюдений от ненаблюдаемого значения параметра совокупности равно нулю по сколь угодно большому количеству выборок. Однако по построению среднее знаковое отклонение значений от выборочного среднего значения всегда равно нулю, хотя среднее знаковое отклонение от другого показателя центральной тенденции, такого как выборочная медиана, не обязательно должно быть нулевым.
Среднее знаковое отклонение — это статистическая мера, используемая для оценки среднего отклонения набора значений от центральной точки, обычно среднего значения. Он рассчитывается путем взятия среднего арифметического знаковых разностей между каждой точкой данных и среднего значения набора данных.
Термин «подписанный» указывает на то, что отклонения рассматриваются с соответствующими знаками, означающими, находятся ли они выше или ниже среднего значения. В расчет включаются положительные отклонения (выше среднего) и отрицательные отклонения (ниже среднего). Среднее знаковое отклонение позволяет измерить среднее расстояние и направление точек данных от среднего значения, что дает представление об общей тенденции и распределении данных. [3]
Дисперсия
[ редактировать ]используется статистика распределения отклонений В качестве меры статистической дисперсии .
- Стандартное отклонение — это широко используемая мера разброса или дисперсии набора данных. Он количественно определяет среднюю величину отклонения или отклонения отдельных точек данных от среднего значения набора данных. Он использует квадратичные отклонения и имеет желаемые свойства. Стандартное отклонение чувствительно к экстремальным значениям, что делает его неустойчивым . [7]
- Среднее абсолютное отклонение — это мера дисперсии в наборе данных, на которую меньше влияют экстремальные значения. Он рассчитывается путем нахождения абсолютной разницы между каждой точкой данных и средним значением, суммирования этих абсолютных различий и последующего деления на количество наблюдений. Этот показатель обеспечивает более надежную оценку изменчивости по сравнению со стандартным отклонением. [8]
- Медианное абсолютное отклонение — это надежная статистика, которая использует медиану, а не среднее значение, для измерения разброса набора данных. Он рассчитывается путем нахождения абсолютной разницы между каждой точкой данных и медианой, а затем вычисления медианы этих абсолютных различий. Это делает медианное абсолютное отклонение менее чувствительным к выбросам, предлагая надежную альтернативу стандартному отклонению. [9]
- Максимальное абсолютное отклонение — это прямая мера максимальной разницы между любой отдельной точкой данных и средним значением набора данных. Однако он весьма неустойчив, поскольку на него может непропорционально влиять одно экстремальное значение. Эта метрика может не обеспечивать надежную меру дисперсии при работе с наборами данных, содержащими выбросы. [8]
Нормализация
[ редактировать ]Отклонения, которые измеряют разницу между наблюдаемыми значениями и некоторой контрольной точкой, по своей сути имеют единицы, соответствующие используемой шкале измерений. Например, если измеряется длина, отклонения будут выражаться в таких единицах, как метры или футы. Чтобы сделать отклонения безразмерными и облегчить сравнение между различными наборами данных, можно обезразмерить .
Один из распространенных методов включает деление отклонений на меру масштаба ( статистическая дисперсия ), при этом стандартное отклонение генеральной совокупности используется для стандартизации или стандартное отклонение выборки для стьюдентизации (например, стьюдентизированный остаток ).
Другой подход к обезразмериванию фокусируется на масштабировании по местоположению, а не на дисперсии. Процентное отклонение служит иллюстрацией этого метода и рассчитывается как разница между наблюдаемым значением и принятым значением, деленная на принятое значение и затем умноженная на 100%. Масштабируя отклонение на основе принятого значения, этот метод позволяет выразить отклонения в процентах, обеспечивая четкое представление об относительной разнице между наблюдаемыми и принятыми значениями. Оба метода обезразмеривания служат цели сделать отклонения сопоставимыми и интерпретируемыми за пределами конкретных единиц измерения. [10]
Примеры
[ редактировать ]В одном примере проводится серия измерений скорости звука в конкретной среде. Принятое или ожидаемое значение скорости звука в этой среде, основанное на теоретических расчетах, составляет 343 метра в секунду.
Сейчас в ходе эксперимента разные исследователи проводят множественные измерения. Исследователь А измеряет скорость звука как 340 метров в секунду, что приводит к отклонению на -3 метра в секунду от ожидаемого значения. Исследователь Б, с другой стороны, измеряет скорость как 345 метров в секунду, что приводит к отклонению +2 метра в секунду.
В этом научном контексте отклонение помогает количественно определить, насколько отдельные измерения отличаются от теоретически предсказанного или принятого значения. Он дает представление о точности и точности экспериментальных результатов, позволяя исследователям оценить надежность своих данных и потенциально выявить факторы, способствующие расхождениям.
В другом примере предположим, что в результате химической реакции ожидается получение 100 граммов определенного соединения, основанного на стехиометрии. Однако в реальном лабораторном эксперименте проводится несколько испытаний в разных условиях.
В испытании 1 фактический выход составил 95 граммов, что привело к отклонению на -5 граммов от ожидаемого выхода. В испытании 2 фактический выход составил 102 грамма, что привело к отклонению +2 грамма. Эти отклонения от ожидаемого значения дают ценную информацию об эффективности и воспроизводимости химической реакции в различных условиях.
Ученые могут анализировать эти отклонения, чтобы оптимизировать условия реакции, выявить потенциальные источники ошибок и повысить общий выход и надежность процесса. Концепция отклонения имеет решающее значение для оценки точности экспериментальных результатов и принятия обоснованных решений для улучшения результатов научных экспериментов.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с Ли, Дон Гю; Ин, Джунён; Ли, Сансок (2015). «Стандартное отклонение и стандартная ошибка среднего» . Корейский журнал анестезиологии . 68 (3): 220. дои : 10.4097/kjae.2015.68.3.220 . ISSN 2005-6419 . ПМЦ 4452664 .
- ^ Ливингстон, Эдвард Х. (июнь 2004 г.). «Среднее и стандартное отклонение: что все это значит?» . Журнал хирургических исследований . 119 (2): 117–123. дои : 10.1016/j.jss.2004.02.008 . ISSN 0022-4804 .
- ^ Jump up to: а б Додж, Ядола, изд. (07 августа 2003 г.). Оксфордский словарь статистических терминов . Издательство Оксфордского университета, Оксфорд. ISBN 978-0-19-850994-3 .
- ^ Конно, Хироши; Кошизука, Томоюки (1 октября 2005 г.). «Модель среднего-абсолютного отклонения» . Операции IIE . 37 (10): 893–900. дои : 10.1080/07408170591007786 . ISSN 0740-817X .
- ^ Фам-Гиа, Т.; Хунг, TL (1 октября 2001 г.). «Средние и медианные абсолютные отклонения» . Математическое и компьютерное моделирование . 34 (7): 921–936. дои : 10.1016/S0895-7177(01)00109-1 . ISSN 0895-7177 .
- ^ Чен, Кани; Ин, Чжилян (1 апреля 1996 г.). «Контрпример к гипотезе о полосе Холла-Веллнера» . Анналы статистики . 24 (2). дои : 10.1214/aos/1032894456 . ISSN 0090-5364 .
- ^ «2. Среднее и стандартное отклонение | BMJ» . БМЖ | BMJ: ведущий общий медицинский журнал. Исследовать. Образование. Комментарий . 28.10.2020 . Проверено 2 ноября 2022 г.
- ^ Jump up to: а б Фам-Гиа, Т.; Хунг, TL (1 октября 2001 г.). «Средние и медианные абсолютные отклонения» . Математическое и компьютерное моделирование . 34 (7): 921–936. дои : 10.1016/S0895-7177(01)00109-1 . ISSN 0895-7177 .
- ^ Джонс, Алан Р. (9 октября 2018 г.). Вероятность, статистика и другие пугающие вещи . Рутледж. п. 73. ИСБН 978-1-351-66138-6 .
- ^ Фридман, Дэвид; Пизани, Роберт; Первс, Роджер (2007). Статистика (4-е изд.). Нью-Йорк: Нортон. ISBN 978-0-393-93043-6 .