Jump to content

медиана

(Перенаправлено со стандартной ошибки медианы )
Нахождение медианы в наборах данных с нечетным и четным количеством значений

Медиана данных набора чисел — это значение, отделяющее верхнюю половину от нижней половины выборки , генеральной совокупности или распределения вероятностей . Для набора данных его можно рассматривать как «среднее» значение. Основная особенность медианы при описании данных по сравнению со средним значением ( часто описываемым просто как «среднее») заключается в том, что оно не искажено на небольшую долю . Например, медианный доход может быть лучшим способом описания центра распределения доходов, поскольку увеличение крупнейших доходов само по себе не влияет на медиану По этой причине медиана имеет центральное значение в надежной статистике .

Конечный набор чисел

[ редактировать ]

Медиана конечного списка чисел — это «среднее» число, когда эти числа перечислены в порядке от наименьшего к наибольшему.

Если набор данных имеет нечетное количество наблюдений, выбирается среднее. Например, следующий список из семи чисел:

1, 3, 3, 6 , 7, 8, 9

имеет медиану 6 , что является четвертым значением.

Если в наборе данных четное количество наблюдений, четкого среднего значения не существует, и медиана обычно определяется как среднее арифметическое двух средних значений. [1] [2] Например, этот набор данных из 8 чисел

1, 2, 3, 4, 5 , 6, 8, 9

имеет медианное значение 4,5 , то есть . (В более технических терминах медиана интерпретируется как полностью урезанный средний диапазон ).

В общем, согласно этому соглашению, медиану можно определить следующим образом: Для набора данных из элементы, упорядоченные от меньшего к большему,

если странно,
если даже,
Сравнение общих средних значений [1, 2, 2, 3, 4, 7, 9]
Тип Описание Пример Результат
Средний уровень Средняя точка между минимумом и максимумом набора данных 1 , 2, 2, 3, 4, 7, 9 5
Среднее арифметическое Сумма значений набора данных, деленная на количество значений: (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
медиана Среднее значение, разделяющее большую и меньшую половины набора данных 1, 2, 2, 3 , 4, 7, 9 3
Режим Наиболее частое значение в наборе данных 1, 2 , 2 , 3, 4, 7, 9 2

Формальное определение и обозначения

[ редактировать ]

Формально медиана населения это любое значение, при котором по крайней мере половина населения меньше или равна предлагаемой медиане и по крайней мере половина больше или равна предлагаемой медиане. Как видно выше, медианы могут не быть уникальными. Если каждый набор содержит более половины населения, то часть населения в точности равна уникальной медиане.

Медиана четко определена для любых упорядоченных (одномерных) данных и не зависит от какой-либо метрики расстояния . Таким образом, медиану можно применять к школьным классам, которые ранжируются, но не являются числовыми (например, вычисление средней оценки, когда результаты тестов учащихся оцениваются от F до A), хотя результат может быть на полпути между классами, если количество классов четное. . (Для классов с нечетными числами один конкретный класс определяется как медиана.)

С другой стороны, геометрическая медиана определяется в любом количестве измерений. Родственная концепция, в которой результат вынужден соответствовать члену выборки, — это медоид .

Не существует общепринятого стандартного обозначения медианы, но некоторые авторы представляют медиану переменной x как med( x ), , [3] как μ 1/2 , [1] или М. как [3] [4] В любом из этих случаев использование тех или иных символов медианы должно быть явно определено при их введении.

Медиана является частным случаем других способов суммирования типичных значений, связанных со статистическим распределением : это 2-й квартиль , 5-й дециль и 50-й процентиль .

Использование

[ редактировать ]

Медиану можно использовать в качестве меры местоположения , когда экстремальным значениям придается меньшее значение, обычно потому, что распределение искажено , экстремальные значения неизвестны или выбросы не заслуживают доверия, т. е. могут быть ошибками измерения/транскрипции.

Например, рассмотрим мультимножество

1, 2, 2, 2, 3, 14.

В данном случае медиана равна 2, как и мода , и ее можно рассматривать как лучшее указание на центр, чем среднее арифметическое 4, которое больше, чем все значения, кроме одного. Однако широко цитируемое эмпирическое соотношение, согласно которому среднее значение смещается «дальше в хвост» распределения, чем медиана, в целом не соответствует действительности. В лучшем случае можно сказать, что эти две статистики не могут находиться «слишком далеко» друг от друга; см. § Средние значения и медианы, относящиеся к неравенству, ниже. [5]

Поскольку медиана основана на средних данных в наборе, для ее расчета не обязательно знать значение крайних результатов. Например, в психологическом тесте, исследующем время, необходимое для решения проблемы, если небольшому количеству людей вообще не удалось решить проблему за заданное время, все равно можно рассчитать медиану. [6]

Поскольку медиану легко понять и легко рассчитать, а также она является надежным приближением к среднему значению , медиана является популярной сводной статистикой в ​​описательной статистике . В этом контексте существует несколько вариантов измерения изменчивости : диапазон , межквартильный диапазон , среднее абсолютное отклонение и медианное абсолютное отклонение .

В практических целях различные показатели местоположения и дисперсии часто сравниваются на основе того, насколько хорошо можно оценить соответствующие значения численности населения на основе выборки данных. Медиана, рассчитанная с использованием выборочной медианы, имеет в этом отношении хорошие свойства. Хотя обычно предполагается, что данное распределение населения не является оптимальным, его свойства всегда достаточно хорошие. Например, сравнение эффективности оценщиков -кандидатов показывает, что выборочное среднее является более статистически эффективным, когда — и только тогда — данные не загрязнены данными из распределений с тяжелым хвостом или из смесей распределений. [ нужна ссылка ] Даже в этом случае эффективность медианы составляет 64% по сравнению со средним значением минимальной дисперсии (для больших нормальных выборок), то есть дисперсия медианы будет примерно на 50% больше, чем дисперсия среднего значения. [7] [8]

Распределения вероятностей

[ редактировать ]

Для любого действительного с распределения вероятностей кумулятивной функцией распределения   F медиана определяется как любое действительное число m , которое удовлетворяет неравенствам (см. рисунок определения ожидаемого значения для произвольных действительных случайных величин ). Эквивалентная формулировка использует случайную величину X, распределенную согласно F :

Мода , медиана и среднее ( ожидаемое значение ) функции плотности вероятности [9]

Обратите внимание, что это определение не требует, чтобы X имело абсолютно непрерывное распределение (которое имеет функцию плотности вероятности f ), а также не требует дискретного распределения . В первом случае неравенства можно повысить до равенства: медиана удовлетворяет и

Любое распределение вероятностей на множестве действительных чисел имеет по крайней мере одну медиану, но в патологических случаях их может быть более одной: если F постоянна 1/2 на интервале (так что там f = 0), то любое значение этого интервала является медианой.

Медианы конкретных распределений

[ редактировать ]

Медианы некоторых типов распределений можно легко рассчитать по их параметрам; более того, они существуют даже для некоторых распределений, в которых отсутствует четко определенное среднее значение, таких как распределение Коши :

Характеристики

[ редактировать ]

Свойство оптимальности

[ редактировать ]

Средняя абсолютная ошибка действительной переменной c по отношению к случайной величине   X равна

При условии, что распределение вероятностей X таково, что вышеуказанное ожидание существует, тогда m является медианой X тогда и только тогда, когда m является минимизатором средней абсолютной ошибки по отношению к X . [11] В частности, если m — выборочная медиана, то она минимизирует среднее арифметическое абсолютных отклонений. [12] Однако обратите внимание, что в случаях, когда выборка содержит четное количество элементов, этот минимизатор не уникален.

В более общем смысле медиана определяется как минимум

как обсуждается ниже в разделе о многомерных медианах (в частности, пространственной медиане ).

Это основанное на оптимизации определение медианы полезно при статистическом анализе данных, например, при k кластеризации -медиан .

Неравенство, касающееся средних и медиан

[ редактировать ]
Сравнение среднего значения , медианы и моды двух логнормальных распределений с разной асимметрией

Если распределение имеет конечную дисперсию, то расстояние между медианой и среднее значение ограничено одним стандартным отклонением .

Эта граница была доказана Буком и Шером в 1979 году для дискретных выборок. [13] и в более общем смысле Пейджем и Мерти в 1982 году. [14] В комментарии к последующему доказательству О'Киннеида: [15] Мэллоуз в 1991 году представил компактное доказательство, в котором дважды используется неравенство Йенсена : [16] следующее. Использование |·| для абсолютного значения мы имеем

Первое и третье неравенства происходят из неравенства Йенсена, примененного к функции абсолютного значения и квадратичной функции, каждая из которых выпукла. Второе неравенство связано с тем, что медиана минимизирует абсолютного отклонения . функцию .

Доказательство Маллоуза можно обобщить, чтобы получить многомерную версию неравенства [17] просто заменив абсолютное значение нормой :

где m пространственная медиана , то есть минимизатор функции Пространственная медиана уникальна, если размерность набора данных равна двум или более. [18] [19]

Альтернативное доказательство использует одностороннее неравенство Чебышева; оно проявляется в неравенстве параметров местоположения и масштаба . Эта формула также следует непосредственно из неравенства Кантелли . [20]

Унимодальные распределения

[ редактировать ]

В случае унимодальных распределений можно добиться более четкой границы расстояния между медианой и средним значением:

. [21]

Аналогичное соотношение сохраняется между медианой и модой:

Среднее значение больше медианы для монотонных распределений.

Среднее, медиана и асимметрия

[ редактировать ]

Типичная эвристика состоит в том, что положительно асимметричные распределения имеют среднее значение > медианы. Это справедливо для всех членов семейства дистрибьюторов Пирсона . Однако это не всегда так. Например, в семействе распределений Вейбулла есть члены с положительным средним значением, но средним значением < медианы. Нарушения правила особенно распространены для дискретных распределений. Например, любое распределение Пуассона имеет положительную асимметрию, но его среднее значение < медианы всякий раз, когда . [22] Видеть [23] для контрольного эскиза.

Когда распределение имеет монотонно убывающую плотность вероятности, медиана меньше среднего, как показано на рисунке.

Неравенство Дженсена для медиан

[ редактировать ]

Неравенство Йенсена утверждает, что для любой случайной величины X с конечным математическим ожиданием E [ X ] и для любой выпуклой функции f

Это неравенство распространяется и на медиану. Мы говорим, что функция f : R R является функцией C если для любого t ,

является замкнутым интервалом (допускающим вырожденные случаи одной точки или пустого множества ). Каждая выпуклая функция является функцией C, но обратное неверно. Если f — функция C, то

Если медианы не единственны, утверждение справедливо для соответствующих супремумов. [24]

Медианы для выборок

[ редактировать ]

Эффективное вычисление медианы выборки

[ редактировать ]

Несмотря на то, что для сортировки сравнения n элементов требуется Ω ( n log n ) операций, алгоритмы выбора могут вычислить k -й наименьший из n элементов только с помощью Θ ( n ) операций. Сюда входит медиана, т. n / 2 статистика-го порядка (или для четного числа выборок среднее арифметическое двух статистик среднего порядка). [25]

Алгоритмы отбора по-прежнему имеют недостаток: они требуют памяти Ω( n ) , то есть им необходимо иметь в памяти полную выборку (или ее линейную часть). Поскольку это, а также требование линейного времени может быть непомерно высоким, было разработано несколько процедур оценки медианы. Простым является правило медианы трех элементов, которое оценивает медиану как медиану подвыборки из трех элементов; это обычно используется как подпрограмма в алгоритме быстрой сортировки, который использует оценку медианы входных данных. Более надежная оценка Тьюки девятая , которая представляет собой медиану трех правил, применяемых с ограниченной рекурсией: [26] если A — образец, представленный в виде массива , и

med3( А ) = med( А [1], А [ п / 2 ], А [ п ]) ,

затем

девятый( А ) = med3(med3( A [1 ... 1/3 n ( ] ), med3 А [ 1 / 3 n ... 2 / 3 n ]), med3( А [ 2/3 ... н ] н ) )

Медиана — это средство оценки медианы, которое требует линейного времени, но сублинейной памяти и работает за один проход по выборке. [27]

Выборочное распределение

[ редактировать ]

Распределение выборочного среднего и выборочной медианы было определено Лапласом . [28] Распределение выборочной медианы из совокупности с функцией плотности асимптотически нормально со средним и дисперсия [29]

где является медианой и размер выборки:


Современное доказательство следует ниже. Результат Лапласа теперь понимается как частный случай асимптотического распределения произвольных квантилей .

Для обычных образцов плотность равна , таким образом, для больших выборок дисперсия медианы равна [7] (См. также раздел #Эффективность ниже.)

Вывод асимптотического распределения

[ редактировать ]

Мы принимаем размер выборки за нечетное число. и предположим, что наша переменная непрерывна; формула для случая дискретных переменных приведена ниже в § Эмпирическая локальная плотность . Выборку можно резюмировать как «ниже медианы», «на уровне медианы» и «выше медианы», что соответствует триномиальному распределению с вероятностями. , и . Для непрерывной переменной вероятность того, что несколько значений выборки будут точно равны медиане, равна 0, поэтому можно вычислить плотность в точке непосредственно из триномиального распределения:

.

Теперь мы вводим бета-функцию. Для целочисленных аргументов и , это можно выразить как . Также напомним, что . Используя эти отношения и устанавливая оба и равный позволяет записать последнее выражение как

Следовательно, функция плотности медианы представляет собой симметричное бета-распределение, выдвинутое вперед . Его среднее значение, как и следовало ожидать, равно 0,5, а его дисперсия равна . По правилу цепочки соответствующая дисперсия выборочной медианы равна

.

Дополнительные 2 в пределе пренебрежимо малы .

Эмпирическая локальная плотность
[ редактировать ]

На практике функции и выше, часто не известны или не предполагаются. Однако их можно оценить по наблюдаемому распределению частот. В этом разделе мы приведем пример. Рассмотрим следующую таблицу, представляющую выборку из 3800 (дискретных) наблюдений:

v 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
е(в) 0.000 0.008 0.010 0.013 0.083 0.108 0.328 0.220 0.202 0.023 0.005
Ф(в) 0.000 0.008 0.018 0.031 0.114 0.222 0.550 0.770 0.972 0.995 1.000

Поскольку наблюдения имеют дискретные значения, построение точного распределения медианы не является немедленным переводом приведенного выше выражения для ; можно (и обычно имеет) иметь несколько экземпляров медианы в выборке. Итак, мы должны суммировать все эти возможности:

Здесь i — количество точек, строго меньшее медианы, а k — число, строго большее.

Используя эти предварительные сведения, можно исследовать влияние размера выборки на стандартные ошибки среднего и медианы. Наблюдаемое среднее значение составляет 3,16, наблюдаемая необработанная медиана — 3, а наблюдаемая интерполированная медиана — 3,174. В следующей таблице приведены некоторые сравнительные статистические данные.

Размер выборки
Статистика
3 9 15 21
Ожидаемое значение медианы 3.198 3.191 3.174 3.161
Стандартная ошибка медианы (формула выше) 0.482 0.305 0.257 0.239
Стандартная ошибка медианы (асимптотическое приближение) 0.879 0.508 0.393 0.332
Стандартная ошибка среднего 0.421 0.243 0.188 0.159

Ожидаемое значение медианы немного падает по мере увеличения размера выборки, в то время как, как и следовало ожидать, стандартные ошибки как медианы, так и среднего значения пропорциональны обратному квадратному корню из размера выборки. Асимптотическая аппроксимация ошибочна, поскольку переоценивает стандартную ошибку.

Оценка дисперсии на основе выборочных данных

[ редактировать ]

Стоимость – асимптотическое значение где - медиана населения - изучалась несколькими авторами. Стандартный метод складного ножа «удалить один» дает противоречивые результаты. [30] Альтернатива — метод «удалить k», где Было показано, что рост с размером выборки асимптотически согласуется. [31] Этот метод может быть дорогостоящим в вычислительном отношении для больших наборов данных. Известно, что бутстрап-оценка непротиворечива, [32] но сходится очень медленно порядка ( ). [33] Были предложены и другие методы, но их поведение может различаться для больших и малых выборок. [34]

Эффективность

[ редактировать ]

Эффективность . выборочной медианы, измеряемая как отношение дисперсии среднего значения к дисперсии медианы, зависит от размера выборки и основного распределения населения Для образца размером из нормального распределения эффективность для больших N равна

Эффективность имеет тенденцию как стремится к бесконечности.

Другими словами, относительная дисперсия медианы будет равна или на 57% больше, чем дисперсия среднего значения – относительная стандартная ошибка медианы будет равна или на 25 % больше стандартной ошибки среднего значения , (см. также раздел #Распределение выборки выше.). [35]

Другие оценщики

[ редактировать ]

Для одномерных распределений, симметричных относительно одной медианы, оценка Ходжеса-Лемана является надежной и высокоэффективной оценкой медианы совокупности. [36]

Если данные представлены статистической моделью, определяющей конкретное семейство распределений вероятностей , то оценки медианы можно получить путем подгонки этого семейства распределений вероятностей к данным и расчета теоретической медианы подобранного распределения. Интерполяция Парето — это применение этого метода, когда предполагается, что совокупность имеет распределение Парето .

Многомерная медиана

[ редактировать ]

Ранее в этой статье обсуждалась одномерная медиана, когда выборка или совокупность были одномерными. Когда размерность равна двум или выше, существует несколько концепций, расширяющих определение одномерной медианы; каждая такая многомерная медиана согласуется с одномерной медианой, когда размерность равна ровно единице. [36] [37] [38] [39]

Маргинальная медиана

[ редактировать ]

Маргинальная медиана определяется для векторов, определенных относительно фиксированного набора координат. Маргинальная медиана определяется как вектор, компоненты которого являются одномерными медианами. Маргинальную медиану легко вычислить, ее свойства изучали Пури и Сен. [36] [40]

Геометрическая медиана

[ редактировать ]

Геометрическая медиана дискретного набора точек выборки в евклидовом пространстве это [а] точку, минимизирующую сумму расстояний до точек выборки.

В отличие от маргинальной медианы, геометрическая медиана эквивариантна по отношению к евклидовым преобразованиям подобия, таким как сдвиги и повороты .

Медиана во всех направлениях

[ редактировать ]

Если маргинальные медианы для всех систем координат совпадают, то их общее расположение можно назвать «медианой во всех направлениях». [42] Эта концепция актуальна для теории голосования из-за теоремы о медианном избирателе . Когда она существует, медиана по всем направлениям совпадает с геометрической медианой (по крайней мере, для дискретных распределений).

Центральная точка

[ редактировать ]
В статистике и вычислительной геометрии понятие центральной точки является обобщением медианы для данных в многомерном евклидовом пространстве . Учитывая набор точек в d -мерном пространстве, центральной точкой набора является такая точка, что любая гиперплоскость, проходящая через эту точку, делит набор точек на два примерно равных подмножества: меньшая часть должна иметь как минимум 1/( d +1) доля баллов. Как и медиана, центральная точка не обязательно должна быть одной из точек данных. Каждый непустой набор точек (без дубликатов) имеет хотя бы одну центральную точку.
[ редактировать ]

Интерполированная медиана

[ редактировать ]

Имея дело с дискретной переменной, иногда полезно рассматривать наблюдаемые значения как средние точки лежащих в их основе непрерывных интервалов. Примером этого является шкала Лайкерта , в которой мнения или предпочтения выражаются по шкале с заданным количеством возможных ответов. Если шкала состоит из целых положительных чисел, то наблюдение, равное 3, можно рассматривать как представляющее интервал от 2,50 до 3,50. Можно оценить медиану базовой переменной. Если, скажем, 22% наблюдений имеют значение 2 или ниже, а 55,0% — значение 3 или ниже (то есть 33% имеют значение 3), то медиана равно 3, поскольку медиана — это наименьшее значение для чего больше половины. Но интерполированная медиана находится где-то между 2,50 и 3,50. Сначала мы добавляем половину ширины интервала к медиане, чтобы получить верхнюю границу медианного интервала. Затем мы вычитаем ту долю ширины интервала, которая равна доле 33%, лежащей выше отметки 50%. Другими словами, мы делим ширину интервала пропорционально количеству наблюдений. В этом случае 33% делятся на 28% ниже медианы и 5% выше нее, поэтому мы вычитаем 5/33 ширины интервала от верхней границы 3,50, чтобы получить интерполированную медиану 3,35. Более формально, если значения известны, интерполированную медиану можно рассчитать по формуле

Альтернативно, если в наблюдаемой выборке присутствуют баллы выше средней категории, баллы в нем и баллов ниже этого значения, то интерполированная медиана определяется выражением

Псевдомедиана

[ редактировать ]

Для одномерных распределений, симметричных относительно одной медианы, оценка Ходжеса-Лемана является надежной и высокоэффективной оценкой медианы совокупности; для несимметричных распределений оценка Ходжеса-Лемана является надежной и высокоэффективной оценкой псевдомедианы популяции , которая является медианой симметричного распределения и близка к медиане популяции. [43] Оценка Ходжеса – Лемана была обобщена на многомерные распределения. [44]

Варианты регрессии

[ редактировать ]

Оценщик Тейла -Сена — это метод устойчивой линейной регрессии, основанный на нахождении медиан наклонов . [45]

Медианный фильтр

[ редактировать ]

Медианный фильтр — важный инструмент обработки изображений , который может эффективно удалять любые шумы соли и перца из изображений в оттенках серого .

Кластерный анализ

[ редактировать ]

В кластерном анализе алгоритм кластеризации k-медиан обеспечивает способ определения кластеров, в котором критерий максимизации расстояния между кластерными средними, который используется при кластеризации k-средних , заменяется максимизацией расстояния между кластерными медианами.

Срединная – срединная линия

[ редактировать ]

Это метод робастной регрессии. Идея восходит к Вальду в 1940 году, который предложил разделить набор двумерных данных на две половины в зависимости от значения независимого параметра. : левая половина со значениями меньше медианы и правая половина со значениями больше медианы. [46] Он предложил воспользоваться средствами иждивенцев и независимый переменные левой и правой половин и оценка наклона линии, соединяющей эти две точки. Затем линию можно было бы скорректировать, чтобы она соответствовала большинству точек в наборе данных.

Наир и Шривастава в 1942 году предложили аналогичную идею, но вместо этого предложили разделить выборку на три равные части перед расчетом средних значений подвыборок. [47] Браун и Муд в 1951 году предложили идею использования медиан двух подвыборок, а не средних значений. [48] Тьюки объединил эти идеи и рекомендовал разделить выборку на три подвыборки одинакового размера и оценить линию на основе медиан подвыборок. [49]

Медианно-несмещенные оценки

[ редактировать ]

Любая несмещенная к среднему оценка минимизирует риск ( ожидаемые потери квадратичной ошибки ) по отношению к функции потерь , как заметил Гаусс . Медианно - несмещенная оценка минимизирует риск относительно функции потерь абсолютного отклонения , как заметил Лаплас . Другие функции потерь используются в статистической теории , особенно в робастной статистике .

Теория несмещенных по медиане оценок была возрождена Джорджем Брауном в 1947 году: [50]

Оценка одномерного параметра θ будет называться несмещенной по медиане, если при фиксированном θ медиана распределения оценки равна значению θ; т. е. оценка занижается так же часто, как и переоценивается. Кажется, что для большинства целей это требование удовлетворяет тем же требованиям, что и требование несмещенности по среднему, и обладает дополнительным свойством, состоящим в том, что оно инвариантно относительно взаимно однозначного преобразования.

стр. 584

Сообщалось о других свойствах несмещенных по медиане оценок. [51] [52] [53] [54] Медианно-несмещенные оценки инвариантны относительно взаимно-однозначных преобразований .

Существуют методы построения несмещенных по медиане оценок, которые являются оптимальными (в смысле, аналогичном свойству минимальной дисперсии для оценок, несмещенных по среднему). Такие конструкции существуют для распределений вероятностей, имеющих монотонные функции правдоподобия . [55] [56] Одна из таких процедур является аналогом процедуры Рао-Блэквелла для несмещенных в среднем оценок: процедура справедлива для меньшего класса распределений вероятностей, чем процедура Рао-Блэквелла, но для большего класса функций потерь . [57]

Научные исследователи на древнем Ближнем Востоке, похоже, вообще не использовали сводную статистику, вместо этого выбирая значения, которые обеспечивали максимальную согласованность с более широкой теорией, объединяющей широкий спектр явлений. [58] В средиземноморском (а позже и европейском) научном сообществе статистика, подобная среднему значению, по своей сути является развитием средневековья и раннего Нового времени. (История медианы за пределами Европы и ее предшественников остается относительно неизученной.)

Идея медианы появилась в VI веке в Талмуде для справедливого анализа расхождений в оценках . [59] [60] Однако эта концепция не получила распространения в широком научном сообществе.

Вместо этого ближайшим предком современной медианы является средний диапазон , изобретенный Аль-Бируни. [61] : 31  [62] Передача его работы более поздним ученым неясна. Он применил свою технику для анализа валютных металлов, но после того, как он опубликовал свою работу, большинство пробирщиков по-прежнему принимали самые неблагоприятные значения из своих результатов, чтобы не создать впечатление обмана . [61] : 35–8  [63] Однако расширение мореплавания в эпоху Великих географических открытий означало, что штурманам кораблей все чаще приходилось пытаться определить широту в неблагоприятную погоду относительно враждебных берегов, что привело к возобновлению интереса к сводной статистике. Независимо от того, открыт ли он заново или изобретен независимо, средний диапазон рекомендован морским мореплавателям в «Инструкциях по путешествию Рэли в Гвиану» Харриота, 1595 год. [61] : 45–8 

Идея медианы, возможно, впервые появилась в книге Эдварда Райта 1599 года «Определенные ошибки в навигации» в разделе, посвященном навигации по компасу . [64] Райт не хотел отбрасывать измеренные значения и, возможно, считал, что медиана, включающая большую часть набора данных, чем средний диапазон , с большей вероятностью будет правильной. Однако Райт не привел примеров использования своей техники, из-за чего было трудно проверить, описал ли он современное понятие медианы. [58] [62] [б] Медиана (в контексте вероятности) конечно фигурировала в переписке Христиана Гюйгенса , но как пример статистики, не подходящей для актуарной практики . [58]

Самая ранняя рекомендация о медиане датируется 1757 годом, когда Роджер Джозеф Боскович разработал метод регрессии, основанный на L 1 норма и, следовательно, неявно находится на медиане. [58] [65] В 1774 году Лаплас ясно выразил это желание: он предложил использовать медиану в качестве стандартной оценки значения апостериорной PDF . Конкретным критерием была минимизация ожидаемой величины ошибки; где это оценка и это истинная ценность. С этой целью Лаплас определил распределение как выборочного среднего, так и выборочной медианы в начале 1800-х годов. [28] [66] Однако десять лет спустя Гаусс и Лежандр разработали метод наименьших квадратов , который минимизирует чтобы получить среднее значение. В контексте регрессии нововведение Гаусса и Лежандра значительно упрощает вычисления. Следовательно, предложение Лапласа в целом отвергалось до появления вычислительных устройств 150 лет спустя (и это до сих пор относительно необычный алгоритм). [67]

Антуан Огюстен Курно в 1843 году был первым [68] использовать термин медиана ( valeur mediane ) для значения, которое делит распределение вероятностей на две равные половины. Густав Теодор Фехнер использовал медиану ( Centralwerth ) в социологических и психологических явлениях. [69] Раньше он использовался только в астрономии и смежных областях. Густав Фехнер популяризировал медиану в формальном анализе данных, хотя ранее ее использовал Лаплас, [69] а медиана появилась в учебнике Ф. Я. Эджворта . [70] Фрэнсис Гальтон использовал английский термин «медиана» в 1881 году: [71] [72] ранее использовал термины «среднее значение» в 1869 году и «среднее значение» в 1880 году. [73] [74]

Статистики на протяжении всего XIX века активно поощряли использование медиан из-за их интуитивной ясности. Однако понятие медианы не поддается теории высших моментов так же, как среднее арифметическое , и его гораздо сложнее вычислить. В результате в течение 20 века медиана как понятие общего среднего значения постепенно вытеснялась средним арифметическим. [58] [62]

См. также

[ редактировать ]
  • Абсолютное отклонение – разница между наблюдаемым значением переменной и эталонным значением.
  • Смещение оценки - Статистическое свойство
  • Центральная тенденция – статистическое значение, представляющее центр или среднее значение распределения.
  • Концентрация меры – Статистический параметр для функций Липшица – Сильная форма равномерной непрерывности
  • Медианный граф - график с медианой для каждых трех вершин.
  • Медиана медиан - Быстрый алгоритм аппроксимации медианы - Алгоритм расчета приблизительной медианы за линейное время.
  • Медианный поиск — метод поиска k-го наименьшего значения.
  • Медианный наклон — статистический метод подбора линии.
  • Теория медианного избирателя - теорема в политологии.
  • Медоид – репрезентативные объекты набора данных или кластера внутри набора данных, сумма различий которых со всеми объектами в кластере минимальна. – Обобщение медианы в более высоких измерениях.
  • Скользящее среднее # Скользящая медиана — тип статистической меры по подмножествам набора данных.
  • Медианное абсолютное отклонение – статистическая мера изменчивости.

Примечания

[ редактировать ]
  1. ^ Геометрическая медиана уникальна, если выборка не коллинеарна. [41]
  2. ^ Последующие ученые, похоже, согласились с Эйзенхартом в том, что цифры Бороза за 1580 год, хотя и наводят на мысль о медиане, на самом деле описывают среднее арифметическое; [61] : 62–3  Бороус не упоминается ни в одной другой работе.
  1. ^ Jump up to: а б Вайсштейн, Эрик В. «Статистическая медиана» . Математический мир .
  2. ^ Саймон, Лаура Дж.; «Описательная статистика». Архивировано 30 июля 2010 г. в Wayback Machine , Набор ресурсов для статистического образования , Департамент статистики штата Пенсильвания.
  3. ^ Jump up to: а б Дерек Бисселл (1994). Статистические методы для Spc и Tqm . ЦРК Пресс. стр. 26–. ISBN  978-0-412-39440-9 . Проверено 25 февраля 2013 г.
  4. ^ Дэвид Дж. Шескин (27 августа 2003 г.). Справочник по параметрическим и непараметрическим статистическим процедурам (Третье изд.). ЦРК Пресс. п. 7. ISBN  978-1-4200-3626-8 . Проверено 25 февраля 2013 г.
  5. ^ Пол Т. фон Хиппель (2005). «Среднее, медиана и перекос: исправление правила из учебника» . Журнал статистического образования . 13 (2). Архивировано из оригинала 14 октября 2008 г. Проверено 18 июня 2015 г.
  6. ^ Робсон, Колин (1994). Эксперимент, дизайн и статистика в психологии . Пингвин. стр. 42–45. ISBN  0-14-017648-9 .
  7. ^ Jump up to: а б Уильямс, Д. (2001). Взвешивание шансов . Издательство Кембриджского университета. п. 165 . ISBN  052100618X .
  8. ^ Мейндональд, Джон; Браун, В. Джон (6 мая 2010 г.). Анализ данных и графика с использованием R: подход на основе примеров . Издательство Кембриджского университета. п. 104. ИСБН  978-1-139-48667-5 .
  9. ^ «Обзор статистики AP - кривые плотности и нормальное распределение» . Архивировано из оригинала 8 апреля 2015 года . Проверено 16 марта 2015 г.
  10. ^ Ньюман, МЭД (2005). «Степенные законы, распределения Парето и закон Ципфа». Современная физика . 46 (5): 323–351. arXiv : cond-mat/0412004 . Бибкод : 2005ConPh..46..323N . дои : 10.1080/00107510500052444 . S2CID   2871747 .
  11. ^ Строк, Дэниел (2011). Теория вероятностей . Издательство Кембриджского университета. стр. 43 . ISBN  978-0-521-13250-3 .
  12. ^ ДеГрут, Моррис Х. (1970). Оптимальные статистические решения . McGraw-Hill Book Co., Нью-Йорк-Лондон-Сидней. п. 232. ИСБН  9780471680291 . МР   0356303 .
  13. ^ Стивен А. Книга; Лоуренс Шер (1979). «Насколько близки среднее значение и медиана?» . Двухлетний математический журнал колледжа . 10 (3): 202–204. дои : 10.2307/3026748 . JSTOR   3026748 . Проверено 12 марта 2022 г.
  14. ^ Уоррен Пейдж; Ведула Н. Мурти (1982). «Отношения близости между мерами центральной тенденции и дисперсии: Часть 1» . Двухлетний математический журнал колледжа . 13 (5): 315–327. doi : 10.1080/00494925.1982.11972639 (неактивен 31 января 2024 г.) . Проверено 12 марта 2022 г. {{cite journal}}: CS1 maint: DOI неактивен по состоянию на январь 2024 г. ( ссылка )
  15. ^ О'Синнеид, Колм Арт (1990). «Среднее значение находится в пределах одного стандартного отклонения от любой медианы» . Американский статистик . 44 (4): 292–293. дои : 10.1080/00031305.1990.10475743 . Проверено 12 марта 2022 г.
  16. ^ Маллоуз, Колин (август 1991 г.). «Еще один комментарий к О'Синнеиду». Американский статистик . 45 (3): 257. дои : 10.1080/00031305.1991.10475815 .
  17. ^ Пише, Роберт (2012). Случайные векторы и случайные последовательности . Академическое издательство Ламберта. ISBN  978-3659211966 .
  18. ^ Кемперман, Йоханнес Х.Б. (1987). Додж, Ядола (ред.). «Медиана конечной меры в банаховом пространстве: статистический анализ данных на основе L1-нормы и связанных с ней методов». Материалы первой международной конференции, проходившей в Невшателе 31 августа – 4 сентября 1987 г. Амстердам: Издательство Северной Голландии: 217–230. МР   0949228 .
  19. ^ Миласевич, Филип; Дюшарм, Жиль Р. (1987). «Единственность пространственной медианы» . Анналы статистики . 15 (3): 1332–1333. дои : 10.1214/aos/1176350511 . МР   0902264 .
  20. ^ К.Ван Стин Заметки о вероятности и статистике
  21. ^ Басу, С.; Дасгупта, А. (1997). «Среднее, медиана и режим унимодальных распределений: характеристика». Теория вероятностей и ее приложения . 41 (2): 210–223. дои : 10.1137/S0040585X97975447 . S2CID   54593178 .
  22. ^ фон Хиппель, Пол Т. (январь 2005 г.). «Среднее, медиана и перекос: исправление правила из учебника» . Журнал статистического образования . 13 (2). дои : 10.1080/10691898.2005.11910556 . ISSN   1069-1898 .
  23. ^ Груневельд, Ричард А.; Миден, Глен (август 1977 г.). «Мод, медиана и среднее неравенство» . Американский статистик . 31 (3): 120–121. дои : 10.1080/00031305.1977.10479215 . ISSN   0003-1305 .
  24. ^ Меркл, М. (2005). «Неравенство Дженсена для медиан». Статистика и вероятностные буквы . 71 (3): 277–281. дои : 10.1016/j.spl.2004.11.010 .
  25. ^ Альфред В. Ахо, Джон Э. Хопкрофт и Джеффри Д. Ульман (1974). Проектирование и анализ компьютерных алгоритмов . Ридинг/Массачусетс: Аддисон-Уэсли. ISBN  0-201-00029-6 . Здесь: Раздел 3.6 «Статистика заказов», стр.97-99, в частности Алгоритм 3.6 и Теорема 3.9.
  26. ^ Бентли, Джон Л.; Макилрой, М. Дуглас (1993). «Разработка функции сортировки» . Программное обеспечение: практика и опыт . 23 (11): 1249–1265. дои : 10.1002/спе.4380231105 . S2CID   8822797 .
  27. ^ Руссиу, Питер Дж.; Бассетт, Гилберт В. младший (1990). «Ремедиан: надежный метод усреднения для больших наборов данных» (PDF) . Дж. Амер. Статист. доц . 85 (409): 97–104. дои : 10.1080/01621459.1990.10475311 .
  28. ^ Jump up to: а б Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Биометрика . 60 (3): 439–445. дои : 10.1093/biomet/60.3.439 . JSTOR   2334992 . МР   0326872 .
  29. ^ Райдер, Пол Р. (1960). «Разница медианы небольших выборок из нескольких особых групп населения». Дж. Амер. Статист. доц. 55 (289): 148–150. дои : 10.1080/01621459.1960.10482056 .
  30. ^ Эфрон, Б. (1982). Складной нож, Bootstrap и другие планы повторной выборки . Филадельфия: СИАМ. ISBN  0898711797 .
  31. ^ Шао, Дж.; Ву, CF (1989). «Общая теория оценки дисперсии складного ножа» . Энн. Стат. 17 (3): 1176–1197. дои : 10.1214/aos/1176347263 . JSTOR   2241717 .
  32. ^ Эфрон, Б. (1979). «Методы начальной загрузки: еще один взгляд на складной нож» . Энн. Стат. 7 (1): 1–26. дои : 10.1214/aos/1176344552 . JSTOR   2958830 .
  33. ^ Холл, П.; Мартин, Массачусетс (1988). «Точная скорость сходимости бутстрап-оценщика квантильной дисперсии» . Области, связанные с теорией вероятностей . 80 (2): 261–268. дои : 10.1007/BF00356105 . S2CID   119701556 .
  34. ^ Хименес-Гамеро, доктор медицинских наук; Муньос-Гарсия, Ж.; Пино-Мехиас, Р. (2004). «Уменьшенная начальная загрузка для медианы» . Статистика Синица . 14 (4): 1179–1198.
  35. ^ Мейндональд, Джон; Джон Браун, В. (6 мая 2010 г.). Анализ данных и графика с использованием R: подход на основе примеров . Издательство Кембриджского университета. ISBN  9781139486675 .
  36. ^ Jump up to: а б с Хеттманспергер, Томас П.; Маккин, Джозеф В. (1998). Робастные непараметрические статистические методы . Статистическая библиотека Кендалла. Том. 5. Лондон: Эдвард Арнольд. ISBN  0-340-54937-8 . МР   1604954 .
  37. ^ Смолл, Кристофер Г. «Обзор многомерных медиан». Международное статистическое обозрение/Международное статистическое обозрение (1990): 263–277. дои : 10.2307/1403809 JSTOR   1403809
  38. ^ Ниинимаа, А. и Х. Оя. «Многомерная медиана». Энциклопедия статистических наук (1999).
  39. ^ Мослер, Карл. Многомерная дисперсия, центральные регионы и глубина: подход зоноида подъема. Том. 165. Springer Science & Business Media, 2012.
  40. ^ Пури, Мадан Л.; Сен, Пранаб К.; Непараметрические методы в многомерном анализе , John Wiley & Sons, Нью-Йорк, 1971. (Перепечатано Krieger Publishing)
  41. ^ Варди, Иегуда; Чжан, Цунь-Хуэй (2000). «Многомерная L 1- медиана и связанная с ней глубина данных» . Труды Национальной академии наук Соединенных Штатов Америки . 97 (4): 1423–1426 (электронный). Бибкод : 2000PNAS...97.1423V . дои : 10.1073/pnas.97.4.1423 . МР   1740461 . ПМК   26449 . ПМИД   10677477 .
  42. ^ Дэвис, Отто А.; ДеГрут, Моррис Х.; Хинич, Мелвин Дж. (январь 1972 г.). «Порядок социальных предпочтений и правило большинства» (PDF) . Эконометрика . 40 (1): 147–157. дои : 10.2307/1909727 . JSTOR   1909727 . Авторы, работающие в теме, в которой предполагается уникальность, фактически используют выражение « уникальная медиана во всех направлениях».
  43. ^ Пратт, Уильям К.; Купер, Тед Дж.; Кабир, Ихтишам (11 июля 1985 г.). Корбетт, Фрэнсис Дж (ред.). «Псевдомедианный фильтр». Архитектуры и алгоритмы цифровой обработки изображений II . 0534 : 34. Бибкод : 1985SPIE..534...34P . дои : 10.1117/12.946562 . S2CID   173183609 .
  44. ^ Оджа, Ханну (2010). Многомерные непараметрические методы с R : подход, основанный на пространственных знаках и рангах . Конспект лекций по статистике. Том. 199. Нью-Йорк, штат Нью-Йорк: Спрингер. стр. xiv+232. дои : 10.1007/978-1-4419-0468-3 . ISBN  978-1-4419-0467-6 . МР   2598854 .
  45. ^ Уилкокс, Рэнд Р. (2001), «Оценщик Тейла – Сена», Основы современных статистических методов: существенное повышение мощности и точности , Springer-Verlag, стр. 207–210, ISBN  978-0-387-95157-7 .
  46. ^ Уолд, А. (1940). «Подбор прямых линий, если обе переменные подвержены ошибкам» (PDF) . Анналы математической статистики . 11 (3): 282–300. дои : 10.1214/aoms/1177731868 . JSTOR   2235677 .
  47. ^ Наир, КР; Шривастава, депутат парламента (1942). «О простом методе подбора кривой». Санкхья: Индийский статистический журнал . 6 (2): 121–132. JSTOR   25047749 .
  48. ^ Браун, GW; Настроение, А.М. (1951). «О медианных тестах линейных гипотез». Материалы Второго симпозиума Беркли по математической статистике и теории вероятностей . Беркли, Калифорния: Издательство Калифорнийского университета. стр. 159–166. Збл   0045.08606 .
  49. ^ Тьюки, JW (1977). Исследовательский анализ данных . Ридинг, Массачусетс: Аддисон-Уэсли. ISBN  0201076160 .
  50. ^ Браун, Джордж В. (1947). «О маловыборочном оценивании» . Анналы математической статистики . 18 (4): 582–585. дои : 10.1214/aoms/1177730349 . JSTOR   2236236 .
  51. ^ Леманн, Эрих Л. (1951). «Общая концепция беспристрастности» . Анналы математической статистики . 22 (4): 587–592. дои : 10.1214/aoms/1177729549 . JSTOR   2236928 .
  52. ^ Бирнбаум, Аллан (1961). «Единая теория оценки, I» . Анналы математической статистики . 32 (1): 112–135. дои : 10.1214/aoms/1177705145 . JSTOR   2237612 .
  53. ^ ван дер Ваарт, Х. Роберт (1961). «Некоторые расширения идеи предвзятости» . Анналы математической статистики . 32 (2): 436–447. дои : 10.1214/aoms/1177705051 . JSTOR   2237754 . МР   0125674 .
  54. ^ Пфанцагль, Иоганн; при содействии Р. Хамбокера (1994). Параметрическая статистическая теория . Вальтер де Грюйтер. ISBN  3-11-013863-8 . МР   1291393 .
  55. ^ Пфанцагль, Иоганн. «Об оптимальных медианных несмещенных оценках при наличии мешающих параметров». Анналы статистики (1979): 187–193.
  56. ^ Браун, Л.Д.; Коэн, Артур; Стродерман, МЫ (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями» . Энн. Статист . 4 (4): 712–722. дои : 10.1214/aos/1176343543 .
  57. ^ Страница; Браун, Л.Д.; Коэн, Артур; Стродерман, МЫ (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями» . Энн. Статист . 4 (4): 712–722. дои : 10.1214/aos/1176343543 .
  58. ^ Jump up to: а б с д и Баккер, Артур; Гравемейер, Коено ЧП (1 июня 2006 г.). «Историческая феноменология среднего и медианы». Образовательные исследования по математике . 62 (2): 149–168. дои : 10.1007/s10649-006-7099-8 . ISSN   1573-0816 . S2CID   143708116 .
  59. ^ Адлер, Дэн (31 декабря 2014 г.). «Талмуд и современная экономика» . Еврейские американские и израильские проблемы . Архивировано из оригинала 6 декабря 2015 года . Проверено 22 февраля 2020 г. .
  60. ^ Современная экономическая теория в Талмуде Исраэля Ауманна
  61. ^ Jump up to: а б с д Эйзенхарт, Черчилль (24 августа 1971 г.). Развитие понятия о наилучшем средстве совокупности измерений от древности до наших дней (PDF) (Выступление). 131-е ежегодное собрание Американской статистической ассоциации. Государственный университет Колорадо.
  62. ^ Jump up to: а б с «Как средний показатель победил медианный» . Ценаономика . 5 апреля 2016 года . Проверено 23 февраля 2020 г.
  63. ^ Сангстер, Алан (март 2021 г.). «Жизнь и творчество Луки Пачоли (1446/7–1517), педагога-гуманиста» . Абак . 57 (1): 126–152. дои : 10.1111/abac.12218 . hdl : 2164/16100 . ISSN   0001-3072 . S2CID   233917744 .
  64. ^ Райт, Эдвард; Парсонс, EJS; Моррис, ВФ (1939). «Эдвард Райт и его работа» . Имаго Мунди . 3 : 61–71. дои : 10.1080/03085693908591862 . ISSN   0308-5694 . JSTOR   1149920 .
  65. ^ Стиглер, С.М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. ISBN  0674403401 .
  66. ^ Лаплас PS de (1818) Второе приложение к Аналитической теории вероятностей , Париж, Courcier
  67. ^ Джейнс, ET (2007). Теория вероятностей: логика науки (5-е печатное изд.). Кембридж [ua]: Cambridge Univ. Нажимать. п. 172. ИСБН  978-0-521-59271-0 .
  68. ^ Ховарт, Ричард (2017). Словарь математических наук о Земле: с историческими примечаниями . Спрингер. п. 374.
  69. ^ Jump up to: а б Кейнс, Дж. М. (1921) Трактат о вероятности . Pt II Ch XVII §5 (стр. 201) (переиздание 2006 г., Cosimo Classics, ISBN   9781596055308 : несколько других переизданий)
  70. ^ Стиглер, Стивен М. (2002). Статистика на столе: история статистических концепций и методов . Издательство Гарвардского университета. стр. 105–7. ISBN  978-0-674-00979-0 .
  71. ^ Гальтон Ф. (1881) «Отчет Антропометрического комитета», стр. 245–260. Отчет 51-го собрания Британской ассоциации содействия развитию науки
  72. ^ Дэвид, ХА (1995). «Первое (?) появление общих терминов в математической статистике». Американский статистик . 49 (2): 121–133. дои : 10.2307/2684625 . ISSN   0003-1305 . JSTOR   2684625 .
  73. ^ энциклопедияofmath.org
  74. ^ личный.psu.edu
[ редактировать ]

Эта статья включает в себя материалы из дистрибутива Median на PlanetMath , который распространяется по лицензии Creative Commons Attribution/Share-Alike License .

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e4ecf43590698886533f45eb2ae5220c__1722608040
URL1:https://arc.ask3.ru/arc/aa/e4/0c/e4ecf43590698886533f45eb2ae5220c.html
Заголовок, (Title) документа по адресу, URL1:
Median - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)