медиана
Медиана данных набора чисел — это значение, отделяющее верхнюю половину от нижней половины выборки , генеральной совокупности или распределения вероятностей . Для набора данных его можно рассматривать как «среднее» значение. Основная особенность медианы при описании данных по сравнению со средним значением ( часто описываемым просто как «среднее») заключается в том, что оно не искажено на небольшую долю может быть лучшим способом описать центр распределения доходов , медианный доход Например, поскольку увеличение крупнейших доходов само по себе не влияет на медиану. По этой причине медиана имеет центральное значение в надежной статистике .
Конечный набор чисел [ править ]
Медиана конечного списка чисел — это «среднее» число, когда эти числа перечислены в порядке от наименьшего к наибольшему.
Если набор данных имеет нечетное количество наблюдений, выбирается среднее. Например, следующий список из семи чисел:
- 1, 3, 3, 6 , 7, 8, 9
имеет медиану 6 , что является четвертым значением.
Если в наборе данных четное количество наблюдений, четкого среднего значения не существует, и медиана обычно определяется как среднее арифметическое двух средних значений. [1] [2] Например, этот набор данных из 8 чисел
- 1, 2, 3, 4, 5 , 6, 8, 9
имеет медианное значение 4,5 , то есть . (В более технических терминах медиана интерпретируется как полностью урезанный средний диапазон ).
В общем, согласно этому соглашению, медиану можно определить следующим образом: Для набора данных из элементы, упорядоченные от меньшего к большему,
- если странно,
- если даже,
Тип | Описание | Пример | Результат |
---|---|---|---|
Средний уровень | Средняя точка между минимумом и максимумом набора данных | 1 , 2, 2, 3, 4, 7, 9 | 5 |
Среднее арифметическое | Сумма значений набора данных, деленная на количество значений: | (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 | 4 |
медиана | Среднее значение, разделяющее большую и меньшую половины набора данных | 1, 2, 2, 3 , 4, 7, 9 | 3 |
Режим | Наиболее частое значение в наборе данных | 1, 2 , 2 , 3, 4, 7, 9 | 2 |
Формальное определение и обозначения [ править ]
Формально медиана населения — это любое значение, при котором по крайней мере половина населения меньше или равна предлагаемой медиане и по крайней мере половина больше или равна предлагаемой медиане. Как видно выше, медианы могут не быть уникальными. Если каждый набор содержит более половины населения, то часть населения в точности равна уникальной медиане.
Медиана четко определена для любых упорядоченных (одномерных) данных и не зависит от какой-либо метрики расстояния . Таким образом, медиану можно применять к школьным классам, которые имеют рейтинг, а не числовые значения (например, вычисление средней оценки, когда результаты тестов учащихся оцениваются от F до A), хотя результат может быть на полпути между классами, если количество классов четное. . (Для классов с нечетными числами один конкретный класс определяется как медиана.)
С другой стороны, геометрическая медиана определяется в любом количестве измерений. Родственная концепция, в которой результат вынужден соответствовать члену выборки, — это медоид .
Не существует общепринятого стандартного обозначения медианы, но некоторые авторы представляют медиану переменной x как med( x ), x͂ , [3] как μ 1/2 , [1] или М. как [3] [4] В любом из этих случаев использование тех или иных символов медианы должно быть явно определено при их введении.
Медиана является частным случаем других способов суммирования типичных значений, связанных со статистическим распределением : это 2-й квартиль , 5-й дециль и 50-й процентиль .
Использует [ править ]
Медиану можно использовать в качестве меры местоположения , когда экстремальным значениям придается меньшее значение, обычно потому, что распределение искажено , экстремальные значения неизвестны или выбросы не заслуживают доверия, т. е. могут быть ошибками измерения/транскрипции.
Например, рассмотрим мультимножество
- 1, 2, 2, 2, 3, 14.
Медиана в данном случае равна 2, как и мода , и ее можно рассматривать как лучшее указание на центр , чем среднее арифметическое 4, которое больше, чем все значения, кроме одного. Однако широко цитируемая эмпирическая зависимость, согласно которой среднее значение смещается «дальше в хвост» распределения, чем медиана, в целом не соответствует действительности. В лучшем случае можно сказать, что эти две статистики не могут находиться «слишком далеко» друг от друга; см. § Средства и медианы, относящиеся к неравенству, ниже. [5]
Поскольку медиана основана на средних данных в наборе, для ее расчета не обязательно знать значение крайних результатов. Например, в психологическом тесте, исследующем время, необходимое для решения проблемы, если небольшому количеству людей вообще не удалось решить проблему за заданное время, все равно можно рассчитать медиану. [6]
Поскольку медиану легко понять и легко рассчитать, а также она является надежным приближением к среднему значению , медиана является популярной сводной статистикой в описательной статистике . В этом контексте существует несколько вариантов измерения изменчивости : диапазон , межквартильный диапазон , среднее абсолютное отклонение и медианное абсолютное отклонение .
В практических целях различные показатели местоположения и дисперсии часто сравниваются на основе того, насколько хорошо можно оценить соответствующие значения численности населения на основе выборки данных. Медиана, рассчитанная с использованием выборочной медианы, имеет в этом отношении хорошие свойства. Хотя обычно предполагается, что данное распределение населения не является оптимальным, его свойства всегда достаточно хорошие. Например, сравнение эффективности оценщиков -кандидатов показывает, что выборочное среднее является более статистически эффективным, когда — и только тогда — данные не загрязнены данными из распределений с тяжелым хвостом или из смесей распределений. [ нужна ссылка ] Даже в этом случае эффективность медианы составляет 64% по сравнению со средним значением минимальной дисперсии (для больших нормальных выборок), то есть дисперсия медианы будет примерно на 50% больше, чем дисперсия среднего значения. [7] [8]
Распределения вероятностей
Для любого действительного с распределения вероятностей кумулятивной функцией распределения F медиана определяется как любое действительное число m , которое удовлетворяет неравенствам
Эквивалентная формулировка использует случайную величину X, распределенную согласно F :
Обратите внимание, что это определение не требует, чтобы X имело абсолютно непрерывное распределение (которое имеет функцию плотности вероятности f ), а также не требует дискретного распределения . В первом случае неравенства можно повысить до равенства: медиана удовлетворяет
Любое распределение вероятностей на множестве действительных чисел имеет по крайней мере одну медиану, но в патологических случаях медиан может быть более одной: если F постоянна 1/2 на интервале (так что там f = 0), то любое значение этого интервала является медианой.
Медианы конкретных распределений
Медианы некоторых типов распределений можно легко рассчитать по их параметрам; более того, они существуют даже для некоторых распределений, в которых отсутствует четко определенное среднее значение, таких как распределение Коши :
- Медиана симметричного унимодального распределения совпадает с модой.
- Медиана симметричного распределения , имеющая среднее значение µ, также принимает значение µ .
- Медиана нормального распределения со средним значением µ и дисперсией σ 2 есть μ. Фактически, для нормального распределения среднее = медиана = мода.
- Медиана равномерного распределения в интервале [ a , b ] равна ( a + b )/2, что также является средним значением.
- Медиана распределения Коши с параметром местоположения x 0 и параметром масштаба y равна x 0 , параметру местоположения.
- Медиана степенного распределения x − а , с показателем a > 1 равно 2 1/( а − 1) x min , где x min — минимальное значение, для которого выполняется степенной закон [10]
- Медиана экспоненциального распределения с параметром скорости λ представляет собой натуральный логарифм 2, деленный на параметр скорости: λ −1 пер 2.
- Медиана распределения Вейбулла с параметром формы k и параметром масштаба λ равна λ (ln 2). 1/ к .
Свойства [ править ]
Свойство оптимальности [ править ]
Средняя абсолютная ошибка действительной переменной c по отношению к случайной величине X равна
При условии, что распределение вероятностей X таково, что вышеуказанное ожидание существует, тогда m является медианой X тогда и только тогда, когда m является минимизатором средней абсолютной ошибки по отношению к X . [11] В частности, если m — выборочная медиана, то она минимизирует среднее арифметическое абсолютных отклонений. [12] Однако обратите внимание, что в случаях, когда выборка содержит четное количество элементов, этот минимизатор не уникален.
В более общем смысле медиана определяется как минимум
как обсуждается ниже в разделе о многомерных медианах (в частности, пространственной медиане ).
Это основанное на оптимизации определение медианы полезно при статистическом анализе данных, например, при k кластеризации -медиан .
Неравенство, касающееся медиан средних и
Если распределение имеет конечную дисперсию, то расстояние между медианой и среднее значение ограничено одним стандартным отклонением .
Эта граница была доказана Буком и Шером в 1979 году для дискретных выборок. [13] и в более общем смысле Пейджем и Мерти в 1982 году. [14] В комментарии к последующему доказательству О'Киннеида: [15] Мэллоуз в 1991 году представил компактное доказательство, в котором дважды используется неравенство Йенсена : [16] следующее. Использование |·| для абсолютного значения мы имеем
Первое и третье неравенства происходят из неравенства Йенсена, примененного к функции абсолютного значения и квадратичной функции, каждая из которых выпукла. Второе неравенство связано с тем, что медиана минимизирует абсолютного отклонения . функцию .
Доказательство Маллоуза можно обобщить, чтобы получить многомерную версию неравенства [17] просто заменив абсолютное значение нормой :
где m — пространственная медиана , то есть минимизатор функции Пространственная медиана уникальна, если размерность набора данных равна двум или более. [18] [19]
Альтернативное доказательство использует одностороннее неравенство Чебышева; оно проявляется в неравенстве параметров местоположения и масштаба . Эта формула также следует непосредственно из неравенства Кантелли . [20]
Унимодальные распределения [ править ]
В случае унимодальных распределений можно добиться более четкой границы расстояния между медианой и средним значением:
- . [21]
Аналогичное соотношение сохраняется между медианой и модой:
Дженсена медиан Неравенство для
Неравенство Йенсена утверждает, что для любой случайной величины X с конечным математическим ожиданием E [ X ] и для любой выпуклой функции f
Это неравенство распространяется и на медиану. Мы говорим, что функция f : R → R является функцией C если для любого t ,
является замкнутым интервалом (допускающим вырожденные случаи одной точки или пустого множества ). Каждая выпуклая функция является функцией C, но обратное неверно. Если f — функция C, то
Если медианы не единственны, утверждение справедливо для соответствующих супремумов. [22]
Медианы для выборок [ править ]
выборочной медианы Эффективное вычисление
Несмотря на то, что для сортировки сравнения n элементов требуется Ω ( n log n ) операций, алгоритмы выбора могут вычислить k -й наименьший из n элементов только с помощью Θ( n ) операций. Сюда входит медиана, т. n / статистика 2 -го порядка (или для четного числа выборок среднее арифметическое двух статистик среднего порядка). [23]
Алгоритмы отбора по-прежнему имеют недостаток: они требуют памяти Ω( n ) , то есть им необходимо иметь в памяти полную выборку (или ее линейную часть). Поскольку это, а также требование линейного времени может быть непомерно высоким, было разработано несколько процедур оценки медианы. Простым является правило медианы трех элементов, которое оценивает медиану как медиану подвыборки из трех элементов; это обычно используется как подпрограмма в алгоритме быстрой сортировки, который использует оценку медианы входных данных. Более надежная оценка — Тьюки девятая , которая представляет собой медиану трех правил, применяемых с ограниченной рекурсией: [24] если A — образец, представленный в виде массива , и
- med3( А ) = med( А [1], А [ п / 2 ], А [ п ]) ,
затем
- девятый( А ) = med3(med3( A [1 ... 1/3 n ( ] ), med3 A [ 1 / 3н ... 2 / 3 n ]), med3( A [ 2/3 ... н ) н ] )
Медиана — это средство оценки медианы, которое требует линейного времени, но сублинейной памяти и работает за один проход по выборке. [25]
Распределение выборки [ править ]
Распределение выборочного среднего и выборочной медианы было определено Лапласом . [26] Распределение выборочной медианы из совокупности с функцией плотности асимптотически нормально со средним и дисперсия [27]
где является медианой и размер выборки:
Современное доказательство следует ниже. Результат Лапласа теперь понимается как частный случай асимптотического распределения произвольных квантилей .
Для обычных образцов плотность равна , таким образом, для больших выборок дисперсия медианы равна [7] (См. также раздел #Эффективность ниже.)
распределения асимптотического Вывод
Мы принимаем размер выборки за нечетное число. и предположим, что наша переменная непрерывна; формула для случая дискретных переменных приведена ниже в § Эмпирическая локальная плотность . Выборку можно резюмировать как «ниже медианы», «на уровне медианы» и «выше медианы», что соответствует триномиальному распределению с вероятностями. , и . Для непрерывной переменной вероятность того, что несколько значений выборки будут точно равны медиане, равна 0, поэтому можно вычислить плотность в точке непосредственно из триномиального распределения:
- .
Теперь мы вводим бета-функцию. Для целочисленных аргументов и , это можно выразить как . Также напомним, что . Используя эти отношения и устанавливая оба и равный позволяет записать последнее выражение как
Следовательно, функция плотности медианы представляет собой симметричное бета-распределение, выдвинутое вперед . Его среднее значение, как и следовало ожидать, равно 0,5, а его дисперсия равна . По правилу цепочки соответствующая дисперсия выборочной медианы равна
- .
Дополнительные 2 в пределе пренебрежимо малы .
локальная Эмпирическая плотность
На практике функции и выше, часто не известны или не предполагаются. Однако их можно оценить по наблюдаемому распределению частот. В этом разделе мы приведем пример. Рассмотрим следующую таблицу, представляющую выборку из 3800 (дискретных) наблюдений:
v | 0 | 0.5 | 1 | 1.5 | 2 | 2.5 | 3 | 3.5 | 4 | 4.5 | 5 |
---|---|---|---|---|---|---|---|---|---|---|---|
е(в) | 0.000 | 0.008 | 0.010 | 0.013 | 0.083 | 0.108 | 0.328 | 0.220 | 0.202 | 0.023 | 0.005 |
Ф(в) | 0.000 | 0.008 | 0.018 | 0.031 | 0.114 | 0.222 | 0.550 | 0.770 | 0.972 | 0.995 | 1.000 |
Поскольку наблюдения имеют дискретные значения, построение точного распределения медианы не является немедленным переводом приведенного выше выражения для ; можно (и обычно имеет) иметь несколько экземпляров медианы в выборке. Итак, мы должны суммировать все эти возможности:
Здесь i — количество точек, строго меньшее медианы, а k — число, строго большее.
Используя эти предварительные сведения, можно исследовать влияние размера выборки на стандартные ошибки среднего и медианы. Наблюдаемое среднее значение составляет 3,16, наблюдаемая необработанная медиана — 3, а наблюдаемая интерполированная медиана — 3,174. В следующей таблице приведены некоторые сравнительные статистические данные.
Размер выборки Статистика | 3 | 9 | 15 | 21 |
---|---|---|---|---|
Ожидаемое значение медианы | 3.198 | 3.191 | 3.174 | 3.161 |
Стандартная ошибка медианы (формула выше) | 0.482 | 0.305 | 0.257 | 0.239 |
Стандартная ошибка медианы (асимптотическое приближение) | 0.879 | 0.508 | 0.393 | 0.332 |
Стандартная ошибка среднего | 0.421 | 0.243 | 0.188 | 0.159 |
Ожидаемое значение медианы немного падает по мере увеличения размера выборки, в то время как, как и следовало ожидать, стандартные ошибки как медианы, так и среднего значения пропорциональны обратному квадратному корню из размера выборки. Асимптотическая аппроксимация ошибочна, поскольку переоценивает стандартную ошибку.
Оценка дисперсии на данных основе выборочных
Стоимость – асимптотическое значение где - медиана населения - изучалась несколькими авторами. Стандартный метод складного ножа «удалить один» дает противоречивые результаты. [28] Альтернатива — метод «удалить k», где Было показано, что рост с размером выборки асимптотически согласуется. [29] Этот метод может быть дорогостоящим в вычислительном отношении для больших наборов данных. Известно, что бутстрап-оценка непротиворечива, [30] но сходится очень медленно порядка ( ). [31] Были предложены и другие методы, но их поведение может различаться для больших и малых выборок. [32]
Эффективность [ править ]
Эффективность . выборочной медианы, измеряемая как отношение дисперсии среднего значения к дисперсии медианы, зависит от размера выборки и основного распределения населения Для образца размером из нормального распределения эффективность для больших N равна
Эффективность имеет тенденцию как стремится к бесконечности.
Другими словами, относительная дисперсия медианы будет равна или на 57% больше, чем дисперсия среднего значения – относительная стандартная ошибка медианы будет равна или на 25 % больше стандартной ошибки среднего значения , (см. также раздел #Распределение выборки выше.). [33]
Другие оценщики
Для одномерных распределений, симметричных относительно одной медианы, оценка Ходжеса-Лемана является надежной и высокоэффективной оценкой медианы совокупности. [34]
Если данные представлены статистической моделью, определяющей конкретное семейство распределений вероятностей , то оценки медианы можно получить путем подгонки этого семейства распределений вероятностей к данным и расчета теоретической медианы подобранного распределения. [ нужна ссылка ] Интерполяция Парето — это применение этого метода, когда предполагается, что совокупность имеет распределение Парето .
Многомерная медиана [ править ]
Ранее в этой статье обсуждалась одномерная медиана, когда выборка или совокупность были одномерными. Когда размерность равна двум или выше, существует несколько концепций, расширяющих определение одномерной медианы; каждая такая многомерная медиана согласуется с одномерной медианой, когда размерность равна ровно единице. [34] [35] [36] [37]
медиана Маргинальная
Маргинальная медиана определяется для векторов, определенных относительно фиксированного набора координат. Маргинальная медиана определяется как вектор, компоненты которого являются одномерными медианами. Маргинальную медиану легко вычислить, ее свойства изучали Пури и Сен. [34] [38]
Геометрическая медиана [ править ]
Геометрическая медиана дискретного набора точек выборки в евклидовом пространстве это [а] точку, минимизирующую сумму расстояний до точек выборки.
В отличие от маргинальной медианы, геометрическая медиана эквивариантна по отношению к евклидовым преобразованиям подобия, таким как сдвиги и повороты .
Медиана во всех направлениях [ править ]
Если маргинальные медианы для всех систем координат совпадают, то их общее расположение можно назвать «медианой во всех направлениях». [40] Эта концепция актуальна для теории голосования из-за теоремы о медианном избирателе . Когда она существует, медиана по всем направлениям совпадает с геометрической медианой (по крайней мере, для дискретных распределений).
Центральная точка [ править ]
связанные , Другие концепции
медиана Интерполированная
Имея дело с дискретной переменной, иногда полезно рассматривать наблюдаемые значения как средние точки лежащих в их основе непрерывных интервалов. Примером этого является шкала Лайкерта , в которой мнения или предпочтения выражаются по шкале с заданным количеством возможных ответов. Если шкала состоит из целых положительных чисел, то наблюдение, равное 3, можно рассматривать как представляющее интервал от 2,50 до 3,50. Можно оценить медиану базовой переменной. Если, скажем, 22% наблюдений имеют значение 2 или ниже, а 55,0% — значение 3 или ниже (то есть 33% имеют значение 3), то медиана равно 3, поскольку медиана — это наименьшее значение для чего больше половины. Но интерполированная медиана находится где-то между 2,50 и 3,50. Сначала мы добавляем половину ширины интервала к медиане, чтобы получить верхнюю границу медианного интервала. Затем мы вычитаем ту долю ширины интервала, которая равна доле 33%, лежащей выше отметки 50%. Другими словами, мы делим ширину интервала пропорционально количеству наблюдений. В этом случае 33% делятся на 28% ниже медианы и 5% выше нее, поэтому мы вычитаем 5/33 ширины интервала от верхней границы 3,50, чтобы получить интерполированную медиану 3,35. Более формально, если значения известны, интерполированную медиану можно рассчитать по формуле
Альтернативно, если в наблюдаемой выборке присутствуют баллы выше средней категории, баллы в нем и баллов ниже этого значения, то интерполированная медиана определяется выражением
Псевдомедиана [ править ]
Для одномерных распределений, симметричных относительно одной медианы, оценка Ходжеса-Лемана является надежной и высокоэффективной оценкой медианы совокупности; для несимметричных распределений оценка Ходжеса-Лемана является надежной и высокоэффективной оценкой псевдомедианы популяции , которая является медианой симметричного распределения и близка к медиане популяции. [41] Оценка Ходжеса – Лемана была обобщена на многомерные распределения. [42]
Варианты регрессии [ править ]
Оценщик Тейла -Сена — это метод устойчивой линейной регрессии, основанный на нахождении медиан наклонов . [43]
Медианный фильтр [ править ]
Медианный фильтр — важный инструмент обработки изображений , который может эффективно удалять любой шум «соль и перец» из изображений в оттенках серого .
Кластерный анализ [ править ]
В кластерном анализе алгоритм кластеризации k-медиан обеспечивает способ определения кластеров, в котором критерий максимизации расстояния между кластерными средними, который используется при кластеризации k-средних , заменяется максимизацией расстояния между кластерными медианами.
Медианно-срединная линия [ править ]
Это метод робастной регрессии. Идея восходит к Вальду в 1940 году, который предложил разделить набор двумерных данных на две половины в зависимости от значения независимого параметра. : левая половина со значениями меньше медианы и правая половина со значениями больше медианы. [44] Он предложил воспользоваться средствами иждивенцев и независимый переменные левой и правой половин и оценка наклона линии, соединяющей эти две точки. Затем линию можно настроить так, чтобы она соответствовала большинству точек в наборе данных.
Наир и Шривастава в 1942 году предложили аналогичную идею, но вместо этого предложили разделить выборку на три равные части перед расчетом средних значений подвыборок. [45] Браун и Муд в 1951 году предложили идею использования медиан двух подвыборок, а не средних значений. [46] Тьюки объединил эти идеи и рекомендовал разделить выборку на три подвыборки одинакового размера и оценить линию на основе медиан подвыборок. [47]
- несмещенные оценки Медианно
Любая несмещенная к среднему оценка минимизирует риск ( ожидаемые потери квадратичной ошибки ) по отношению к функции потерь , как заметил Гаусс . Медианно - несмещенная оценка минимизирует риск относительно функции потерь абсолютного отклонения , как заметил Лаплас . Другие функции потерь используются в статистической теории , особенно в робастной статистике .
Теория несмещенных медианных оценок была возрождена Джорджем Брауном в 1947 году: [48]
Оценка одномерного параметра θ будет называться несмещенной по медиане, если при фиксированном θ медиана распределения оценки равна значению θ; т. е. оценка занижается так же часто, как и переоценивается. Кажется, что для большинства целей это требование удовлетворяет тем же требованиям, что и требование несмещенности по среднему, и обладает дополнительным свойством, состоящим в том, что оно инвариантно относительно взаимно однозначного преобразования.
— стр. 584
Сообщалось о других свойствах несмещенных по медиане оценок. [49] [50] [51] [52] Медианно-несмещенные оценки инвариантны относительно взаимно-однозначных преобразований .
Существуют методы построения несмещенных по медиане оценок, которые являются оптимальными (в смысле, аналогичном свойству минимальной дисперсии для оценок, несмещенных по среднему). Такие конструкции существуют для распределений вероятностей, имеющих монотонные функции правдоподобия . [53] [54] Одна из таких процедур является аналогом процедуры Рао-Блэквелла для несмещенных в среднем оценок: процедура справедлива для меньшего класса распределений вероятностей, чем процедура Рао-Блэквелла, но для большего класса функций потерь . [55]
История [ править ]
Научные исследователи на древнем Ближнем Востоке, похоже, вообще не использовали сводную статистику, вместо этого выбирая значения, которые обеспечивали максимальную согласованность с более широкой теорией, объединяющей широкий спектр явлений. [56] В средиземноморском (а позже и европейском) научном сообществе статистика, подобная среднему значению, по своей сути является развитием средневековья и раннего Нового времени. (История медианы за пределами Европы и ее предшественников остается относительно неизученной.)
Идея медианы появилась в VI веке в Талмуде для справедливого анализа расхождений в оценках . [57] [58] Однако эта концепция не получила распространения в широком научном сообществе.
Вместо этого ближайшим предком современной медианы является средний диапазон , изобретенный Аль-Бируни. [59] : 31 [60] Передача его работы более поздним ученым неясна. Он применил свою технику для анализа валютных металлов, но после того, как он опубликовал свою работу, большинство пробирщиков по-прежнему принимали самые неблагоприятные значения из своих результатов, чтобы не создать впечатление обмана . [59] : 35–8 [61] Однако расширение мореплавания в эпоху Великих географических открытий означало, что штурманам кораблей все чаще приходилось пытаться определить широту в неблагоприятную погоду относительно враждебных берегов, что привело к возобновлению интереса к сводной статистике. Независимо от того, открыт ли он заново или изобретен независимо, средний диапазон рекомендован морским мореплавателям в «Инструкциях по путешествию Рэли в Гвиану» Харриота, 1595 год. [59] : 45–8
Идея медианы, возможно, впервые появилась в книге Эдварда Райта 1599 года «Определенные ошибки в навигации» в разделе, посвященном навигации по компасу . [62] Райт не хотел отбрасывать измеренные значения и, возможно, считал, что медиана, включающая большую часть набора данных, чем средний диапазон , с большей вероятностью будет правильной. Однако Райт не привел примеров использования своей техники, из-за чего было трудно проверить, описал ли он современное понятие медианы. [56] [60] [б] Медиана (в контексте вероятности) конечно фигурировала в переписке Христиана Гюйгенса , но как пример статистики, не подходящей для актуарной практики . [56]
Самая ранняя рекомендация о медиане датируется 1757 годом, когда Роджер Джозеф Боскович разработал метод регрессии, основанный на L 1 норма и, следовательно, неявно находится на медиане. [56] [63] В 1774 году Лаплас ясно выразил это желание: он предложил использовать медиану в качестве стандартной оценки значения апостериорной PDF . Конкретным критерием была минимизация ожидаемой величины ошибки; где это оценка и это истинная ценность. С этой целью Лаплас определил распределение как выборочного среднего, так и выборочной медианы в начале 1800-х годов. [26] [64] Однако десять лет спустя Гаусс и Лежандр разработали метод наименьших квадратов , который минимизирует чтобы получить среднее значение. В контексте регрессии нововведение Гаусса и Лежандра значительно упрощает вычисления. Следовательно, предложение Лапласа в целом отвергалось до появления вычислительных устройств 150 лет спустя (и до сих пор это относительно необычный алгоритм). [65]
Антуан Огюстен Курно в 1843 году был первым [66] использовать термин медиана ( valeur mediane ) для значения, которое делит распределение вероятностей на две равные половины. Густав Теодор Фехнер использовал медиану ( Centralwerth ) в социологических и психологических явлениях. [67] Раньше он использовался только в астрономии и смежных областях. Густав Фехнер популяризировал медиану в формальном анализе данных, хотя ранее ее использовал Лаплас, [67] а медиана появилась в учебнике Ф. Я. Эджворта . [68] Фрэнсис Гальтон использовал английский термин «медиана» в 1881 году: [69] [70] ранее использовал термины «среднее значение» в 1869 году и «среднее значение» в 1880 году. [71] [72]
Статистики на протяжении всего XIX века активно поощряли использование медиан из-за их интуитивной ясности. Однако понятие медианы не поддается теории высших моментов так же, как среднее арифметическое , и его гораздо сложнее вычислить. В результате в течение 20 века медиана как понятие общего среднего значения постепенно вытеснялась средним арифметическим. [56] [60]
См. также [ править ]
- Абсолютное отклонение – разница между наблюдаемым значением переменной и эталонным значением.
- Смещение оценки - Статистическое свойство
- Центральная тенденция – статистическое значение, представляющее центр или среднее значение распределения.
- Концентрация меры – Статистический параметр для функций Липшица – Сильная форма равномерной непрерывности
- Медианный граф - график с медианой для каждых трех вершин.
- Медиана медиан - Быстрый алгоритм аппроксимации медианы - Алгоритм расчета приблизительной медианы за линейное время.
- Медианный поиск — метод поиска k-го наименьшего значения.
- Медианный наклон — статистический метод подбора линии.
- Теория медианного избирателя - теорема в политологии.
- Медоид – репрезентативные объекты набора данных или кластера внутри набора данных, сумма различий которых со всеми объектами в кластере минимальна. – Обобщение медианы в более высоких измерениях.
- Скользящее среднее # Скользящая медиана — тип статистической меры по подмножествам набора данных.
- Медианное абсолютное отклонение – статистическая мера изменчивости.
Примечания [ править ]
- ^ Геометрическая медиана уникальна, если выборка не коллинеарна. [39]
- ^ Последующие ученые, похоже, согласились с Эйзенхартом в том, что цифры Бороза за 1580 год, хотя и наводят на мысль о медиане, на самом деле описывают среднее арифметическое; [59] : 62–3 Бороус не упоминается ни в одной другой работе.
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б Вайсштейн, Эрик В. «Статистическая медиана» . Математический мир .
- ^ Саймон, Лаура Дж.; «Описательная статистика». Архивировано 30 июля 2010 г. в Wayback Machine , Набор ресурсов для статистического образования , Департамент статистики штата Пенсильвания.
- ^ Jump up to: Перейти обратно: а б Дерек Бисселл (1994). Статистические методы для Spc и Tqm . ЦРК Пресс. стр. 26–. ISBN 978-0-412-39440-9 . Проверено 25 февраля 2013 г.
- ^ Дэвид Дж. Шескин (27 августа 2003 г.). Справочник по параметрическим и непараметрическим статистическим процедурам (Третье изд.). ЦРК Пресс. п. 7. ISBN 978-1-4200-3626-8 . Проверено 25 февраля 2013 г.
- ^ Пол Т. фон Хиппель (2005). «Среднее, медиана и перекос: исправление правила из учебника» . Журнал статистического образования . 13 (2). Архивировано из оригинала 14 октября 2008 г. Проверено 18 июня 2015 г.
- ^ Робсон, Колин (1994). Эксперимент, дизайн и статистика в психологии . Пингвин. стр. 42–45. ISBN 0-14-017648-9 .
- ^ Jump up to: Перейти обратно: а б Уильямс, Д. (2001). Взвешивание шансов . Издательство Кембриджского университета. п. 165 . ISBN 052100618X .
- ^ Мейндональд, Джон; Браун, В. Джон (6 мая 2010 г.). Анализ данных и графика с использованием R: подход на основе примеров . Издательство Кембриджского университета. п. 104. ИСБН 978-1-139-48667-5 .
- ^ «Обзор статистики AP - кривые плотности и нормальное распределение» . Архивировано из оригинала 8 апреля 2015 года . Проверено 16 марта 2015 г.
- ^ Ньюман, МЭД (2005). «Степенные законы, распределения Парето и закон Ципфа». Современная физика . 46 (5): 323–351. arXiv : cond-mat/0412004 . Бибкод : 2005ConPh..46..323N . дои : 10.1080/00107510500052444 . S2CID 2871747 .
- ^ Строк, Дэниел (2011). Теория вероятностей . Издательство Кембриджского университета. стр. 43 . ISBN 978-0-521-13250-3 .
- ^ ДеГрут, Моррис Х. (1970). Оптимальные статистические решения . McGraw-Hill Book Co., Нью-Йорк-Лондон-Сидней. п. 232. ИСБН 9780471680291 . МР 0356303 .
- ^ Стивен А. Книга; Лоуренс Шер (1979). «Насколько близки среднее значение и медиана?» . Двухлетний математический журнал колледжа . 10 (3): 202–204. дои : 10.2307/3026748 . JSTOR 3026748 . Проверено 12 марта 2022 г.
- ^ Уоррен Пейдж; Ведула Н. Мурти (1982). «Отношения близости между мерами центральной тенденции и дисперсии: Часть 1» . Двухлетний математический журнал колледжа . 13 (5): 315–327. doi : 10.1080/00494925.1982.11972639 (неактивен 31 января 2024 г.) . Проверено 12 марта 2022 г.
{{cite journal}}
: CS1 maint: DOI неактивен по состоянию на январь 2024 г. ( ссылка ) - ^ О'Синнеид, Колм Арт (1990). «Среднее значение находится в пределах одного стандартного отклонения от любой медианы» . Американский статистик . 44 (4): 292–293. дои : 10.1080/00031305.1990.10475743 . Проверено 12 марта 2022 г.
- ^ Маллоуз, Колин (август 1991 г.). «Еще один комментарий к О'Синнеиду». Американский статистик . 45 (3): 257. дои : 10.1080/00031305.1991.10475815 .
- ^ Пише, Роберт (2012). Случайные векторы и случайные последовательности . Академическое издательство Ламберта. ISBN 978-3659211966 .
- ^ Кемперман, Йоханнес Х.Б. (1987). Додж, Ядола (ред.). «Медиана конечной меры в банаховом пространстве: статистический анализ данных на основе L1-нормы и связанных с ней методов». Материалы первой международной конференции, проходившей в Невшателе 31 августа – 4 сентября 1987 г. Амстердам: Издательство Северной Голландии: 217–230. МР 0949228 .
- ^ Миласевич, Филип; Дюшарм, Жиль Р. (1987). «Единственность пространственной медианы» . Анналы статистики . 15 (3): 1332–1333. дои : 10.1214/aos/1176350511 . МР 0902264 .
- ^ К.Ван Стин Заметки о вероятности и статистике
- ^ Басу, С.; Дасгупта, А. (1997). «Среднее, медиана и режим унимодальных распределений: характеристика». Теория вероятностей и ее приложения . 41 (2): 210–223. дои : 10.1137/S0040585X97975447 . S2CID 54593178 .
- ^ Меркл, М. (2005). «Неравенство Дженсена для медиан». Статистика и вероятностные буквы . 71 (3): 277–281. дои : 10.1016/j.spl.2004.11.010 .
- ^ Альфред В. Ахо, Джон Э. Хопкрофт и Джеффри Д. Ульман (1974). Проектирование и анализ компьютерных алгоритмов . Ридинг/Массачусетс: Аддисон-Уэсли. ISBN 0-201-00029-6 . Здесь: Раздел 3.6 «Статистика заказов», стр.97-99, в частности Алгоритм 3.6 и Теорема 3.9.
- ^ Бентли, Джон Л.; Макилрой, М. Дуглас (1993). «Разработка функции сортировки» . Программное обеспечение: практика и опыт . 23 (11): 1249–1265. дои : 10.1002/спе.4380231105 . S2CID 8822797 .
- ^ Руссиу, Питер Дж.; Бассетт, Гилберт В. младший (1990). «Лекарственное средство: надежный метод усреднения для больших наборов данных» (PDF) . Дж. Амер. Статист. доц . 85 (409): 97–104. дои : 10.1080/01621459.1990.10475311 .
- ^ Jump up to: Перейти обратно: а б Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Биометрика . 60 (3): 439–445. дои : 10.1093/biomet/60.3.439 . JSTOR 2334992 . МР 0326872 .
- ^ Райдер, Пол Р. (1960). «Разница медианы небольших выборок из нескольких особых групп населения». Дж. Амер. Статист. доц. 55 (289): 148–150. дои : 10.1080/01621459.1960.10482056 .
- ^ Эфрон, Б. (1982). Складной нож, Bootstrap и другие планы повторной выборки . Филадельфия: СИАМ. ISBN 0898711797 .
- ^ Шао, Дж.; Ву, CF (1989). «Общая теория оценки дисперсии складного ножа» . Энн. Стат. 17 (3): 1176–1197. дои : 10.1214/aos/1176347263 . JSTOR 2241717 .
- ^ Эфрон, Б. (1979). «Методы начальной загрузки: еще один взгляд на складной нож» . Энн. Стат. 7 (1): 1–26. дои : 10.1214/aos/1176344552 . JSTOR 2958830 .
- ^ Холл, П.; Мартин, Массачусетс (1988). «Точная скорость сходимости бутстрап-оценщика квантильной дисперсии» . Области, связанные с теорией вероятностей . 80 (2): 261–268. дои : 10.1007/BF00356105 . S2CID 119701556 .
- ^ Хименес-Гамеро, доктор медицинских наук; Муньос-Гарсия, Ж.; Пино-Мехиас, Р. (2004). «Уменьшенная начальная загрузка для медианы» . Статистика Синица . 14 (4): 1179–1198.
- ^ Мейндональд, Джон; Джон Браун, В. (6 мая 2010 г.). Анализ данных и графика с использованием R: подход на основе примеров . Издательство Кембриджского университета. ISBN 9781139486675 .
- ^ Jump up to: Перейти обратно: а б с Хеттманспергер, Томас П.; Маккин, Джозеф В. (1998). Робастные непараметрические статистические методы . Статистическая библиотека Кендалла. Том. 5. Лондон: Эдвард Арнольд. ISBN 0-340-54937-8 . МР 1604954 .
- ^ Смолл, Кристофер Г. «Обзор многомерных медиан». Международное статистическое обозрение/Международное статистическое обозрение (1990): 263–277. дои : 10.2307/1403809 JSTOR 1403809
- ^ Ниинимаа, А. и Х. Оя. «Многомерная медиана». Энциклопедия статистических наук (1999).
- ^ Мослер, Карл. Многомерная дисперсия, центральные регионы и глубина: подход зоноида подъема. Том. 165. Springer Science & Business Media, 2012.
- ^ Пури, Мадан Л.; Сен, Пранаб К.; Непараметрические методы в многомерном анализе , John Wiley & Sons, Нью-Йорк, 1971. (Перепечатано Krieger Publishing)
- ^ Варди, Иегуда; Чжан, Цунь-Хуэй (2000). «Многомерная L 1- медиана и связанная с ней глубина данных» . Труды Национальной академии наук Соединенных Штатов Америки . 97 (4): 1423–1426 (электронный). Бибкод : 2000PNAS...97.1423V . дои : 10.1073/pnas.97.4.1423 . МР 1740461 . ПМК 26449 . ПМИД 10677477 .
- ^ Дэвис, Отто А.; ДеГрут, Моррис Х.; Хинич, Мелвин Дж. (январь 1972 г.). «Порядок социальных предпочтений и правило большинства» (PDF) . Эконометрика . 40 (1): 147–157. дои : 10.2307/1909727 . JSTOR 1909727 . Авторы, работающие в теме, в которой предполагается уникальность, фактически используют выражение « уникальная медиана во всех направлениях».
- ^ Пратт, Уильям К.; Купер, Тед Дж.; Кабир, Ихтишам (11 июля 1985 г.). Корбетт, Фрэнсис Дж (ред.). «Псевдомедианный фильтр». Архитектуры и алгоритмы цифровой обработки изображений II . 0534 : 34. Бибкод : 1985SPIE..534...34P . дои : 10.1117/12.946562 . S2CID 173183609 .
- ^ Оджа, Ханну (2010). Многомерные непараметрические методы с R : подход, основанный на пространственных знаках и рангах . Конспект лекций по статистике. Том. 199. Нью-Йорк, штат Нью-Йорк: Спрингер. стр. xiv+232. дои : 10.1007/978-1-4419-0468-3 . ISBN 978-1-4419-0467-6 . МР 2598854 .
- ^ Уилкокс, Рэнд Р. (2001), «Оценщик Тейла – Сена», «Основы современных статистических методов: существенное повышение мощности и точности» , Springer-Verlag, стр. 207–210, ISBN 978-0-387-95157-7 .
- ^ Уолд, А. (1940). «Подбор прямых линий, если обе переменные подвержены ошибкам» (PDF) . Анналы математической статистики . 11 (3): 282–300. дои : 10.1214/aoms/1177731868 . JSTOR 2235677 .
- ^ Наир, КР; Шривастава, депутат парламента (1942). «О простом методе подбора кривой». Санкхья: Индийский статистический журнал . 6 (2): 121–132. JSTOR 25047749 .
- ^ Браун, GW; Настроение, А.М. (1951). «О медианных тестах линейных гипотез». Материалы Второго симпозиума Беркли по математической статистике и теории вероятностей . Беркли, Калифорния: Издательство Калифорнийского университета. стр. 159–166. Збл 0045.08606 .
- ^ Тьюки, JW (1977). Исследовательский анализ данных . Ридинг, Массачусетс: Аддисон-Уэсли. ISBN 0201076160 .
- ^ Браун, Джордж В. (1947). «О маловыборочном оценивании» . Анналы математической статистики . 18 (4): 582–585. дои : 10.1214/aoms/1177730349 . JSTOR 2236236 .
- ^ Леманн, Эрих Л. (1951). «Общая концепция беспристрастности» . Анналы математической статистики . 22 (4): 587–592. дои : 10.1214/aoms/1177729549 . JSTOR 2236928 .
- ^ Бирнбаум, Аллан (1961). «Единая теория оценки, I» . Анналы математической статистики . 32 (1): 112–135. дои : 10.1214/aoms/1177705145 . JSTOR 2237612 .
- ^ ван дер Ваарт, Х. Роберт (1961). «Некоторые расширения идеи предвзятости» . Анналы математической статистики . 32 (2): 436–447. дои : 10.1214/aoms/1177705051 . JSTOR 2237754 . МР 0125674 .
- ^ Пфанцагль, Иоганн; при содействии Р. Хамбокера (1994). Параметрическая статистическая теория . Вальтер де Грюйтер. ISBN 3-11-013863-8 . МР 1291393 .
- ^ Пфанцагль, Иоганн. «Об оптимальных медианных несмещенных оценках при наличии мешающих параметров». Анналы статистики (1979): 187–193.
- ^ Браун, Л.Д.; Коэн, Артур; Стродерман, МЫ (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями» . Энн. Статист . 4 (4): 712–722. дои : 10.1214/aos/1176343543 .
- ^ Страница; Браун, Л.Д.; Коэн, Артур; Стродерман, МЫ (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями» . Энн. Статист . 4 (4): 712–722. дои : 10.1214/aos/1176343543 .
- ^ Jump up to: Перейти обратно: а б с д и Баккер, Артур; Гравемейер, Коэно ЧП (1 июня 2006 г.). «Историческая феноменология среднего и медианы». Образовательные исследования по математике . 62 (2): 149–168. дои : 10.1007/s10649-006-7099-8 . ISSN 1573-0816 . S2CID 143708116 .
- ^ Адлер, Дэн (31 декабря 2014 г.). «Талмуд и современная экономика» . Еврейские американские и израильские проблемы . Архивировано из оригинала 6 декабря 2015 года . Проверено 22 февраля 2020 г. .
- ^ Современная экономическая теория в Талмуде Исраэля Ауманна
- ^ Jump up to: Перейти обратно: а б с д Эйзенхарт, Черчилль (24 августа 1971 г.). Развитие понятия о наилучшем средстве совокупности измерений от древности до наших дней (PDF) (Выступление). 131-е ежегодное собрание Американской статистической ассоциации. Государственный университет Колорадо.
- ^ Jump up to: Перейти обратно: а б с «Как средний показатель победил медианный» . Ценаономика . 5 апреля 2016 года . Проверено 23 февраля 2020 г.
- ^ Сангстер, Алан (март 2021 г.). «Жизнь и творчество Луки Пачоли (1446/7–1517), педагога-гуманиста» . Абак . 57 (1): 126–152. дои : 10.1111/abac.12218 . hdl : 2164/16100 . ISSN 0001-3072 . S2CID 233917744 .
- ^ Райт, Эдвард; Парсонс, EJS; Моррис, ВФ (1939). «Эдвард Райт и его работа» . Имаго Мунди . 3 : 61–71. дои : 10.1080/03085693908591862 . ISSN 0308-5694 . JSTOR 1149920 .
- ^ Стиглер, С.М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. ISBN 0674403401 .
- ^ Лаплас PS de (1818) Второе приложение к Аналитической теории вероятностей , Париж, Courcier
- ^ Джейнс, ET (2007). Теория вероятностей: логика науки (5-е печатное изд.). Кембридж [ua]: Cambridge Univ. Нажимать. п. 172. ИСБН 978-0-521-59271-0 .
- ^ Ховарт, Ричард (2017). Словарь математических наук о Земле: с историческими примечаниями . Спрингер. п. 374.
- ^ Jump up to: Перейти обратно: а б Кейнс, Дж. М. (1921) Трактат о вероятности . Pt II Ch XVII §5 (стр. 201) (переиздание 2006 г., Cosimo Classics, ISBN 9781596055308 : несколько других переизданий)
- ^ Стиглер, Стивен М. (2002). Статистика на столе: история статистических концепций и методов . Издательство Гарвардского университета. стр. 105–7. ISBN 978-0-674-00979-0 .
- ^ Гальтон Ф. (1881) «Отчет Антропометрического комитета», стр. 245–260. Отчет 51-го собрания Британской ассоциации содействия развитию науки
- ^ Дэвид, ХА (1995). «Первое (?) появление общих терминов в математической статистике». Американский статистик . 49 (2): 121–133. дои : 10.2307/2684625 . ISSN 0003-1305 . JSTOR 2684625 .
- ^ энциклопедияofmath.org
- ^ личный.psu.edu
Внешние ссылки [ править ]
- «Медиана (в статистике)» , Математическая энциклопедия , EMS Press , 2001 [1994]
- Медиана как среднее арифметическое всех выборочных наблюдений.
- Он-лайн калькулятор
- Расчет медианы
- Проблема, связанная со средним значением, медианой и модой.
- Вайсштейн, Эрик В. «Статистическая медиана» . Математический мир .
- Скрипт Python для расчета медианы и показателей неравенства доходов
- Быстрое вычисление медианы путем последовательного группирования
- «Среднее, медиана, мода и асимметрия» . Учебное пособие, разработанное для студентов-психологов первого курса Оксфордского университета на основе проработанного примера.
- Сложная математическая задача SAT Даже совет колледжа ошибся : Эндрю Дэниелс в «Популярной механике»
Эта статья включает в себя материалы из дистрибутива Median на PlanetMath , который распространяется по лицензии Creative Commons Attribution/Share-Alike License .