медиана
Медиана данных набора чисел — это значение, отделяющее верхнюю половину от нижней половины выборки , генеральной совокупности или распределения вероятностей . Для набора данных рассматривать как «среднее » значение его можно . . Например, медианный доход может быть лучшим способом описания центра распределения доходов, поскольку увеличение крупнейших доходов само по себе не влияет на медиану По этой причине медиана имеет центральное значение в надежной статистике .
Конечный набор чисел
[ редактировать ]Медиана конечного списка чисел — это «среднее» число, когда эти числа перечислены в порядке от наименьшего к наибольшему.
Если набор данных имеет нечетное количество наблюдений, выбирается среднее. Например, следующий список из семи чисел:
- 1, 3, 3, 6, 7, 8, 9
has the median of 6, which is the fourth value.
If the data set has an even number of observations, there is no distinct middle value and the median is usually defined to be the arithmetic mean of the two middle values.[1][2] For example, this data set of 8 numbers
- 1, 2, 3, 4, 5, 6, 8, 9
has a median value of 4.5, that is . (In more technical terms, this interprets the median as the fully trimmed mid-range).
In general, with this convention, the median can be defined as follows: For a data set of elements, ordered from smallest to greatest,
- if is odd,
- if is even,
Type | Description | Example | Result |
---|---|---|---|
Midrange | Midway point between the minimum and the maximum of a data set | 1, 2, 2, 3, 4, 7, 9 | 5 |
Arithmetic mean | Sum of values of a data set divided by number of values: | (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 | 4 |
Median | Middle value separating the greater and lesser halves of a data set | 1, 2, 2, 3, 4, 7, 9 | 3 |
Mode | Most frequent value in a data set | 1, 2, 2, 3, 4, 7, 9 | 2 |
Formal definition and notation
[edit]Formally, a median of a population is any value such that at least half of the population is less than or equal to the proposed median and at least half is greater than or equal to the proposed median. As seen above, medians may not be unique. If each set contains more than half the population, then some of the population is exactly equal to the unique median.
The median is well-defined for any ordered (one-dimensional) data and is independent of any distance metric. The median can thus be applied to school classes which are ranked but not numerical (e.g. working out a median grade when student test scores are graded from F to A), although the result might be halfway between classes if there is an even number of classes. (For odd number classes, one specific class is determined as the median.)
A geometric median, on the other hand, is defined in any number of dimensions. A related concept, in which the outcome is forced to correspond to a member of the sample, is the medoid.
There is no widely accepted standard notation for the median, but some authors represent the median of a variable x as med(x), x͂,[3] as μ1/2,[1] or as M.[3][4] In any of these cases, the use of these or other symbols for the median needs to be explicitly defined when they are introduced.
The median is a special case of other ways of summarizing the typical values associated with a statistical distribution: it is the 2nd quartile, 5th decile, and 50th percentile.
Uses
[edit]The median can be used as a measure of location when one attaches reduced importance to extreme values, typically because a distribution is skewed, extreme values are not known, or outliers are untrustworthy, i.e., may be measurement/transcription errors.
For example, consider the multiset
- 1, 2, 2, 2, 3, 14.
The median is 2 in this case, as is the mode, and it might be seen as a better indication of the center than the arithmetic mean of 4, which is larger than all but one of the values. However, the widely cited empirical relationship that the mean is shifted "further into the tail" of a distribution than the median is not generally true. At most, one can say that the two statistics cannot be "too far" apart; see § Inequality relating means and medians below.[5]
As a median is based on the middle data in a set, it is not necessary to know the value of extreme results in order to calculate it. For example, in a psychology test investigating the time needed to solve a problem, if a small number of people failed to solve the problem at all in the given time a median can still be calculated.[6]
Because the median is simple to understand and easy to calculate, while also a robust approximation to the mean, the median is a popular summary statistic in descriptive statistics. In this context, there are several choices for a measure of variability: the range, the interquartile range, the mean absolute deviation, and the median absolute deviation.
В практических целях различные показатели местоположения и дисперсии часто сравниваются на основе того, насколько хорошо можно оценить соответствующие значения численности населения на основе выборки данных. Медиана, рассчитанная с использованием выборочной медианы, имеет в этом отношении хорошие свойства. Хотя обычно предполагается, что данное распределение населения не является оптимальным, его свойства всегда достаточно хорошие. Например, сравнение эффективности оценщиков -кандидатов показывает, что выборочное среднее является более статистически эффективным, когда — и только тогда — данные не загрязнены данными из распределений с тяжелым хвостом или из смесей распределений. [ нужна ссылка ] Даже в этом случае эффективность медианы составляет 64% по сравнению со средним значением минимальной дисперсии (для больших нормальных выборок), то есть дисперсия медианы будет примерно на 50% больше, чем дисперсия среднего значения. [7] [8]
Распределения вероятностей
[ редактировать ]Для любого действительного с распределения вероятностей кумулятивной функцией распределения F медиана определяется как любое действительное число m , которое удовлетворяет неравенствам (см. рисунок определения ожидаемого значения для произвольных действительных случайных величин ). Эквивалентная формулировка использует случайную величину X, распределенную согласно F :
Обратите внимание, что это определение не требует, чтобы X имело абсолютно непрерывное распределение (которое имеет функцию плотности вероятности f ), а также не требует дискретного распределения . В первом случае неравенства можно повысить до равенства: медиана удовлетворяет и
Любое распределение вероятностей на множестве действительных чисел имеет по крайней мере одну медиану, но в патологических случаях медиан может быть более одной: если F постоянна 1/2 на интервале (так что там f = 0), то любое значение этого интервала является медианой.
Медианы конкретных распределений
[ редактировать ]Медианы некоторых типов распределений можно легко рассчитать по их параметрам; более того, они существуют даже для некоторых распределений, в которых отсутствует четко определенное среднее значение, таких как распределение Коши :
- Медиана симметричного унимодального распределения совпадает с модой.
- Медиана симметричного распределения , имеющая среднее значение µ, также принимает значение µ .
- Медиана нормального распределения со средним значением µ и дисперсией σ 2 есть μ. Фактически, для нормального распределения среднее = медиана = мода.
- Медиана равномерного распределения в интервале [ a , b ] равна ( a + b )/2, что также является средним значением.
- Медиана распределения Коши с параметром местоположения x 0 и параметром масштаба y равна x 0 , параметру местоположения.
- Медиана степенного распределения x − а , с показателем a > 1 равно 2 1/( а − 1) x min , где x min — минимальное значение, для которого выполняется степенной закон [10]
- Медиана экспоненциального распределения с параметром скорости λ представляет собой натуральный логарифм 2, разделенный на параметр скорости: λ −1 пер. 2.
- Медиана распределения Вейбулла с параметром формы k и параметром масштаба λ равна λ (ln 2). 1/ к .
Характеристики
[ редактировать ]Свойство оптимальности
[ редактировать ]Средняя абсолютная ошибка действительной переменной c по отношению к случайной величине X равна
При условии, что распределение вероятностей X таково, что вышеуказанное ожидание существует, тогда m является медианой X тогда и только тогда, когда m является минимизатором средней абсолютной ошибки по отношению к X . [11] В частности, если m — выборочная медиана, то она минимизирует среднее арифметическое абсолютных отклонений. [12] Однако обратите внимание, что в случаях, когда выборка содержит четное количество элементов, этот минимизатор не уникален.
В более общем смысле медиана определяется как минимум
как обсуждается ниже в разделе о многомерных медианах (в частности, пространственной медиане ).
Это основанное на оптимизации определение медианы полезно при статистическом анализе данных, например, при k кластеризации -медиан .
Неравенство, касающееся средних и медиан
[ редактировать ]Если распределение имеет конечную дисперсию, то расстояние между медианой и среднее значение ограничено одним стандартным отклонением .
Эта граница была доказана Буком и Шером в 1979 году для дискретных выборок. [13] и в более общем смысле Пейджем и Мерти в 1982 году. [14] В комментарии к последующему доказательству О'Киннеида: [15] Мэллоуз в 1991 году представил компактное доказательство, в котором дважды используется неравенство Йенсена : [16] следующее. Использование |·| для абсолютного значения мы имеем
Первое и третье неравенства происходят из неравенства Йенсена, примененного к функции абсолютного значения и квадратичной функции, каждая из которых выпукла. Второе неравенство связано с тем, что медиана минимизирует абсолютного отклонения . функцию .
Доказательство Маллоуза можно обобщить, чтобы получить многомерную версию неравенства [17] просто заменив абсолютное значение нормой :
где m — пространственная медиана , то есть минимизатор функции Пространственная медиана уникальна, если размерность набора данных равна двум или более. [18] [19]
Альтернативное доказательство использует одностороннее неравенство Чебышева; оно проявляется в неравенстве параметров местоположения и масштаба . Эта формула также следует непосредственно из неравенства Кантелли . [20]
Унимодальные распределения
[ редактировать ]В случае унимодальных распределений можно добиться более четкой границы расстояния между медианой и средним значением:
- . [21]
Аналогичное соотношение сохраняется между медианой и модой:
Среднее, медиана и асимметрия
[ редактировать ]Типичная эвристика состоит в том, что положительно асимметричные распределения имеют среднее значение > медианы. Это справедливо для всех членов семейства дистрибьюторов Пирсона . Однако это не всегда так. Например, в семействе распределений Вейбулла есть члены с положительным средним значением, но средним значением < медианы. Нарушения правила особенно распространены для дискретных распределений. Например, любое распределение Пуассона имеет положительную асимметрию, но его среднее значение < медианы всякий раз, когда . [22] Видеть [23] для контрольного эскиза.
Когда распределение имеет монотонно убывающую плотность вероятности, медиана меньше среднего, как показано на рисунке.
Неравенство Дженсена для медиан
[ редактировать ]Неравенство Йенсена утверждает, что для любой случайной величины X с конечным математическим ожиданием E [ X ] и для любой выпуклой функции f
Это неравенство распространяется и на медиану. Мы говорим, что функция f : R → R является функцией C если для любого t ,
является замкнутым интервалом (допускающим вырожденные случаи одной точки или пустого множества ). Каждая выпуклая функция является функцией C, но обратное неверно. Если f — функция C, то
Если медианы не единственны, утверждение справедливо для соответствующих супремумов. [24]
Медианы для выборок
[ редактировать ]Эффективное вычисление медианы выборки
[ редактировать ]Несмотря на то, что для сортировки сравнения n элементов требуется Ω ( n log n ) операций, алгоритмы выбора могут вычислить k -й наименьший из n элементов только с помощью Θ( n ) операций. Сюда входит медиана, т. n / 2 статистика-го порядка (или для четного числа выборок среднее арифметическое двух статистик среднего порядка). [25]
Алгоритмы отбора по-прежнему имеют недостаток: они требуют памяти Ω( n ) , то есть им необходимо иметь в памяти полную выборку (или ее линейную часть). Поскольку это, а также требование линейного времени может быть непомерно высоким, было разработано несколько процедур оценки медианы. Простым является правило медианы трех элементов, которое оценивает медиану как медиану подвыборки из трех элементов; это обычно используется как подпрограмма в алгоритме быстрой сортировки, который использует оценку медианы входных данных. Более надежная оценка — Тьюки девятая , которая представляет собой медиану трех правил, применяемых с ограниченной рекурсией: [26] если A — образец, представленный в виде массива , и
- med3( А ) = med( А [1], А [ п / 2 ], А [ п ]) ,
затем
- девятый( А ) = med3(med3( A [1 ... 1/3 n ( ] ), med3 А [ 1 / 3 n ... 2 / 3 n ]), med3( А [ 2/3 ... н ] н ) )
Медиана — это средство оценки медианы, которое требует линейного времени, но сублинейной памяти и работает за один проход по выборке. [27]
Выборочное распределение
[ редактировать ]Распределение выборочного среднего и выборочной медианы было определено Лапласом . [28] Распределение выборочной медианы из совокупности с функцией плотности асимптотически нормально со средним и дисперсия [29]
где является медианой и размер выборки:
Современное доказательство следует ниже. Результат Лапласа теперь понимается как частный случай асимптотического распределения произвольных квантилей .
Для обычных образцов плотность равна , таким образом, для больших выборок дисперсия медианы равна [7] (См. также раздел #Эффективность ниже.)
Вывод асимптотического распределения
[ редактировать ]Мы принимаем размер выборки за нечетное число. и предположим, что наша переменная непрерывна; формула для случая дискретных переменных приведена ниже в § Эмпирическая локальная плотность . Выборку можно резюмировать как «ниже медианы», «на уровне медианы» и «выше медианы», что соответствует триномиальному распределению с вероятностями. , и . Для непрерывной переменной вероятность того, что несколько значений выборки будут точно равны медиане, равна 0, поэтому можно вычислить плотность в точке непосредственно из триномиального распределения:
- .
Теперь мы вводим бета-функцию. Для целочисленных аргументов и , это можно выразить как . Также напомним, что . Используя эти отношения и устанавливая оба и равный позволяет записать последнее выражение как
Следовательно, функция плотности медианы представляет собой симметричное бета-распределение, выдвинутое вперед . Его среднее значение, как и следовало ожидать, равно 0,5, а его дисперсия равна . По правилу цепочки соответствующая дисперсия выборочной медианы равна
- .
Дополнительные 2 в пределе пренебрежимо малы .
Эмпирическая локальная плотность
[ редактировать ]На практике функции и выше, часто не известны или не предполагаются. Однако их можно оценить по наблюдаемому распределению частот. В этом разделе мы приведем пример. Рассмотрим следующую таблицу, представляющую выборку из 3800 (дискретных) наблюдений:
v | 0 | 0.5 | 1 | 1.5 | 2 | 2.5 | 3 | 3.5 | 4 | 4.5 | 5 |
---|---|---|---|---|---|---|---|---|---|---|---|
е(в) | 0.000 | 0.008 | 0.010 | 0.013 | 0.083 | 0.108 | 0.328 | 0.220 | 0.202 | 0.023 | 0.005 |
Ф(в) | 0.000 | 0.008 | 0.018 | 0.031 | 0.114 | 0.222 | 0.550 | 0.770 | 0.972 | 0.995 | 1.000 |
Поскольку наблюдения имеют дискретные значения, построение точного распределения медианы не является немедленным переводом приведенного выше выражения для ; можно (и обычно имеет) иметь несколько экземпляров медианы в выборке. Итак, мы должны суммировать все эти возможности:
Здесь i — количество точек, строго меньшее медианы, а k — число, строго большее.
Используя эти предварительные сведения, можно исследовать влияние размера выборки на стандартные ошибки среднего и медианы. Наблюдаемое среднее значение составляет 3,16, наблюдаемая необработанная медиана — 3, а наблюдаемая интерполированная медиана — 3,174. В следующей таблице приведены некоторые сравнительные статистические данные.
Размер выборки Статистика | 3 | 9 | 15 | 21 |
---|---|---|---|---|
Ожидаемое значение медианы | 3.198 | 3.191 | 3.174 | 3.161 |
Стандартная ошибка медианы (формула выше) | 0.482 | 0.305 | 0.257 | 0.239 |
Стандартная ошибка медианы (асимптотическое приближение) | 0.879 | 0.508 | 0.393 | 0.332 |
Стандартная ошибка среднего | 0.421 | 0.243 | 0.188 | 0.159 |
Ожидаемое значение медианы немного падает по мере увеличения размера выборки, в то время как, как и следовало ожидать, стандартные ошибки как медианы, так и среднего значения пропорциональны обратному квадратному корню из размера выборки. Асимптотическая аппроксимация ошибочна, поскольку переоценивает стандартную ошибку.
Оценка дисперсии на основе выборочных данных
[ редактировать ]Стоимость – асимптотическое значение где является медианой численности населения и изучалась несколькими авторами. Стандартный метод складного ножа «удалить один» дает противоречивые результаты. [30] Альтернатива — метод «удалить k», где Было показано, что рост с размером выборки асимптотически согласуется. [31] Этот метод может быть дорогостоящим в вычислительном отношении для больших наборов данных. Известно, что бутстрап-оценка непротиворечива, [32] но сходится очень медленно порядка ( ). [33] Были предложены и другие методы, но их поведение может различаться для больших и малых выборок. [34]
Эффективность
[ редактировать ]Эффективность . выборочной медианы, измеряемая как отношение дисперсии среднего значения к дисперсии медианы, зависит от размера выборки и основного распределения населения Для образца размером из нормального распределения эффективность для больших N равна
Эффективность имеет тенденцию как стремится к бесконечности.
Другими словами, относительная дисперсия медианы будет равна или на 57% больше, чем дисперсия среднего значения – относительная стандартная ошибка медианы будет равна или на 25 % больше стандартной ошибки среднего значения , (см. также раздел #Распределение выборки выше.). [35]
Другие оценщики
[ редактировать ]Для одномерных распределений, симметричных относительно одной медианы, оценка Ходжеса-Лемана является надежной и высокоэффективной оценкой медианы совокупности. [36]
Если данные представлены статистической моделью, определяющей конкретное семейство распределений вероятностей , то оценки медианы можно получить путем подгонки этого семейства распределений вероятностей к данным и расчета теоретической медианы подобранного распределения. Интерполяция Парето — это применение этого подхода, когда предполагается, что совокупность имеет распределение Парето .
Многомерная медиана
[ редактировать ]Ранее в этой статье обсуждалась одномерная медиана, когда выборка или совокупность были одномерными. Когда размерность равна двум или выше, существует несколько концепций, расширяющих определение одномерной медианы; каждая такая многомерная медиана согласуется с одномерной медианой, когда размерность равна ровно единице. [36] [37] [38] [39]
Маргинальная медиана
[ редактировать ]Маргинальная медиана определяется для векторов, определенных относительно фиксированного набора координат. Маргинальная медиана определяется как вектор, компоненты которого являются одномерными медианами. Маргинальную медиану легко вычислить, ее свойства изучали Пури и Сен. [36] [40]
Геометрическая медиана
[ редактировать ]Геометрическая медиана дискретного набора точек выборки в евклидовом пространстве это [а] точку, минимизирующую сумму расстояний до точек выборки.
В отличие от маргинальной медианы, геометрическая медиана эквивариантна по отношению к евклидовым преобразованиям подобия, таким как сдвиги и повороты .
Медиана во всех направлениях
[ редактировать ]Если маргинальные медианы для всех систем координат совпадают, то их общее расположение можно назвать «медианой во всех направлениях». [42] Эта концепция актуальна для теории голосования из-за теоремы о медианном избирателе . Когда она существует, медиана по всем направлениям совпадает с геометрической медианой (по крайней мере, для дискретных распределений).
Центральная точка
[ редактировать ]Другие концепции, связанные с медианой
[ редактировать ]Интерполированная медиана
[ редактировать ]Имея дело с дискретной переменной, иногда полезно рассматривать наблюдаемые значения как средние точки лежащих в их основе непрерывных интервалов. Примером этого является шкала Лайкерта , в которой мнения или предпочтения выражаются по шкале с заданным количеством возможных ответов. Если шкала состоит из целых положительных чисел, то наблюдение, равное 3, можно рассматривать как представляющее интервал от 2,50 до 3,50. Можно оценить медиану базовой переменной. Если, скажем, 22% наблюдений имеют значение 2 или ниже, а 55,0% — значение 3 или ниже (то есть 33% имеют значение 3), то медиана равно 3, поскольку медиана — это наименьшее значение для чего больше половины. Но интерполированная медиана находится где-то между 2,50 и 3,50. Сначала мы добавляем половину ширины интервала к медиане, чтобы получить верхнюю границу медианного интервала. Затем мы вычитаем ту долю ширины интервала, которая равна доле 33%, лежащей выше отметки 50%. Другими словами, мы делим ширину интервала пропорционально количеству наблюдений. В этом случае 33% делятся на 28% ниже медианы и 5% выше нее, поэтому мы вычитаем 5/33 ширины интервала от верхней границы 3,50, чтобы получить интерполированную медиану 3,35. Более формально, если значения известны, интерполированную медиану можно рассчитать по формуле
Альтернативно, если в наблюдаемой выборке присутствуют баллы выше средней категории, баллы в нем и баллов ниже этого значения, то интерполированная медиана определяется выражением
Псевдомедиана
[ редактировать ]Для одномерных распределений, симметричных относительно одной медианы, оценка Ходжеса-Лемана является надежной и высокоэффективной оценкой медианы совокупности; для несимметричных распределений оценка Ходжеса-Лемана является надежной и высокоэффективной оценкой псевдомедианы популяции , которая является медианой симметричного распределения и близка к медиане популяции. [43] Оценка Ходжеса – Лемана была обобщена на многомерные распределения. [44]
Варианты регрессии
[ редактировать ]Оценщик Тейла -Сена — это метод устойчивой линейной регрессии, основанный на нахождении медиан наклонов . [45]
Медианный фильтр
[ редактировать ]Медианный фильтр — важный инструмент обработки изображений , который может эффективно удалять любые шумы соли и перца из изображений в оттенках серого .
Кластерный анализ
[ редактировать ]В кластерном анализе алгоритм кластеризации k-медиан обеспечивает способ определения кластеров, в котором критерий максимизации расстояния между кластерными средними, который используется при кластеризации k-средних , заменяется максимизацией расстояния между кластерными медианами.
Срединная – срединная линия
[ редактировать ]Это метод робастной регрессии. Идея восходит к Вальду в 1940 году, который предложил разделить набор двумерных данных на две половины в зависимости от значения независимого параметра. : левая половина со значениями меньше медианы и правая половина со значениями больше медианы. [46] Он предложил воспользоваться средствами иждивенцев и независимый переменные левой и правой половин и оценка наклона линии, соединяющей эти две точки. Затем линию можно было бы скорректировать, чтобы она соответствовала большинству точек в наборе данных.
Наир и Шривастава в 1942 году предложили аналогичную идею, но вместо этого предложили разделить выборку на три равные части перед расчетом средних значений подвыборок. [47] Браун и Муд в 1951 году предложили идею использования медиан двух подвыборок, а не средних значений. [48] Тьюки объединил эти идеи и рекомендовал разделить выборку на три подвыборки одинакового размера и оценить линию на основе медиан подвыборок. [49]
Медианно-несмещенные оценки
[ редактировать ]Любая несмещенная к среднему оценка минимизирует риск ( ожидаемые потери квадратичной ошибки ) по отношению к функции потерь , как заметил Гаусс . Медианно - несмещенная оценка минимизирует риск относительно функции потерь абсолютного отклонения , как заметил Лаплас . Другие функции потерь используются в статистической теории , особенно в робастной статистике .
Теория несмещенных по медиане оценок была возрождена Джорджем Брауном в 1947 году: [50]
Оценка одномерного параметра θ будет называться несмещенной по медиане, если при фиксированном θ медиана распределения оценки равна значению θ; т. е. оценка занижается так же часто, как и переоценивается. Кажется, что для большинства целей это требование удовлетворяет тем же требованиям, что и требование несмещенности по среднему, и обладает дополнительным свойством, состоящим в том, что оно инвариантно относительно взаимно однозначного преобразования.
— стр. 584
Сообщалось о других свойствах несмещенных по медиане оценок. [51] [52] [53] [54] Медианно-несмещенные оценки инвариантны относительно взаимно-однозначных преобразований .
Существуют методы построения несмещенных по медиане оценок, которые являются оптимальными (в смысле, аналогичном свойству минимальной дисперсии для оценок, несмещенных по среднему). Такие конструкции существуют для распределений вероятностей, имеющих монотонные функции правдоподобия . [55] [56] Одна из таких процедур является аналогом процедуры Рао-Блэквелла для несмещенных в среднем оценок: процедура справедлива для меньшего класса распределений вероятностей, чем процедура Рао-Блэквелла, но для большего класса функций потерь . [57]
История
[ редактировать ]Научные исследователи на древнем Ближнем Востоке, похоже, вообще не использовали сводную статистику, вместо этого выбирая значения, которые обеспечивали максимальную согласованность с более широкой теорией, объединяющей широкий спектр явлений. [58] В средиземноморском (а позже и европейском) научном сообществе статистика, подобная среднему значению, по своей сути является развитием средневековья и раннего Нового времени. (История медианы за пределами Европы и ее предшественников остается относительно неизученной.)
Идея медианы появилась в VI веке в Талмуде для справедливого анализа расхождений в оценках . [59] [60] Однако эта концепция не получила распространения в широком научном сообществе.
Вместо этого ближайшим предком современной медианы является средний диапазон , изобретенный Аль-Бируни. [61] : 31 [62] Передача его работы более поздним ученым неясна. Он применил свою технику для анализа валютных металлов, но после того, как он опубликовал свою работу, большинство пробирщиков по-прежнему принимали самые неблагоприятные значения из своих результатов, чтобы не создать впечатление обмана . [61] : 35–8 [63] Однако расширение мореплавания в эпоху Великих географических открытий означало, что штурманам кораблей все чаще приходилось пытаться определить широту в неблагоприятную погоду относительно враждебных берегов, что привело к возобновлению интереса к сводной статистике. Независимо от того, открыт ли он заново или изобретен независимо, средний диапазон рекомендован морским мореплавателям в «Инструкциях по путешествию Рэли в Гвиану» Харриота, 1595 год. [61] : 45–8
Идея медианы, возможно, впервые появилась в книге Эдварда Райта 1599 года «Определенные ошибки в навигации» в разделе, посвященном навигации по компасу . [64] Райт не хотел отбрасывать измеренные значения и, возможно, считал, что медиана, включающая большую часть набора данных, чем средний диапазон , с большей вероятностью будет правильной. Однако Райт не привел примеров использования своей техники, из-за чего было трудно проверить, описал ли он современное понятие медианы. [58] [62] [б] Медиана (в контексте вероятности) конечно фигурировала в переписке Христиана Гюйгенса , но как пример статистики, не подходящей для актуарной практики . [58]
Самая ранняя рекомендация о медиане датируется 1757 годом, когда Роджер Джозеф Боскович разработал метод регрессии, основанный на L 1 норма и, следовательно, неявно находится на медиане. [58] [65] В 1774 году Лаплас ясно выразил это желание: он предложил использовать медиану в качестве стандартной оценки значения апостериорной PDF . Конкретным критерием была минимизация ожидаемой величины ошибки; где это оценка и это истинная ценность. С этой целью Лаплас определил распределения как выборочного среднего, так и выборочной медианы в начале 1800-х годов. [28] [66] Однако десять лет спустя Гаусс и Лежандр разработали метод наименьших квадратов , который минимизирует чтобы получить среднее значение. В контексте регрессии нововведение Гаусса и Лежандра значительно упрощает вычисления. Следовательно, предложение Лапласа в целом отвергалось до появления вычислительных устройств 150 лет спустя (и это до сих пор относительно необычный алгоритм). [67]
Антуан Огюстен Курно в 1843 году был первым [68] использовать термин медиана ( valeur mediane ) для значения, которое делит распределение вероятностей на две равные половины. Густав Теодор Фехнер использовал медиану ( Centralwerth ) в социологических и психологических явлениях. [69] Раньше он использовался только в астрономии и смежных областях. Густав Фехнер популяризировал медиану в формальном анализе данных, хотя ранее ее использовал Лаплас, [69] а медиана появилась в учебнике Ф. Я. Эджворта . [70] Фрэнсис Гальтон использовал английский термин «медиана» в 1881 году: [71] [72] ранее использовал термины «среднее значение» в 1869 году и «среднее значение» в 1880 году. [73] [74]
Статистики на протяжении всего XIX века активно поощряли использование медиан из-за их интуитивной ясности. Однако понятие медианы не поддается теории высших моментов так же, как среднее арифметическое , и его гораздо сложнее вычислить. В результате в течение 20 века медиана как понятие общего среднего значения постепенно вытеснялась средним арифметическим. [58] [62]
См. также
[ редактировать ]- Абсолютное отклонение – разница между наблюдаемым значением переменной и эталонным значением.
- Смещение оценки - Статистическое свойство
- Центральная тенденция – статистическое значение, представляющее центр или среднее значение распределения.
- Концентрация меры – Статистический параметр для функций Липшица – Сильная форма равномерной непрерывности
- Медианный граф - график с медианой для каждых трех вершин.
- Медиана медиан – Быстрый алгоритм аппроксимации медианы – Алгоритм расчета приблизительной медианы за линейное время
- Медианный поиск — метод поиска k-го наименьшего значения.
- Медианный наклон — статистический метод подбора линии.
- Теория медианного избирателя - теорема в политологии.
- Медоид – репрезентативные объекты набора данных или кластера внутри набора данных, сумма различий которых со всеми объектами в кластере минимальна. – Обобщение медианы в более высоких измерениях.
- Скользящее среднее # Скользящая медиана — тип статистической меры по подмножествам набора данных.
- Медианное абсолютное отклонение – статистическая мера изменчивости.
Примечания
[ редактировать ]- ^ Геометрическая медиана уникальна, если выборка не коллинеарна. [41]
- ^ Последующие ученые, похоже, согласились с Эйзенхартом в том, что цифры Бороза за 1580 год, хотя и наводят на мысль о медиане, на самом деле описывают среднее арифметическое; [61] : 62–3 Бороус не упоминается ни в одной другой работе.
Ссылки
[ редактировать ]- ^ Jump up to: а б Вайсштейн, Эрик В. «Статистическая медиана» . Математический мир .
- ^ Саймон, Лаура Дж.; «Описательная статистика». Архивировано 30 июля 2010 г. в Wayback Machine , Набор ресурсов для статистического образования , Департамент статистики штата Пенсильвания.
- ^ Jump up to: а б Дерек Бисселл (1994). Статистические методы для Spc и Tqm . ЦРК Пресс. стр. 26–. ISBN 978-0-412-39440-9 . Проверено 25 февраля 2013 г.
- ^ Дэвид Дж. Шескин (27 августа 2003 г.). Справочник по параметрическим и непараметрическим статистическим процедурам (Третье изд.). ЦРК Пресс. п. 7. ISBN 978-1-4200-3626-8 . Проверено 25 февраля 2013 г.
- ^ Пол Т. фон Хиппель (2005). «Среднее, медиана и перекос: исправление правила из учебника» . Журнал статистического образования . 13 (2). Архивировано из оригинала 14 октября 2008 г. Проверено 18 июня 2015 г.
- ^ Робсон, Колин (1994). Эксперимент, дизайн и статистика в психологии . Пингвин. стр. 42–45. ISBN 0-14-017648-9 .
- ^ Jump up to: а б Уильямс, Д. (2001). Взвешивание шансов . Издательство Кембриджского университета. п. 165 . ISBN 052100618X .
- ^ Мейндональд, Джон; Браун, В. Джон (6 мая 2010 г.). Анализ данных и графика с использованием R: подход на основе примеров . Издательство Кембриджского университета. п. 104. ИСБН 978-1-139-48667-5 .
- ^ «Обзор статистики AP - кривые плотности и нормальное распределение» . Архивировано из оригинала 8 апреля 2015 года . Проверено 16 марта 2015 г.
- ^ Ньюман, МЭД (2005). «Степенные законы, распределения Парето и закон Ципфа». Современная физика . 46 (5): 323–351. arXiv : cond-mat/0412004 . Бибкод : 2005ConPh..46..323N . дои : 10.1080/00107510500052444 . S2CID 2871747 .
- ^ Строк, Дэниел (2011). Теория вероятностей . Издательство Кембриджского университета. стр. 43 . ISBN 978-0-521-13250-3 .
- ^ ДеГрут, Моррис Х. (1970). Оптимальные статистические решения . McGraw-Hill Book Co., Нью-Йорк-Лондон-Сидней. п. 232. ИСБН 9780471680291 . МР 0356303 .
- ^ Стивен А. Книга; Лоуренс Шер (1979). «Насколько близки среднее значение и медиана?» . Двухлетний математический журнал колледжа . 10 (3): 202–204. дои : 10.2307/3026748 . JSTOR 3026748 . Проверено 12 марта 2022 г.
- ^ Уоррен Пейдж; Ведула Н. Мурти (1982). «Отношения близости между мерами центральной тенденции и дисперсии: Часть 1» . Двухлетний математический журнал колледжа . 13 (5): 315–327. doi : 10.1080/00494925.1982.11972639 (неактивен 31 января 2024 г.) . Проверено 12 марта 2022 г.
{{cite journal}}
: CS1 maint: DOI неактивен по состоянию на январь 2024 г. ( ссылка ) - ^ О'Синнеид, Колм Арт (1990). «Среднее значение находится в пределах одного стандартного отклонения от любой медианы» . Американский статистик . 44 (4): 292–293. дои : 10.1080/00031305.1990.10475743 . Проверено 12 марта 2022 г.
- ^ Маллоуз, Колин (август 1991 г.). «Еще один комментарий к О'Синнеиду». Американский статистик . 45 (3): 257. дои : 10.1080/00031305.1991.10475815 .
- ^ Пише, Роберт (2012). Случайные векторы и случайные последовательности . Академическое издательство Ламберта. ISBN 978-3659211966 .
- ^ Кемперман, Йоханнес Х.Б. (1987). Додж, Ядола (ред.). «Медиана конечной меры в банаховом пространстве: статистический анализ данных на основе L1-нормы и связанных с ней методов». Материалы первой международной конференции, проходившей в Невшателе 31 августа – 4 сентября 1987 г. Амстердам: Издательство Северной Голландии: 217–230. МР 0949228 .
- ^ Миласевич, Филип; Дюшарм, Жиль Р. (1987). «Единственность пространственной медианы» . Анналы статистики . 15 (3): 1332–1333. дои : 10.1214/aos/1176350511 . МР 0902264 .
- ^ К.Ван Стин Заметки о вероятности и статистике
- ^ Басу, С.; Дасгупта, А. (1997). «Среднее, медиана и режим унимодальных распределений: характеристика». Теория вероятностей и ее приложения . 41 (2): 210–223. дои : 10.1137/S0040585X97975447 . S2CID 54593178 .
- ^ фон Хиппель, Пол Т. (январь 2005 г.). «Среднее, медиана и перекос: исправление правила из учебника» . Журнал статистического образования . 13 (2). дои : 10.1080/10691898.2005.11910556 . ISSN 1069-1898 .
- ^ Груневельд, Ричард А.; Миден, Глен (август 1977 г.). «Мод, медиана и среднее неравенство» . Американский статистик . 31 (3): 120–121. дои : 10.1080/00031305.1977.10479215 . ISSN 0003-1305 .
- ^ Меркл, М. (2005). «Неравенство Дженсена для медиан». Статистика и вероятностные буквы . 71 (3): 277–281. дои : 10.1016/j.spl.2004.11.010 .
- ^ Альфред В. Ахо, Джон Э. Хопкрофт и Джеффри Д. Ульман (1974). Проектирование и анализ компьютерных алгоритмов . Ридинг/Массачусетс: Аддисон-Уэсли. ISBN 0-201-00029-6 . Здесь: Раздел 3.6 «Статистика заказов», стр.97-99, в частности Алгоритм 3.6 и Теорема 3.9.
- ^ Бентли, Джон Л.; Макилрой, М. Дуглас (1993). «Разработка функции сортировки» . Программное обеспечение: практика и опыт . 23 (11): 1249–1265. дои : 10.1002/спе.4380231105 . S2CID 8822797 .
- ^ Руссиу, Питер Дж.; Бассетт, Гилберт В. младший (1990). «Ремедиан: надежный метод усреднения для больших наборов данных» (PDF) . Дж. Амер. Статист. доц . 85 (409): 97–104. дои : 10.1080/01621459.1990.10475311 .
- ^ Jump up to: а б Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Биометрика . 60 (3): 439–445. дои : 10.1093/biomet/60.3.439 . JSTOR 2334992 . МР 0326872 .
- ^ Райдер, Пол Р. (1960). «Разница медианы небольших выборок из нескольких особых групп населения». Дж. Амер. Статист. доц. 55 (289): 148–150. дои : 10.1080/01621459.1960.10482056 .
- ^ Эфрон, Б. (1982). Складной нож, Bootstrap и другие планы повторной выборки . Филадельфия: СИАМ. ISBN 0898711797 .
- ^ Шао, Дж.; Ву, CF (1989). «Общая теория оценки дисперсии складного ножа» . Энн. Стат. 17 (3): 1176–1197. дои : 10.1214/aos/1176347263 . JSTOR 2241717 .
- ^ Эфрон, Б. (1979). «Методы начальной загрузки: еще один взгляд на складной нож» . Энн. Стат. 7 (1): 1–26. дои : 10.1214/aos/1176344552 . JSTOR 2958830 .
- ^ Холл, П.; Мартин, Массачусетс (1988). «Точная скорость сходимости бутстрап-оценщика квантильной дисперсии» . Области, связанные с теорией вероятностей . 80 (2): 261–268. дои : 10.1007/BF00356105 . S2CID 119701556 .
- ^ Хименес-Гамеро, доктор медицинских наук; Муньос-Гарсия, Ж.; Пино-Мехиас, Р. (2004). «Уменьшенная начальная загрузка для медианы» . Статистика Синица . 14 (4): 1179–1198.
- ^ Мейндональд, Джон; Джон Браун, В. (6 мая 2010 г.). Анализ данных и графика с использованием R: подход на основе примеров . Издательство Кембриджского университета. ISBN 9781139486675 .
- ^ Jump up to: а б с Хеттманспергер, Томас П.; Маккин, Джозеф В. (1998). Робастные непараметрические статистические методы . Статистическая библиотека Кендалла. Том. 5. Лондон: Эдвард Арнольд. ISBN 0-340-54937-8 . МР 1604954 .
- ^ Смолл, Кристофер Г. «Обзор многомерных медиан». Международное статистическое обозрение/Международное статистическое обозрение (1990): 263–277. дои : 10.2307/1403809 JSTOR 1403809
- ^ Ниинимаа, А. и Х. Оя. «Многомерная медиана». Энциклопедия статистических наук (1999).
- ^ Мослер, Карл. Многомерная дисперсия, центральные регионы и глубина: подход зоноида подъема. Том. 165. Springer Science & Business Media, 2012.
- ^ Пури, Мадан Л.; Сен, Пранаб К.; Непараметрические методы в многомерном анализе , John Wiley & Sons, Нью-Йорк, 1971. (Перепечатано Krieger Publishing)
- ^ Варди, Иегуда; Чжан, Цунь-Хуэй (2000). «Многомерная L 1 -медиана и связанная с ней глубина данных» . Труды Национальной академии наук Соединенных Штатов Америки . 97 (4): 1423–1426 (электронный). Бибкод : 2000PNAS...97.1423V . дои : 10.1073/pnas.97.4.1423 . МР 1740461 . ПМК 26449 . ПМИД 10677477 .
- ^ Дэвис, Отто А.; ДеГрут, Моррис Х.; Хинич, Мелвин Дж. (январь 1972 г.). «Порядок социальных предпочтений и правило большинства» (PDF) . Эконометрика . 40 (1): 147–157. дои : 10.2307/1909727 . JSTOR 1909727 . Авторы, работающие в теме, в которой предполагается уникальность, фактически используют выражение « уникальная медиана во всех направлениях».
- ^ Пратт, Уильям К.; Купер, Тед Дж.; Кабир, Ихтишам (11 июля 1985 г.). Корбетт, Фрэнсис Дж (ред.). «Псевдомедианный фильтр». Архитектуры и алгоритмы цифровой обработки изображений II . 0534 : 34. Бибкод : 1985SPIE..534...34P . дои : 10.1117/12.946562 . S2CID 173183609 .
- ^ Оджа, Ханну (2010). Многомерные непараметрические методы с R : подход, основанный на пространственных знаках и рангах . Конспект лекций по статистике. Том. 199. Нью-Йорк, штат Нью-Йорк: Спрингер. стр. xiv+232. дои : 10.1007/978-1-4419-0468-3 . ISBN 978-1-4419-0467-6 . МР 2598854 .
- ^ Уилкокс, Рэнд Р. (2001), «Оценщик Тейла – Сена», Основы современных статистических методов: существенное повышение мощности и точности , Springer-Verlag, стр. 207–210, ISBN 978-0-387-95157-7 .
- ^ Уолд, А. (1940). «Подбор прямых линий, если обе переменные подвержены ошибкам» (PDF) . Анналы математической статистики . 11 (3): 282–300. дои : 10.1214/aoms/1177731868 . JSTOR 2235677 .
- ^ Наир, КР; Шривастава, депутат парламента (1942). «О простом методе подбора кривой». Санкхья: Индийский статистический журнал . 6 (2): 121–132. JSTOR 25047749 .
- ^ Браун, GW; Настроение, А. М. (1951). «О медианных тестах линейных гипотез». Материалы Второго симпозиума Беркли по математической статистике и теории вероятностей . Беркли, Калифорния: Издательство Калифорнийского университета. стр. 159–166. Збл 0045.08606 .
- ^ Тьюки, JW (1977). Исследовательский анализ данных . Ридинг, Массачусетс: Аддисон-Уэсли. ISBN 0201076160 .
- ^ Браун, Джордж В. (1947). «О маловыборочном оценивании» . Анналы математической статистики . 18 (4): 582–585. дои : 10.1214/aoms/1177730349 . JSTOR 2236236 .
- ^ Леманн, Эрих Л. (1951). «Общая концепция беспристрастности» . Анналы математической статистики . 22 (4): 587–592. дои : 10.1214/aoms/1177729549 . JSTOR 2236928 .
- ^ Бирнбаум, Аллан (1961). «Единая теория оценки, I» . Анналы математической статистики . 32 (1): 112–135. дои : 10.1214/aoms/1177705145 . JSTOR 2237612 .
- ^ ван дер Ваарт, Х. Роберт (1961). «Некоторые расширения идеи предвзятости» . Анналы математической статистики . 32 (2): 436–447. дои : 10.1214/aoms/1177705051 . JSTOR 2237754 . МР 0125674 .
- ^ Пфанцагль, Иоганн; при содействии Р. Хамбокера (1994). Параметрическая статистическая теория . Вальтер де Грюйтер. ISBN 3-11-013863-8 . МР 1291393 .
- ^ Пфанцагль, Иоганн. «Об оптимальных медианных несмещенных оценках при наличии мешающих параметров». Анналы статистики (1979): 187–193.
- ^ Браун, Л.Д.; Коэн, Артур; Стродерман, МЫ (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями» . Энн. Статист . 4 (4): 712–722. дои : 10.1214/aos/1176343543 .
- ^ Страница; Браун, Л.Д.; Коэн, Артур; Стродерман, МЫ (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями» . Энн. Статист . 4 (4): 712–722. дои : 10.1214/aos/1176343543 .
- ^ Jump up to: а б с д и Баккер, Артур; Гравемейер, Коэно ЧП (1 июня 2006 г.). «Историческая феноменология среднего и медианы». Образовательные исследования по математике . 62 (2): 149–168. дои : 10.1007/s10649-006-7099-8 . ISSN 1573-0816 . S2CID 143708116 .
- ^ Адлер, Дэн (31 декабря 2014 г.). «Талмуд и современная экономика» . Еврейские американские и израильские проблемы . Архивировано из оригинала 6 декабря 2015 года . Проверено 22 февраля 2020 г. .
- ^ Современная экономическая теория в Талмуде Исраэля Ауманна
- ^ Jump up to: а б с д Эйзенхарт, Черчилль (24 августа 1971 г.). Развитие понятия о наилучшем средстве совокупности измерений от древности до наших дней (PDF) (Выступление). 131-е ежегодное собрание Американской статистической ассоциации. Государственный университет Колорадо.
- ^ Jump up to: а б с «Как средний показатель победил медианный» . Ценаономика . 5 апреля 2016 года . Проверено 23 февраля 2020 г.
- ^ Сангстер, Алан (март 2021 г.). «Жизнь и творчество Луки Пачоли (1446/7–1517), педагога-гуманиста» . Абак . 57 (1): 126–152. дои : 10.1111/abac.12218 . hdl : 2164/16100 . ISSN 0001-3072 . S2CID 233917744 .
- ^ Райт, Эдвард; Парсонс, EJS; Моррис, ВФ (1939). «Эдвард Райт и его работа» . Имаго Мунди . 3 : 61–71. дои : 10.1080/03085693908591862 . ISSN 0308-5694 . JSTOR 1149920 .
- ^ Стиглер, С.М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. ISBN 0674403401 .
- ^ Лаплас PS de (1818) Второе приложение к Аналитической теории вероятностей , Париж, Courcier
- ^ Джейнс, ET (2007). Теория вероятностей: логика науки (5-е печатное изд.). Кембридж [ua]: Cambridge Univ. Нажимать. п. 172. ИСБН 978-0-521-59271-0 .
- ^ Ховарт, Ричард (2017). Словарь математических наук о Земле: с историческими примечаниями . Спрингер. п. 374.
- ^ Jump up to: а б Кейнс, Дж. М. (1921) Трактат о вероятности . Pt II Ch XVII §5 (стр. 201) (переиздание 2006 г., Cosimo Classics, ISBN 9781596055308 : несколько других переизданий)
- ^ Стиглер, Стивен М. (2002). Статистика на столе: история статистических концепций и методов . Издательство Гарвардского университета. стр. 105–7. ISBN 978-0-674-00979-0 .
- ^ Гальтон Ф (1881) «Отчет Антропометрического комитета», стр. 245–260. Отчет 51-го собрания Британской ассоциации развития науки
- ^ Дэвид, ХА (1995). «Первое (?) появление общих терминов в математической статистике». Американский статистик . 49 (2): 121–133. дои : 10.2307/2684625 . ISSN 0003-1305 . JSTOR 2684625 .
- ^ энциклопедияofmath.org
- ^ личный.psu.edu
Внешние ссылки
[ редактировать ]- «Медиана (в статистике)» , Математическая энциклопедия , EMS Press , 2001 [1994]
- Медиана как среднее арифметическое всех выборочных наблюдений.
- Он-лайн калькулятор
- Расчет медианы
- Проблема, связанная со средним значением, медианой и модой.
- Вайсштейн, Эрик В. «Статистическая медиана» . Математический мир .
- Скрипт Python для расчета медианы и показателей неравенства доходов
- Быстрое вычисление медианы путем последовательного группирования
- «Среднее, медиана, мода и асимметрия» . Учебное пособие, разработанное для студентов-психологов первого курса Оксфордского университета на основе проработанного примера.
- Сложная математическая задача SAT Даже совет колледжа ошибся : Эндрю Дэниелс в «Популярной механике»
Эта статья включает в себя материалы из дистрибутива Median на PlanetMath , который распространяется по лицензии Creative Commons Attribution/Share-Alike License .