Взвешенная медиана
В статистике выборки взвешенная медиана — это 50% взвешенный процентиль . [1] [2] [3] Впервые он был предложен Ф. Я. Эджвортом в 1888 году. [4] [5] Как и медиана , она полезна в качестве оценки центральной тенденции и устойчива к выбросам . Это позволяет использовать неоднородные статистические веса, связанные, например, с различной точностью измерений в выборке.
Определение
[ редактировать ]Общий случай
[ редактировать ]Для отдельные упорядоченные элементы с положительными весами такой, что , взвешенная медиана – это элемент удовлетворяющий
- и
Особый случай
[ редактировать ]Рассмотрим набор элементов, в котором два элемента удовлетворяют общему случаю. Это происходит, когда соответствующие веса обоих элементов граничат со средней точкой набора весов, не инкапсулируя его; Скорее, каждый элемент определяет раздел, равный . Эти элементы называются нижневзвешенной медианой и верхней взвешенной медианой. Их условия выполняются следующим образом:
Нижняя взвешенная медиана
- и
Верхняя взвешенная медиана
- и
В идеале новый элемент должен быть создан с использованием среднего значения верхней и нижней взвешенных медиан и ему присвоен нулевой вес. Этот метод аналогичен поиску медианы четного набора. Новый элемент будет истинной медианой, поскольку сумма весов по обе стороны от этой точки разделения будет равна.
В зависимости от приложения создание новых данных может быть невозможным или нецелесообразным. В этом случае взвешенную медиану следует выбирать на основе того, какой элемент обеспечивает наиболее равномерное разделение. Это всегда будет взвешенная медиана с наименьшим весом.
В случае, если верхняя и нижняя взвешенная медиана равны, обычно принимается нижняя взвешенная медиана, первоначально предложенная Эджвортом. [6]
Характеристики
[ редактировать ]Сумма весов в каждом из двух разделов должна быть как можно более равной.
Если веса всех чисел в наборе равны, то взвешенная медиана уменьшается до медианы.
Примеры
[ редактировать ]Для простоты рассмотрим набор чисел каждое число имеет вес соответственно. Медиана равна 3, а взвешенная медиана — это элемент, соответствующий весу 0,3, который равен 4. Веса на каждой стороне шарнира в сумме составляют 0,45 и 0,25, удовлетворяя общему условию, чтобы каждая сторона была как можно более равномерной. Любой другой вес приведет к большей разнице между каждой стороной шарнира.
Рассмотрим набор чисел каждое число имеет одинаковый вес соответственно. Равные веса должны приводить к взвешенной медиане, равной медиане. Эта медиана равна 2,5, поскольку это четный набор. Нижняя взвешенная медиана равна 2 с суммами разделов 0,25 и 0,5, а верхняя взвешенная медиана равна 3 с суммами разделов 0,5 и 0,25. Каждый из этих разделов удовлетворяет своему специальному условию и общему условию. Идеально ввести новую опорную точку, взяв среднее значение верхней и нижней взвешенных медиан, если они существуют. При этом набор чисел каждое число имеет вес соответственно. Это создает разделы, сумма которых равна 0,5. Легко увидеть, что взвешенная медиана и медиана одинаковы для любого набора размеров с одинаковыми весами.
Аналогично рассмотрим набор чисел каждое число имеет вес соответственно. Нижняя взвешенная медиана равна 2 с суммами разделов 0,49 и 0,5, а верхняя взвешенная медиана равна 3 с суммами разделов 0,5 и 0,25. В случае работы с целыми числами или неинтервальными мерами будет принята медиана с меньшим весом, поскольку она представляет собой меньший вес пары и, следовательно, обеспечивает максимальное равенство разделов. Однако более идеальным вариантом будет взять среднее значение этих взвешенных медиан, когда это имеет смысл. По совпадению, и взвешенная медиана, и медиана равны 2,5, но это не всегда справедливо для больших наборов в зависимости от распределения веса.
Алгоритм
[ редактировать ]Взвешенную медиану можно вычислить, отсортировав набор чисел и найдя наименьший набор чисел, сумма которых равна половине веса общего веса. Этот алгоритм принимает время. Существует лучший подход к поиску взвешенной медианы с использованием модифицированного алгоритма выбора. [1]
// Main call is WeightedMedian(a, 1, n)
// Returns lower median
WeightedMedian(a[1..n], p, r)
// Base case for single element
if r = p then
return a[p]
// Base case for two elements
// Make sure we return the mean in the case that the two candidates have equal weight
if r-p = 1 then
if a[p].w == a[r].w
return (a[p] + a[r])/2
if a[p].w > a[r].w
return a[p]
else
return a[r]
// Partition around pivot r
q = partition(a, p, r)
wl, wg = sum weights of partitions (p, q-1), (q+1, r)
// If partitions are balanced then we are done
if wl and wg both < 1/2 then
return a[q]
else
// Increase pivot weight by the amount of partition we eliminate
if wl > wg then
a[q].w += wg
// Recurse on pivot inclusively
WeightedMedian(a, p, q)
else
a[q].w += wl
WeightedMedian(a, q, r)
Программное обеспечение/исходный код
[ редактировать ]- Алгоритм быстрого взвешивания медианы реализован в расширении C для Python в пакете Robustats Python .
- R имеет множество реализаций, в том числе
matrixStats::weightedMedian()
,spatstat::weighted.median()
и другие. [7]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б Кормен, Томас Х.; Лейзерсон, Чарльз Э.; Ривест, Рональд Л.; Стоун, Клиффорд (2001). Введение в алгоритмы . С Прессой. ISBN 9780262032933 .
- ^ Горовиц, Эллис; Сахни, Сартадж; Раджасекаран, Сангутевар (15 декабря 1996 г.). Компьютерные алгоритмы C++: версии C++ и псевдокода . Макмиллан. ISBN 9780716783152 .
- ^ Бовик, Алан С (21 июля 2010 г.). Справочник по обработке изображений и видео . Академическая пресса. ISBN 9780080533612 .
- ^ Эджворт, ФЮ (1888 г.). «О новом методе сведения наблюдений, касающихся нескольких величин» . Философский журнал . 25 (154): 184–191. дои : 10.1080/14786448808628170 .
- ^ Эджворт, ФЮ (1887 г.). «О наблюдениях, касающихся нескольких величин». Герматена . 6 (13). Тринити-колледж в Дублине: 279–285. JSTOR 23036355 .
- ^ Ланге, Кеннет (15 июня 2010 г.). Численный анализ для статистиков (второе изд.). Спрингер. п. 313. ИСБН 978-1-4419-5944-7 .
- ^ Есть ли функция Weighted.median()?