Оценщик соотношения
Средство оценки отношения это статистическое средство оценки значений отношения средних двух — случайных величин. Оценки соотношения являются необъективными , и при их использовании в экспериментальной или исследовательской работе необходимо вносить поправки. Оценки отношения являются асимметричными, и симметричные тесты, такие как t-критерий, не должны использоваться для создания доверительных интервалов.
Смещение имеет порядок O (1/ n ) (см. обозначение большого числа O ), поэтому по мере увеличения размера выборки ( n ) смещение будет асимптотически приближаться к 0. Следовательно, оценка приблизительно несмещена для больших размеров выборки.
Определение [ править ]
Предположим, что есть две характеристики – x и y – которые можно наблюдать для каждого элемента выборки в наборе данных. Отношение R
Оценка отношения значения переменной y ( θ y ) равна
где θ x — соответствующее значение переменной x . . распределение Известно, что θy имеет асимптотически нормальное [1]
Статистические свойства [ править ]
Коэффициент выборки ( r ) оценивается по выборке
То, что соотношение является смещенным, можно показать с помощью неравенства Йенсена следующим образом (при условии независимости между и ):
где это среднее значение переменной и это среднее значение переменной .
При простой случайной выборке смещение имеет порядок O ( n −1 ). Верхняя граница относительного отклонения оценки определяется коэффициентом вариации (отношением стандартного отклонения к среднему ). [2] При простой случайной выборке относительное смещение составляет O ( n −1/2 ).
Коррекция смещения среднего значения [ править ]
Методы коррекции, в зависимости от распределения переменных x и y , различаются по своей эффективности, что затрудняет рекомендацию лучшего в целом метода. Поскольку оценки r смещены, во всех последующих расчетах следует использовать исправленную версию.
Коррекция смещения с точностью до первого порядка равна [ нужна ссылка ]
где m x — среднее значение переменной x , а s xy — ковариация между x и y .
Для упрощения обозначения в дальнейшем будет использоваться s xy для обозначения ковариации между переменными x и y .
Другая оценка, основанная на расширении Тейлора : [3]
где n — размер выборки, N — размер популяции, m x — среднее значение переменной x и s x 2 и ты 2 представляют собой выборочные дисперсии переменных x и y соответственно.
Более простая в вычислительном отношении, но немного менее точная версия этой оценки:
где N — размер совокупности, n — размер выборки, m x — среднее значение переменной x и s x 2 и ты 2 представляют собой выборочные дисперсии переменных x и y соответственно. Эти версии отличаются только множителем в знаменателе ( N – 1). При большом N разница незначительна.
Если x и y — безразмерные числа с распределением Пуассона, поправка второго порядка равна [4]
Были предложены и другие методы коррекции смещения. Для упрощения обозначений будем использовать следующие переменные
Оценщик Паскуаля: [5]
Оценщик Била: [6]
Оценщик Тина: [7]
Оценщик Саху: [8]
Sahoo также предложил ряд дополнительных оценок: [9]
Если x и y — безразмерные значения с распределением Пуассона, а m x и m y оба больше 10, то следующее приближение верно для порядка O( n −3 ). [4]
Асимптотически правильная оценка [3]
Оценка складного ножа [ править ]
Оценка складным ножом отношения менее предвзята, чем наивная форма. Оценка отношения складным ножом:
где n — размер выборки, а r i оцениваются с пропуском одной пары переменных за раз. [10]
Альтернативный метод — разделить выборку на g групп, каждая размером p с n = pg . [11] Пусть r i будет оценкой i й группа. Тогда оценщик
где является средним значением отношений r g групп g , имеет смещение не более O ( n −2 ).
Другие оценки, основанные на разделении выборки на g группы: [12]
где является средним значением отношений r g групп g и
где р я ' значение доли выборки с i й группа опущена.
оценки методы Другие
Другие методы оценки оценщика отношения включают максимальное правдоподобие и начальную загрузку . [10]
Общая оценка [ править ]
Оценочная сумма переменной y ( τ y ) равна
где ( τ x ) — сумма переменной x .
Оценки дисперсии
Дисперсия соотношения выборки составляет приблизительно:
где с х 2 и ты 2 — это дисперсии переменных x и y соответственно, m x и m y — средние значения переменных x и y соответственно, а s xy — ковариация x и y .
Хотя приведенная ниже приблизительная оценка дисперсии отношения является смещенной, если размер выборки велик, смещение в этой оценке незначительно.
где N — размер популяции, n — размер выборки, а m x — среднее значение переменной x .
Другая оценка дисперсии, основанная на расширении Тейлора :
где n — размер выборки, N — размер популяции, а s xy — ковариация x и y .
Оценка с точностью до O( n −2 ) является [3]
Если распределение вероятностей является пуассоновским, оценка с точностью до O( n −3 ) является [4]
Складной нож для оценки дисперсии:
где r i - соотношение с i й пара переменных опущена, а r J представляет собой оценку отношения складным ножом. [10]
Разница в сумме [ править ]
Отклонение расчетной суммы составляет
Отклонение среднего [ править ]
Дисперсия предполагаемого среднего значения переменной y равна
где m x — среднее значение переменной x , s x 2 и ты 2 — выборочные дисперсии переменных x и y соответственно, а s xy — ковариация x и y .
Асимметрия [ править ]
Асимметрия . и эксцесс отношения зависят от распределения x и y переменных Были сделаны оценки этих параметров для нормально распределенных переменных x и y , но для других распределений выражения еще не получены. Было обнаружено, что в целом переменные отношения смещены вправо, являются лептокуртическими знаменателя величины коэффициента вариации и их ненормальность увеличивается с увеличением .
Для нормально распределенных переменных x и y асимметрия отношения примерно равна [7]
где
на доверительные интервалы Влияние
Поскольку оценка отношения обычно искажена, доверительные интервалы, созданные с помощью дисперсионных и симметричных тестов, таких как t-критерий, неверны. [10] Эти доверительные интервалы имеют тенденцию переоценивать размер левого доверительного интервала и недооценивать размер правого.
Если оценщик отношения унимодальный (что часто бывает), то консервативную оценку 95% доверительных интервалов можно сделать с помощью неравенства Высочанского-Петунина .
уменьшения Альтернативные предвзятости методы
Альтернативный метод уменьшения или устранения систематической ошибки в оценке отношения состоит в изменении метода выборки. Дисперсия коэффициента при использовании этих методов отличается от оценок, приведенных ранее. Обратите внимание, что, хотя многие приложения, такие как те, которые обсуждаются в Lohr [13] предназначены только для положительных целых чисел , таких как размеры групп выборок, метод Мидзуно-Сена работает для любой последовательности положительных чисел, целых или нет. Непонятно, что значит, что метод Лахири работает , поскольку он возвращает необъективный результат.
Метод Лахири [ править ]
Первая из этих схем выборки представляет собой двойное использование метода выборки, предложенного Лахири в 1951 году. [14] Алгоритм здесь основан на описании Лора. [13]
- Выберите число M = max( x 1 , ..., x N ), где N — размер населения.
- Выберите i случайным образом из равномерного распределения на [1, N ].
- Выберите k случайным образом из равномерного распределения на [1, M ].
- Если k ≤ x i , то x i сохраняется в выборке. Если нет, то оно отклоняется.
- Повторяйте этот процесс, начиная с шага 2, пока не будет получен желаемый размер выборки.
Та же процедура для того же желаемого размера выборки выполняется с переменной y .
Схема Лахири, описанная Лором, сильно предвзята и поэтому интересна только по историческим причинам. Вместо этого рекомендуется техника Мидзуно-Сен, описанная ниже.
Метод Мидзуно-Сена [ править ]
В 1952 году Мидзуно и Сен независимо друг от друга описали схему выборки, которая обеспечивает несмещенную оценку соотношения. [15] [16]
Первая выборка выбирается с вероятностью, пропорциональной размеру переменной x . Остальные n - 1 выборки выбираются случайным образом без замены из оставшихся N - 1 членов популяции. Вероятность отбора по этой схеме равна
где X — сумма переменных N x , а x i — n членов выборки. Тогда соотношение суммы переменных y и суммы переменных x , выбранных таким образом, представляет собой несмещенную оценку средства оценки отношения.
В символах мы имеем
где x i и y i выбираются по схеме, описанной выше.
Оценка отношения, данная этой схемой, является несмещенной.
Сярндал, Свенсон и Ретман выражают благодарность Лахири, Мидзуно и Сену за идеи, приведшие к созданию этого метода. [17] но техника Лахири имеет высокий уклон.
Другие соотношения оценки
Олово (1965) [18] описал и сравнил оценки отношений, предложенные Билом (1962). [19] и прялка (1956) [20] и предложил модифицированный подход (теперь называемый методом Тина). Эти устройства для оценки соотношений обычно используются для расчета нагрузки загрязняющих веществ на основе отбора проб водных путей, особенно там, где расход измеряется чаще, чем качество воды. Например, см. Quilbe et al., (2006). [21]
Обычная регрессия по методу наименьших квадратов
Если существует линейная зависимость между переменными x и y и уравнение регрессии проходит через начало координат, то предполагаемая дисперсия уравнения регрессии всегда меньше, чем дисперсия оценщика отношения. [ нужна ссылка ] . Точная связь между дисперсиями зависит от линейности зависимости между переменными x и y : когда связь отличается от линейной, оценка отношения может иметь меньшую дисперсию, чем дисперсия, оцененная с помощью регрессии.
Использует [ править ]
Хотя оценщик отношения может быть полезен в ряде случаев, он особенно полезен в двух случаях:
- когда переменные x и y сильно коррелируют через начало координат .
- В методологии опроса при оценке средневзвешенного значения , в котором знаменатель указывает сумму весов, отражающих общую численность населения, но общая численность населения неизвестна.
История [ править ]
Первое известное использование оценщика отношения было Джоном Граунтом в Англии , который в 1662 году первым оценил соотношение y / x , где y представляет общую численность населения, а x - известное общее количество зарегистрированных рождений в тех же районах в течение предыдущего года. .
Позже Мессанс (~1765 г.) и Мохо (1778 г.) опубликовали очень тщательно подготовленные оценки по Франции, основанные на переписи населения в определенных округах и на подсчете рождений, смертей и браков, сообщенных по всей стране. Районы, в которых определялось соотношение жителей и рождаемости, представляли собой лишь выборку.
В 1802 году Лаплас хотел оценить население Франции. не Переписи населения проводилось, и у Лапласа не было ресурсов, чтобы подсчитать каждого человека. Вместо этого он отобрал 30 приходов , общее число жителей которых составляло 2 037 615 человек. Приходские записи о крещении считались надежным подсчетом количества живорождений, поэтому он использовал общее количество рождений за трехлетний период. Выборочная оценка составила 71 866 333 крещения в год за этот период, что дает соотношение одно зарегистрированное крещение на каждые 28,35 человека. Ему также было известно общее количество регистраций крещений во Франции, и он предположил, что соотношение живорождений к численности населения постоянно. Затем он использовал соотношение из своей выборки для оценки численности населения Франции.
Карл Пирсон сказал в 1897 году, что оценки соотношения необъективны, и предостерег от их использования. [22]
См. также [ править ]
- Отметить и повторно поймать , еще один способ оценки численности населения с использованием коэффициента.
- Распределение соотношения
Ссылки [ править ]
- ^ Скотт AJ, Wu CFJ (1981) Об асимптотическом распределении отношения и регрессииоценщики. JASA 76: 98–102.
- ^ Cochran WG (1977) Методы отбора проб. Нью-Йорк: Джон Уайли и сыновья
- ↑ Перейти обратно: Перейти обратно: а б с ван Кемпен ГМП, ван Влит Л.Дж. (2000)Среднее значение и дисперсия оценок соотношения, используемых при визуализации соотношения флуоресценции. Цитометрия 39:300–305
- ↑ Перейти обратно: Перейти обратно: а б с Оглиоре Р.К., Хусс Г.Р., Нагашима К. (2011)Оценка соотношения в SIMS-анализе. Ядерные приборы и методы в физических исследованиях Секция B: Взаимодействие пучков с материалами и атомами 269 (17) 1910–1918
- ^ Паскуаль Дж. Н. (1961) Несмещенные оценки отношения в стратифицированной выборке. JASA 56 (293): 70–87.
- ^ Бил EML (1962) Некоторое использование компьютеров в операционных исследованиях. Промышленная организация 31: 27-28
- ↑ Перейти обратно: Перейти обратно: а б Тин М (1965) Сравнение некоторых оценок отношений. JASA 60: 294–307.
- ^ Саху Л.Н. (1983). О методе уменьшения систематической ошибки при оценке коэффициентов. J Статист Res 17:1-6
- ^ Саху Л.Н. (1987) О классе почти несмещенных оценок соотношения населения. Статистика 18: 119-121
- ↑ Перейти обратно: Перейти обратно: а б с д Шоке Д., Лекуйер П., Леже С. (1999) Бутстрап-доверительные интервалы для соотношений ожиданий. Транзакции ACM по моделированию и компьютерному моделированию - TOMACS 9 (4) 326-348 дои : 10.1145/352222.352224
- ^ Дурбин Дж. (1959) Заметка о применении метода уменьшения систематической ошибки Кенуя для оценки соотношений. Биометрика 46: 477-480.
- ^ Микки М.Р. (1959) Некоторые несмещенные соотношения конечной совокупности и оценки регрессии. JASA 54: 596–612.
- ↑ Перейти обратно: Перейти обратно: а б Лор С. (2010) Отбор проб - проектирование и анализ (2-е издание)
- ^ Лахири Д.Б. (1951) Метод отбора выборки, обеспечивающий несмещенные оценки соотношения. Bull Int Stat Inst 33: 133–140
- ^ Мидзуно Х (1952) О системе выборки с вероятностью, пропорциональной сумме размеров. Ann Inst Stat Math 3: 99-107
- ^ Сен А.Р. (1952) Современный статус вероятностной выборки и ее использование при оценке характеристики. Эконометрика 20-103
- ^ Сарндал, CE, Б. Свенссон Дж. Ретман (1992) Выборка обследования с помощью модели. Спрингер, §7.3.1 (iii)
- ^ Тин М (1965). Сравнение некоторых оценок отношений. Журнал Американской статистической ассоциации, 60 (309), 294–307. https://doi.org/10.1080/01621459.1965.10480792
- ^ Бил EML (1965) Некоторое использование компьютеров в операционных исследованиях. Промышленная организация 31:27-8
- ^ Кенуй Р. Руссо А. Н. Дюшемен М. Пулен А. Гангбазо Дж. Вильнев Дж. П. (2006) Выбор метода расчета для оценки нагрузки наносов и питательных веществ в ручьях: применение к реке Бориваж (Квебек, Канада). Журнал гидрологии 326: 295-310.
- ^ Кильбе Р., Руссо А.Н., Дюшемен М., Пулен А., Гангбазо Г. и Вильнев Дж.П. (2006). Выбор метода расчета для оценки нагрузки наносов и питательных веществ в ручьях: применение к реке Бориваж (Квебек, Канада). Журнал гидрологии, 326 (1–4), 295–310. https://doi.org/10.1016/j.jгидроl.2005.11.008
- ^ Пирсон К. (1897) О форме ложной корреляции, которая может возникнуть, когда индексы используются для измерения органов. Прок Рой Сок Лондон 60: 498