Jump to content

Функция дисперсии

(Перенаправлено из функций отклонения )

В статистике функция дисперсии представляет собой гладкую функцию , которая отображает дисперсию случайной величины как функцию ее среднего значения . Функция дисперсии является мерой гетероскедастичности и играет большую роль во многих условиях статистического моделирования. Это основной компонент обобщенной линейной модели и инструмент, используемый в непараметрической регрессии . [1] полупараметрическая регрессия [1] и функциональный анализ данных . [2] При параметрическом моделировании функции дисперсии принимают параметрическую форму и явно описывают связь между дисперсией и средним значением случайной величины. В непараметрической настройке предполагается, что функция дисперсии является гладкой функцией .

Интуиция

[ редактировать ]

В настройке регрессионной модели цель состоит в том, чтобы установить, существует ли связь между переменной ответа и набором переменных-предикторов. Кроме того, если связь действительно существует, цель состоит в том, чтобы суметь описать эту связь как можно лучше. Основным допущением линейной регрессии является постоянная дисперсия или (гомоскедастичность), что означает, что разные переменные ответа имеют одинаковую дисперсию своих ошибок на каждом уровне предикторов. Это предположение хорошо работает, когда переменная ответа и переменная-предиктор вместе являются нормальными . Как мы увидим позже, функция дисперсии в настройке «Нормальный» является постоянной; однако мы должны найти способ количественной оценки гетероскедастичности (непостоянной дисперсии) при отсутствии совместной нормальности.

Когда вполне вероятно, что ответ следует за распределением, которое является членом экспоненциального семейства, может быть более уместным использовать обобщенную линейную модель , и, более того, когда мы не хотим навязывать нашим данным параметрическую модель, непараметрическую модель регрессионный подход может быть полезен. Важность возможности моделировать дисперсию как функцию среднего значения заключается в улучшении вывода (в параметрической настройке) и оценке функции регрессии в целом для любых настроек.

Функции дисперсии играют очень важную роль в оценке параметров и выводах. В общем, оценка максимального правдоподобия требует определения функции правдоподобия. Это требование означает, что сначала необходимо указать распределение наблюдаемых переменных отклика. Однако, чтобы определить квазиправдоподобие, нужно только указать связь между средним значением и дисперсией наблюдений, чтобы затем иметь возможность использовать функцию квазиправдоподобия для оценки. [3] Оценка квазиправдоподобия особенно полезна при наличии чрезмерной дисперсии . Чрезмерная дисперсия возникает, когда вариативность данных больше, чем можно было бы ожидать в соответствии с предполагаемым распределением данных.

Таким образом, чтобы обеспечить эффективный вывод параметров регрессии и функции регрессии, необходимо учитывать гетероскедастичность. Функции дисперсии количественно определяют взаимосвязь между дисперсией и средним значением наблюдаемых данных и, следовательно, играют значительную роль в оценке регрессии и выводах.

Функция дисперсии и ее приложения встречаются во многих областях статистического анализа. Очень важное использование этой функции находится в рамках обобщенных линейных моделей и непараметрической регрессии .

Обобщенная линейная модель

[ редактировать ]

член экспоненциального семейства , можно легко вывести функцию дисперсии. Если указан [4] : 29  Общая форма функции дисперсии представлена ​​в контексте экспоненциального семейства, а также конкретные формы для нормальной функции, функции Бернулли, Пуассона и гаммы. Кроме того, мы описываем приложения и использование функций дисперсии при оценке максимального правдоподобия и оценке квазиправдоподобия.

Обобщенная линейная модель (GLM) представляет собой обобщение обычного регрессионного анализа, которое распространяется на любого члена экспоненциального семейства . Это особенно полезно, когда переменная ответа является категориальной, двоичной или подчиняется ограничению (например, имеют смысл только положительные ответы). На этой странице представлен краткий обзор компонентов GLM, но более подробную информацию и информацию см. на странице обобщенных линейных моделей .

GLM : состоит из трех основных компонентов

1. Случайная компонента: распределение y из экспоненциального семейства,
2. Линейный предиктор:
3. Функция ссылки:

Сначала важно вывести пару ключевых свойств экспоненциального семейства.

Любая случайная величина в экспоненциальном семействе имеет функцию плотности вероятности вида:

с логарифмическим правдоподобием,

Здесь, является каноническим параметром и интересующим параметром, а является мешающим параметром, который играет роль в дисперсии.Мы используем тождества Бартлетта , чтобы вывести общее выражение для функции дисперсии .Первый и второй результаты Бартлетта гарантируют, что при подходящих условиях (см. интегральное правило Лейбница ) для функции плотности, зависящей от ,

Эти тождества приводят к простым расчетам ожидаемого значения и дисперсии любой случайной величины. в экспоненциальном семействе .

Ожидаемое значение Y : Взяв первую производную по логарифма плотности в экспоненциальной форме семейства, описанной выше, мы имеем

Затем взятие ожидаемого значения и установка его равным нулю приводит к:

Отклонение Y: Для вычисления дисперсии мы используем второе тождество Бартлетта:

Теперь у нас есть отношения между и , а именно

и , что позволяет установить связь между и дисперсия,

Обратите внимание, что поскольку , затем является обратимым.Мы выводим функцию дисперсии для нескольких распространенных распределений.

Пример – нормальный

[ редактировать ]

Нормальное распределение — это частный случай, когда функция дисперсии является константой. Позволять затем мы представим функцию плотности y в виде экспоненциального семейства, описанного выше:

где

Чтобы вычислить функцию дисперсии , мы сначала выражаем как функция . Затем мы трансформируем в функцию

Следовательно, функция дисперсии постоянна.

Пример – Бернулли

[ редактировать ]

Позволять , то мы выражаем плотность распределения Бернулли в экспоненциальной форме семейства:

логит (p), что дает нам он ждет
и
он ждет

Это дает нам

Пример – Пуассон

[ редактировать ]

Позволять , то мы выражаем плотность распределения Пуассона в экспоненциальной форме семейства:

что дает нам
и

Это дает нам

Здесь мы видим главное свойство данных Пуассона: дисперсия равна среднему значению.

Пример — Гамма

[ редактировать ]

Гамма -распределение и функция плотности могут быть выражены при различных параметризациях. Мы будем использовать форму гаммы с параметрами

Тогда в экспоненциальной форме семейства мы имеем

И у нас есть

Приложение – взвешенный метод наименьших квадратов

[ редактировать ]

Очень важным применением функции дисперсии является ее использование при оценке параметров и выводе, когда переменная отклика имеет требуемую форму экспоненциального семейства, а также в некоторых случаях, когда это не так (что мы обсудим в разделе квазиправдоподобия ). Взвешенный метод наименьших квадратов (WLS) является частным случаем обобщенного метода наименьших квадратов. Каждый член критерия WLS включает вес, который определяет влияние каждого наблюдения на окончательные оценки параметров. Как и в обычном методе наименьших квадратов, цель состоит в том, чтобы оценить неизвестные параметры в функции регрессии путем нахождения значений для оценок параметров, которые минимизируют сумму квадратов отклонений между наблюдаемыми ответами и функциональной частью модели.

Хотя WLS предполагает независимость наблюдений, он не предполагает равную дисперсию и, следовательно, является решением для оценки параметров при наличии гетероскедастичности. Теорема Гаусса -Маркова и Эйткен демонстрируют, что лучшая линейная несмещенная оценка (СИНИЙ), несмещенная оценка с минимальной дисперсией, имеет каждый вес, равный обратной величине дисперсии измерения.

В рамках GLM наша цель — оценить параметры , где . Поэтому нам хотелось бы свести к минимуму и если мы определим весовую матрицу W как

где определены в предыдущем разделе, это позволяет проводить итеративно взвешенную оценку параметров методом наименьших квадратов (IRLS). вывод см. в разделе об итеративном повторном взвешивании наименьших квадратов Дополнительную информацию и .

Также важно отметить, что когда весовая матрица имеет описанную здесь форму, минимизация выражения также минимизирует расстояние Пирсона. см. в разделе Корреляция расстояний Дополнительную информацию .

Матрица W выпадает из уравнений оценки для оценки . Оценка максимального правдоподобия для каждого параметра , требует

, где это логарифмическая вероятность.

Глядя на одно наблюдение, которое мы имеем,

Это дает нам

, и отмечая, что
у нас есть это

Матрица Гессе определяется аналогичным образом, и можно показать, что она равна:

Отмечая, что информация Фишера (FI),

, позволяет провести асимптотическую аппроксимацию
, и, следовательно, можно сделать вывод.

Применение – квазиправдоподобие

[ редактировать ]

Поскольку большинство характеристик GLM зависят только от первых двух моментов распределения, а не от всего распределения, квазиправдоподобие можно получить, просто указав функцию связи и функцию дисперсии. То есть нам нужно указать

  • функция ссылки,
  • функция дисперсии, , где

Имея заданную функцию дисперсии и функцию связи, мы можем разработать в качестве альтернативы логарифмической функции правдоподобия , оценки и информации Фишера квазиправдоподобие квазиинформацию , квазиоценку и функции . Это позволяет сделать полный вывод .

Квазиправдоподобие (QL)

Хотя это и называется квазиправдоподобием , на самом деле это квазилогарифмическое правдоподобие . QL для одного наблюдения составляет

И поэтому QL для всех n наблюдений равен

Из QL мы получаем квазиоценку

Квази-оценка (QS)

Вспомните оценки функцию U для данных с логарифмическим правдоподобием. является

Аналогично получаем квазиоценку:

Отмечая, что для одного наблюдения оценка равна

Первые два уравнения Бартлетта удовлетворяются для квазипоказателя, а именно:

и

Кроме того, квазиоценка линейна по y .

В конечном итоге цель — найти информацию об интересующих параметрах. . И QS, и QL на самом деле являются функциями . Отзывать, , и , поэтому,

Квазиинформация (КИ)

Квазиинформация . аналогична Фишера информации

QL, QS, QI как функции

QL, QS и QI служат строительными блоками для вывода об интересующих параметрах, и поэтому важно выражать QL, QS и QI как функции .

Напоминая еще раз, что , получим выражения для QL, QS и QI, параметризованные под .

Квазивероятность в ,

QS как функция поэтому

Где,

Квазиинформационная матрица в является,

Получение оценочной функции и информации о позволяет оценивать параметры и делать выводы аналогично тому, как описано в разделе «Приложение – взвешенные наименьшие квадраты» .

Непараметрический регрессионный анализ

[ редактировать ]
Диаграмма разброса количества лет в высшей лиге в зависимости от зарплаты (x 1000 долларов США). Линия представляет собой тенденцию к среднему значению. График показывает, что дисперсия не является постоянной.
Сглаженная условная дисперсия относительно сглаженного условного среднего. Квадратичная форма указывает на гамма-распределение. Функция дисперсии гаммы равна V( ) =

Непараметрическая оценка функции дисперсии и ее важность широко обсуждаются в литературе. [5] [6] [7] В непараметрическом регрессионном анализе цель состоит в том, чтобы выразить ожидаемое значение вашей переменной ответа ( y ) как функцию ваших предикторов ( X ). То есть мы хотим оценить среднюю функцию, не принимая параметрическую форму. Существует множество форм непараметрических методов сглаживания, помогающих оценить функцию. . Интересный подход состоит в том, чтобы также рассмотреть непараметрическую функцию дисперсии , . Непараметрическая функция дисперсии позволяет взглянуть на функцию среднего значения с точки зрения функции дисперсии и заметить закономерности в данных.

Пример подробно показан на картинках справа. Цель проекта состояла в том, чтобы определить (среди прочего), влиял ли предиктор, количество лет в высшей лиге (бейсбол), на реакцию, зарплату , которую зарабатывал игрок. Первоначальная диаграмма рассеяния данных показывает, что в данных существует гетероскедастичность, поскольку дисперсия не является постоянной на каждом уровне предиктора. Поскольку мы можем визуально обнаружить непостоянную дисперсию, теперь полезно построить график и посмотрите, указывает ли форма на какое-либо известное распределение. Можно оценить и используя общий метод сглаживания . График непараметрической сглаженной функции дисперсии может дать исследователю представление о взаимосвязи между дисперсией и средним значением. На рисунке справа показано квадратичное соотношение между средним значением и дисперсией. Как мы видели выше, функция дисперсии гаммы в среднем квадратична.

Примечания

[ редактировать ]
  1. ^ Jump up to: а б Мюллер и Чжао (1995). «О полупараметрической модели функции дисперсии и тесте на гетероскедастичность» . Анналы статистики . 23 (3): 946–967. дои : 10.1214/aos/1176324630 . JSTOR   2242430 .
  2. ^ Мюллер, Штадтмюллер и Яо (2006). «Процессы функциональной дисперсии». Журнал Американской статистической ассоциации . 101 (475): 1007–1018. дои : 10.1198/016214506000000186 . JSTOR   27590778 . S2CID   13712496 .
  3. ^ Веддерберн, RWM (1974). «Функции квазиправдоподобия, обобщенные линейные модели и метод Гаусса – Ньютона». Биометрика . 61 (3): 439–447. дои : 10.1093/biomet/61.3.439 . JSTOR   2334725 .
  4. ^ МакКаллах, Питер; Нелдер, Джон (1989). Обобщенные линейные модели (второе изд.). Лондон: Чепмен и Холл. ISBN  0-412-31760-5 .
  5. ^ Мюллер и ШтадтМюллер (1987). «Оценка гетероскедастичности в регрессионном анализе» . Анналы статистики . 15 (2): 610–625. дои : 10.1214/aos/1176350364 . JSTOR   2241329 .
  6. ^ Цай и Ван, Т.; Ван, Ли (2008). «Адаптивная оценка функции дисперсии в гетероскедастической непараметрической регрессии». Анналы статистики . 36 (5): 2025–2054. arXiv : 0810.4780 . Бибкод : 2008arXiv0810.4780C . дои : 10.1214/07-AOS509 . JSTOR   2546470 . S2CID   9184727 .
  7. ^ Райс и Сильверман (1991). «Непараметрическая оценка структуры среднего и ковариации, когда данные представляют собой кривые». Журнал Королевского статистического общества . 53 (1): 233–243. JSTOR   2345738 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6a9d8dacb9bdb7164883f70db836bed5__1694712600
URL1:https://arc.ask3.ru/arc/aa/6a/d5/6a9d8dacb9bdb7164883f70db836bed5.html
Заголовок, (Title) документа по адресу, URL1:
Variance function - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)