Функция дисперсии
Эта статья нуждается в дополнительных цитатах для проверки . ( март 2014 г. ) |
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике функция дисперсии представляет собой гладкую функцию , которая отображает дисперсию случайной величины как функцию ее среднего значения . Функция дисперсии является мерой гетероскедастичности и играет большую роль во многих условиях статистического моделирования. Это основной компонент обобщенной линейной модели и инструмент, используемый в непараметрической регрессии . [1] полупараметрическая регрессия [1] и функциональный анализ данных . [2] При параметрическом моделировании функции дисперсии принимают параметрическую форму и явно описывают связь между дисперсией и средним значением случайной величины. В непараметрической настройке предполагается, что функция дисперсии является гладкой функцией .
Интуиция
[ редактировать ]В настройке регрессионной модели цель состоит в том, чтобы установить, существует ли связь между переменной ответа и набором переменных-предикторов. Кроме того, если связь действительно существует, цель состоит в том, чтобы суметь описать эту связь как можно лучше. Основным допущением линейной регрессии является постоянная дисперсия или (гомоскедастичность), что означает, что разные переменные ответа имеют одинаковую дисперсию своих ошибок на каждом уровне предикторов. Это предположение хорошо работает, когда переменная ответа и переменная-предиктор вместе являются нормальными . Как мы увидим позже, функция дисперсии в настройке «Нормальный» является постоянной; однако мы должны найти способ количественной оценки гетероскедастичности (непостоянной дисперсии) при отсутствии совместной нормальности.
Когда вполне вероятно, что ответ следует за распределением, которое является членом экспоненциального семейства, может быть более уместным использовать обобщенную линейную модель , и, более того, когда мы не хотим навязывать нашим данным параметрическую модель, непараметрическую модель регрессионный подход может быть полезен. Важность возможности моделировать дисперсию как функцию среднего значения заключается в улучшении вывода (в параметрической настройке) и оценке функции регрессии в целом для любых настроек.
Функции дисперсии играют очень важную роль в оценке параметров и выводах. В общем, оценка максимального правдоподобия требует определения функции правдоподобия. Это требование означает, что сначала необходимо указать распределение наблюдаемых переменных отклика. Однако, чтобы определить квазиправдоподобие, нужно только указать связь между средним значением и дисперсией наблюдений, чтобы затем иметь возможность использовать функцию квазиправдоподобия для оценки. [3] Оценка квазиправдоподобия особенно полезна при наличии чрезмерной дисперсии . Чрезмерная дисперсия возникает, когда вариативность данных больше, чем можно было бы ожидать в соответствии с предполагаемым распределением данных.
Таким образом, чтобы обеспечить эффективный вывод параметров регрессии и функции регрессии, необходимо учитывать гетероскедастичность. Функции дисперсии количественно определяют взаимосвязь между дисперсией и средним значением наблюдаемых данных и, следовательно, играют значительную роль в оценке регрессии и выводах.
Типы
[ редактировать ]Функция дисперсии и ее приложения встречаются во многих областях статистического анализа. Очень важное использование этой функции находится в рамках обобщенных линейных моделей и непараметрической регрессии .
Обобщенная линейная модель
[ редактировать ]член экспоненциального семейства , можно легко вывести функцию дисперсии. Если указан [4] : 29 Общая форма функции дисперсии представлена в контексте экспоненциального семейства, а также конкретные формы для нормальной функции, функции Бернулли, Пуассона и гаммы. Кроме того, мы описываем приложения и использование функций дисперсии при оценке максимального правдоподобия и оценке квазиправдоподобия.
Вывод
[ редактировать ]Обобщенная линейная модель (GLM) представляет собой обобщение обычного регрессионного анализа, которое распространяется на любого члена экспоненциального семейства . Это особенно полезно, когда переменная ответа является категориальной, двоичной или подчиняется ограничению (например, имеют смысл только положительные ответы). На этой странице представлен краткий обзор компонентов GLM, но более подробную информацию и информацию см. на странице обобщенных линейных моделей .
GLM : состоит из трех основных компонентов
- 1. Случайная компонента: распределение y из экспоненциального семейства,
- 2. Линейный предиктор:
- 3. Функция ссылки:
Сначала важно вывести пару ключевых свойств экспоненциального семейства.
Любая случайная величина в экспоненциальном семействе имеет функцию плотности вероятности вида:
с логарифмическим правдоподобием,
Здесь, является каноническим параметром и интересующим параметром, а является мешающим параметром, который играет роль в дисперсии.Мы используем тождества Бартлетта , чтобы вывести общее выражение для функции дисперсии .Первый и второй результаты Бартлетта гарантируют, что при подходящих условиях (см. интегральное правило Лейбница ) для функции плотности, зависящей от ,
Эти тождества приводят к простым расчетам ожидаемого значения и дисперсии любой случайной величины. в экспоненциальном семействе .
Ожидаемое значение Y : Взяв первую производную по логарифма плотности в экспоненциальной форме семейства, описанной выше, мы имеем
Затем взятие ожидаемого значения и установка его равным нулю приводит к:
Отклонение Y: Для вычисления дисперсии мы используем второе тождество Бартлетта:
Теперь у нас есть отношения между и , а именно
- и , что позволяет установить связь между и дисперсия,
Обратите внимание, что поскольку , затем является обратимым.Мы выводим функцию дисперсии для нескольких распространенных распределений.
Пример – нормальный
[ редактировать ]Нормальное распределение — это частный случай, когда функция дисперсии является константой. Позволять затем мы представим функцию плотности y в виде экспоненциального семейства, описанного выше:
где
Чтобы вычислить функцию дисперсии , мы сначала выражаем как функция . Затем мы трансформируем в функцию
Следовательно, функция дисперсии постоянна.
Пример – Бернулли
[ редактировать ]Позволять , то мы выражаем плотность распределения Бернулли в экспоненциальной форме семейства:
Это дает нам
Пример – Пуассон
[ редактировать ]Позволять , то мы выражаем плотность распределения Пуассона в экспоненциальной форме семейства:
- что дает нам
- и
Это дает нам
Здесь мы видим главное свойство данных Пуассона: дисперсия равна среднему значению.
Пример — Гамма
[ редактировать ]Гамма -распределение и функция плотности могут быть выражены при различных параметризациях. Мы будем использовать форму гаммы с параметрами
Тогда в экспоненциальной форме семейства мы имеем
И у нас есть
Приложение – взвешенный метод наименьших квадратов
[ редактировать ]Очень важным применением функции дисперсии является ее использование при оценке параметров и выводе, когда переменная отклика имеет требуемую форму экспоненциального семейства, а также в некоторых случаях, когда это не так (что мы обсудим в разделе квазиправдоподобия ). Взвешенный метод наименьших квадратов (WLS) является частным случаем обобщенного метода наименьших квадратов. Каждый член критерия WLS включает вес, который определяет влияние каждого наблюдения на окончательные оценки параметров. Как и в обычном методе наименьших квадратов, цель состоит в том, чтобы оценить неизвестные параметры в функции регрессии путем нахождения значений для оценок параметров, которые минимизируют сумму квадратов отклонений между наблюдаемыми ответами и функциональной частью модели.
Хотя WLS предполагает независимость наблюдений, он не предполагает равную дисперсию и, следовательно, является решением для оценки параметров при наличии гетероскедастичности. Теорема Гаусса -Маркова и Эйткен демонстрируют, что лучшая линейная несмещенная оценка (СИНИЙ), несмещенная оценка с минимальной дисперсией, имеет каждый вес, равный обратной величине дисперсии измерения.
В рамках GLM наша цель — оценить параметры , где . Поэтому нам хотелось бы свести к минимуму и если мы определим весовую матрицу W как
где определены в предыдущем разделе, это позволяет проводить итеративно взвешенную оценку параметров методом наименьших квадратов (IRLS). вывод см. в разделе об итеративном повторном взвешивании наименьших квадратов Дополнительную информацию и .
Также важно отметить, что когда весовая матрица имеет описанную здесь форму, минимизация выражения также минимизирует расстояние Пирсона. см. в разделе Корреляция расстояний Дополнительную информацию .
Матрица W выпадает из уравнений оценки для оценки . Оценка максимального правдоподобия для каждого параметра , требует
- , где это логарифмическая вероятность.
Глядя на одно наблюдение, которое мы имеем,
Это дает нам
- , и отмечая, что
- у нас есть это
Матрица Гессе определяется аналогичным образом, и можно показать, что она равна:
Отмечая, что информация Фишера (FI),
- , позволяет провести асимптотическую аппроксимацию
- , и, следовательно, можно сделать вывод.
Применение – квазиправдоподобие
[ редактировать ]Поскольку большинство характеристик GLM зависят только от первых двух моментов распределения, а не от всего распределения, квазиправдоподобие можно получить, просто указав функцию связи и функцию дисперсии. То есть нам нужно указать
- функция ссылки,
- функция дисперсии, , где
Имея заданную функцию дисперсии и функцию связи, мы можем разработать в качестве альтернативы логарифмической функции правдоподобия , оценки и информации Фишера квазиправдоподобие квазиинформацию , квазиоценку и функции . Это позволяет сделать полный вывод .
Квазиправдоподобие (QL)
Хотя это и называется квазиправдоподобием , на самом деле это квазилогарифмическое правдоподобие . QL для одного наблюдения составляет
И поэтому QL для всех n наблюдений равен
Из QL мы получаем квазиоценку
Квази-оценка (QS)
Вспомните оценки функцию U для данных с логарифмическим правдоподобием. является
Аналогично получаем квазиоценку:
Отмечая, что для одного наблюдения оценка равна
Первые два уравнения Бартлетта удовлетворяются для квазипоказателя, а именно:
и
Кроме того, квазиоценка линейна по y .
В конечном итоге цель — найти информацию об интересующих параметрах. . И QS, и QL на самом деле являются функциями . Отзывать, , и , поэтому,
Квазиинформация (КИ)
Квазиинформация . аналогична Фишера информации
QL, QS, QI как функции
QL, QS и QI служат строительными блоками для вывода об интересующих параметрах, и поэтому важно выражать QL, QS и QI как функции .
Напоминая еще раз, что , получим выражения для QL, QS и QI, параметризованные под .
Квазивероятность в ,
QS как функция поэтому
Где,
Квазиинформационная матрица в является,
Получение оценочной функции и информации о позволяет оценивать параметры и делать выводы аналогично тому, как описано в разделе «Приложение – взвешенные наименьшие квадраты» .
Непараметрический регрессионный анализ
[ редактировать ]Непараметрическая оценка функции дисперсии и ее важность широко обсуждаются в литературе. [5] [6] [7] В непараметрическом регрессионном анализе цель состоит в том, чтобы выразить ожидаемое значение вашей переменной ответа ( y ) как функцию ваших предикторов ( X ). То есть мы хотим оценить среднюю функцию, не принимая параметрическую форму. Существует множество форм непараметрических методов сглаживания, помогающих оценить функцию. . Интересный подход состоит в том, чтобы также рассмотреть непараметрическую функцию дисперсии , . Непараметрическая функция дисперсии позволяет взглянуть на функцию среднего значения с точки зрения функции дисперсии и заметить закономерности в данных.
Пример подробно показан на картинках справа. Цель проекта состояла в том, чтобы определить (среди прочего), влиял ли предиктор, количество лет в высшей лиге (бейсбол), на реакцию, зарплату , которую зарабатывал игрок. Первоначальная диаграмма рассеяния данных показывает, что в данных существует гетероскедастичность, поскольку дисперсия не является постоянной на каждом уровне предиктора. Поскольку мы можем визуально обнаружить непостоянную дисперсию, теперь полезно построить график и посмотрите, указывает ли форма на какое-либо известное распределение. Можно оценить и используя общий метод сглаживания . График непараметрической сглаженной функции дисперсии может дать исследователю представление о взаимосвязи между дисперсией и средним значением. На рисунке справа показано квадратичное соотношение между средним значением и дисперсией. Как мы видели выше, функция дисперсии гаммы в среднем квадратична.
Примечания
[ редактировать ]- ^ Jump up to: а б Мюллер и Чжао (1995). «О полупараметрической модели функции дисперсии и тесте на гетероскедастичность» . Анналы статистики . 23 (3): 946–967. дои : 10.1214/aos/1176324630 . JSTOR 2242430 .
- ^ Мюллер, Штадтмюллер и Яо (2006). «Процессы функциональной дисперсии». Журнал Американской статистической ассоциации . 101 (475): 1007–1018. дои : 10.1198/016214506000000186 . JSTOR 27590778 . S2CID 13712496 .
- ^ Веддерберн, RWM (1974). «Функции квазиправдоподобия, обобщенные линейные модели и метод Гаусса – Ньютона». Биометрика . 61 (3): 439–447. дои : 10.1093/biomet/61.3.439 . JSTOR 2334725 .
- ^ МакКаллах, Питер; Нелдер, Джон (1989). Обобщенные линейные модели (второе изд.). Лондон: Чепмен и Холл. ISBN 0-412-31760-5 .
- ^ Мюллер и ШтадтМюллер (1987). «Оценка гетероскедастичности в регрессионном анализе» . Анналы статистики . 15 (2): 610–625. дои : 10.1214/aos/1176350364 . JSTOR 2241329 .
- ^ Цай и Ван, Т.; Ван, Ли (2008). «Адаптивная оценка функции дисперсии в гетероскедастической непараметрической регрессии». Анналы статистики . 36 (5): 2025–2054. arXiv : 0810.4780 . Бибкод : 2008arXiv0810.4780C . дои : 10.1214/07-AOS509 . JSTOR 2546470 . S2CID 9184727 .
- ^ Райс и Сильверман (1991). «Непараметрическая оценка структуры среднего и ковариации, когда данные представляют собой кривые». Журнал Королевского статистического общества . 53 (1): 233–243. JSTOR 2345738 .
Ссылки
[ редактировать ]- МакКаллах, Питер ; Нелдер, Джон (1989). Обобщенные линейные модели (второе изд.). Лондон: Чепмен и Холл. ISBN 0-412-31760-5 .
- Хенрик Мэдсен и Пол Тайрегод (2011). Введение в общие и обобщенные линейные модели . Чепмен и Холл/CRC. ISBN 978-1-4200-9155-7 .
Внешние ссылки
[ редактировать ]- СМИ, связанные с функцией отклонения, на Викискладе?