Jump to content

Обобщенная линейная модель

(Перенаправлено из Обобщенных линейных моделей )

В статистике обобщенная линейная модель ( GLM ) является гибким обобщением обычной линейной регрессии . GLM обобщает линейную регрессию, позволяя связать линейную модель с переменной отклика через функцию связи и позволяя величине дисперсии каждого измерения быть функцией его прогнозируемого значения.

Обобщенные линейные модели были сформулированы Джоном Нелдером и Робертом Веддерберном как способ объединения различных других статистических моделей, включая линейную регрессию , логистическую регрессию и регрессию Пуассона . [1] Они предложили наименьших квадратов итеративно перевзвешенный метод для оценки максимального правдоподобия (MLE) параметров модели. MLE остается популярным и является методом по умолчанию во многих пакетах статистических вычислений. и другие подходы, включая байесовскую регрессию и метод наименьших квадратов для ответов, стабилизированных дисперсией Были разработаны .

Интуиция

[ редактировать ]

Обычная линейная регрессия предсказывает ожидаемое значение данной неизвестной величины ( переменной отклика , случайной величины ) как линейную комбинацию набора наблюдаемых значений ( предикторов ). Это означает, что постоянное изменение предиктора приводит к постоянному изменению переменной отклика (т. е. модель линейного отклика ). Это целесообразно, когда переменная отклика может изменяться, с хорошим приближением, бесконечно в любом направлении или, в более общем смысле, для любой величины, которая изменяется лишь на относительно небольшую величину по сравнению с изменением прогнозируемых переменных, например, роста человека.

Однако эти предположения неприемлемы для некоторых типов переменных отклика. Например, в тех случаях, когда ожидается, что переменная отклика всегда будет положительной и будет изменяться в широком диапазоне, постоянные изменения входных данных приводят к геометрическим (т.е. экспоненциальным) изменениям, а не к постоянно меняющимся изменениям выходных данных. В качестве примера предположим, что модель линейного прогнозирования на основе некоторых данных (возможно, в основном полученных с больших пляжей) узнает, что снижение температуры на 10 градусов приведет к тому, что пляж будет посещать на 1000 человек меньше. Эта модель вряд ли будет хорошо обобщаться для пляжей разного размера. Более конкретно, проблема заключается в том, что если вы используете модель для прогнозирования новой посещаемости при падении температуры на 10 для пляжа, который регулярно принимает 50 посетителей, вы спрогнозируете невозможное значение посещаемости, равное -950. Логично, что более реалистичная модель вместо этого предсказывала бы постоянную скорость увеличения посещаемости пляжа (например, увеличение на 10 градусов приводит к удвоению посещаемости пляжа, а падение на 10 градусов приводит к уменьшению посещаемости вдвое). Такая модель называется модель экспоненциального ответа (или логарифмически-линейная модель , поскольку прогнозируется, что логарифм ответа будет изменяться линейно).

Точно так же модель, которая предсказывает вероятность выбора да/нет ( переменная Бернулли ), еще менее подходит в качестве модели линейного отклика, поскольку вероятности ограничены с обеих сторон (они должны находиться в диапазоне от 0 до 1). Представьте себе, например, модель, которая предсказывает вероятность того, что данный человек пойдет на пляж, в зависимости от температуры. Разумная модель могла бы, например, предсказать, что при изменении температуры на 10 градусов вероятность того, что человек пойдет на пляж, в два раза увеличится или уменьшится. Но что означает «вдвое более вероятно» с точки зрения вероятности? Это не может буквально означать удвоение значения вероятности (например, 50% становится 100%, 75% становится 150% и т. д.). Скорее, удваиваются шансы : с коэффициентов 2:1 до коэффициентов 4:1, до коэффициентов 8:1 и т. д. Такая модель представляет собой логарифмическую или логистическую модель .

Обобщенные линейные модели охватывают все эти ситуации, позволяя переменным отклика иметь произвольные распределения (а не просто нормальное распределение ), а также произвольной функции переменной отклика ( функции связи ) изменяться линейно в зависимости от предикторов (вместо того, чтобы предполагать, что сам ответ должен изменяться линейно). Например, приведенный выше случай прогнозируемого количества посетителей пляжа обычно моделируется с помощью распределения Пуассона и логарифмической связи, тогда как случай прогнозируемой вероятности посещения пляжа обычно моделируется с помощью распределения Бернулли (или биномиального распределения , в зависимости от точного количества посетителей). как сформулирована проблема) и функция связи log-odds (или logit ).

В обобщенной линейной модели (GLM) предполагается, что каждый результат Y зависимых переменных генерируется из определенного распределения в экспоненциальном семействе , большом классе вероятностных распределений , который включает нормальное , биномиальное , пуассоновское и гамма- , среди прочего, распределения. . Условное среднее значение распределения зависит от независимых переменных X посредством:

где E( Y | X ) — значение Y X условии при ожидаемое ; X β линейный предиктор , линейная комбинация неизвестных параметров β ; g — функция связи.

В этой схеме дисперсия обычно является функцией V от среднего значения:

Удобно, если V следует из экспоненциального семейства распределений, но может быть просто, что дисперсия является функцией прогнозируемого значения.

Неизвестные параметры β обычно оцениваются с помощью методов максимального правдоподобия , максимального квазиправдоподобия или байесовских методов.

Компоненты модели

[ редактировать ]

GLM состоит из трех элементов:

1. Особый дистрибутив для моделирования из числа тех, которые считаются экспоненциальными семействами вероятностных распределений,
2. Линейный предиктор , и
3. Функция ссылки такой, что .

Распределение вероятностей

[ редактировать ]

Экспоненциальное семейство распределений со сверхдисперсией является обобщением экспоненциального семейства и модели экспоненциальной дисперсии распределений и включает в себя те семейства вероятностных распределений, параметризованные и , чьи функции плотности f (или функция массы вероятности для случая дискретного распределения ) могут быть выражены в виде

Параметр дисперсии , , обычно известен и обычно связан с дисперсией распределения. Функции , , , , и известны. В это семейство входят многие распространенные распределения, включая нормальное, экспоненциальное, гамма-распределение, распределение Пуассона, распределение Бернулли и (для фиксированного количества испытаний) биномиальное, полиномиальное и отрицательное биномиальное.

Для скаляра и (обозначается и в данном случае) это сводится к

связано со средним значением распределения. Если — тождественная функция, то говорят, что распределение имеет каноническую форму (или естественную форму ). Обратите внимание, что любое распределение можно преобразовать к канонической форме, переписав как а затем применив преобразование . Всегда можно конвертировать с точки зрения новой параметризации, даже если не является однозначной функцией ; см. комментарии на странице экспоненциальных семейств . Если, кроме того, это личность и известно, то называется каноническим параметром (или натуральным параметром ) и связан со средним значением через

Для скаляра и , это сводится к

Можно показать, что в этом сценарии дисперсия распределения равна [2]

Для скаляра и , это сводится к

Линейный предиктор

[ редактировать ]

Линейный предиктор — это величина, которая включает в модель информацию о независимых переменных. Символ η ( греч. « эта ») обозначает линейный предиктор. Это связано с ожидаемым значением данных через функцию связи.

η выражается как линейные комбинации (таким образом, «линейные») неизвестных параметров β . Коэффициенты линейной комбинации представляются в виде матрицы независимых X. переменных Таким образом, η можно выразить как

[ редактировать ]

Функция связи обеспечивает связь между линейным предиктором и средним значением функции распределения. Существует множество часто используемых функций ссылок, и их выбор определяется несколькими соображениями. Всегда существует четко определенная каноническая ответа функция связи, которая получается из экспоненты функции плотности . Однако в некоторых случаях имеет смысл попытаться сопоставить область определения функции связи с диапазоном среднего значения функции распределения или использовать неканоническую функцию связи для алгоритмических целей, например, байесовскую пробит-регрессию .

При использовании функции распределения с каноническим параметром функция канонической ссылки — это функция, которая выражает с точки зрения т.е. Для наиболее распространенных распределений среднее значение распределения — один из параметров стандартной формы функции плотности , а затем — это функция, определенная выше, которая отображает функцию плотности в ее каноническую форму. При использовании функции канонической ссылки что позволяет быть достаточной статистикой для .

Ниже приводится таблица нескольких широко используемых распределений экспоненциального семейства и данных, для которых они обычно используются, а также канонических функций связи и их обратных функций (иногда называемых средней функцией, как это сделано здесь).

Распространенные дистрибутивы с типичным использованием и функциями канонических ссылок.
Распределение Поддержка дистрибуции Типичное использование Имя ссылки Функция связи, Средняя функция
Нормальный настоящий: Данные линейного отклика Личность
Экспоненциальный настоящий: Данные экспоненциального отклика, параметры шкалы Отрицательный обратный
Гамма
Обратный
Гауссовский
настоящий: Обратный
в квадрате
Пуассон целое число: количество вхождений в фиксированный промежуток времени/пространства Бревно
Бернулли целое число: результат единичного события да/нет Логит
Биномиальный целое число: количество вхождений «да» из N вхождений «да/нет»
Категорический целое число: результат единичного K возникновения -пути
K -вектор целого числа: , где ровно один элемент вектора имеет значение 1
Полиномиальный K -вектор целого числа: количество вхождений разных типов (1, ..., K ) из N общего числа K вхождений -способа

В случаях экспоненциального и гамма-распределений область канонической функции связи не совпадает с разрешенным диапазоном среднего значения. В частности, линейный предиктор может быть положительным, что дало бы невозможное отрицательное среднее значение. При максимизации вероятности необходимо принять меры предосторожности, чтобы избежать этого. Альтернативой является использование неканонической функции ссылки.

В случае распределений Бернулли, биномиального, категориального и полиномиального распределения поддержка распределений не является тем же типом данных, что и прогнозируемый параметр. Во всех этих случаях прогнозируемый параметр представляет собой одну или несколько вероятностей, то есть действительные числа в диапазоне . Полученная модель известна как логистическая регрессия (или полиномиальная логистическая регрессия в случае, когда K прогнозируются -образные, а не двоичные значения).

Для распределений Бернулли и биномиального распределения параметром является одна вероятность, указывающая вероятность возникновения одного события. Модель Бернулли по-прежнему удовлетворяет основному условию обобщенной линейной модели: даже если единственный результат всегда будет либо 0, либо 1, ожидаемое значение , тем не менее, будет действительной вероятностью, то есть вероятностью появления ответа «да». (или 1) результат. Аналогично, в биномиальном распределении ожидаемое значение равно Np , т.е. ожидаемая доля результатов «да» будет вероятностью, которую следует предсказать.

Для категориальных и полиномиальных распределений прогнозируемый параметр представляет собой K -вектор вероятностей с дополнительным ограничением, согласно которому сумма всех вероятностей должна составлять 1. Каждая вероятность указывает вероятность появления одного из K возможных значений. Для полиномиального распределения и векторной формы категориального распределения ожидаемые значения элементов вектора могут быть связаны с предсказанными вероятностями аналогично биномиальному распределению и распределению Бернулли.

Примерка

[ редактировать ]

Максимальная вероятность

[ редактировать ]

Оценки максимального правдоподобия можно найти с помощью итеративно перевзвешенного алгоритма наименьших квадратов или метода Ньютона с обновлениями формы:

где наблюдаемая информационная матрица (отрицательная сторона матрицы Гессе ) и функция оценки ; или оценки Фишера метод :

где информационная матрица Фишера . Обратите внимание, что если используется функция канонической ссылки, то они одинаковы. [3]

Байесовские методы

[ редактировать ]

В общем, апостериорное распределение невозможно найти в замкнутой форме , поэтому его необходимо аппроксимировать, обычно с использованием аппроксимации Лапласа или какого-либо типа метода Монте-Карло с использованием цепей Маркова, такого как выборка Гиббса .

Общие линейные модели

[ редактировать ]

Возможная путаница связана с различием между обобщенными линейными моделями и общими линейными моделями , двумя широкими статистическими моделями. Соавтор Джон Нелдер выразил сожаление по поводу этой терминологии. [4]

Общую линейную модель можно рассматривать как частный случай обобщенной линейной модели с тождественной связью и нормально распределенными откликами. Поскольку наиболее точные интересующие нас результаты получены только для общей линейной модели, общая линейная модель претерпела несколько более длительное историческое развитие. Результаты для обобщенной линейной модели с нетождественной связью являются асимптотическими (имеют тенденцию хорошо работать с большими выборками).

Линейная регрессия

[ редактировать ]

Простой и очень важный пример обобщенной линейной модели (также пример общей линейной модели) — линейная регрессия . В линейной регрессии использование метода наименьших квадратов оправдано теоремой Гаусса-Маркова , которая не предполагает, что распределение нормальное.

Однако с точки зрения обобщенных линейных моделей полезно предположить, что функция распределения — это нормальное распределение с постоянной дисперсией, а функция связи — это тождество, которое является канонической связью, если дисперсия известна. При этих предположениях оценка методом наименьших квадратов получается как оценка параметра максимального правдоподобия.

Для нормального распределения обобщенная линейная модель имеет выражение в замкнутом виде для оценок максимального правдоподобия, что удобно. В большинстве других GLM отсутствуют оценки в закрытой форме .

Двоичные данные

[ редактировать ]

Когда данные ответа Y являются двоичными (принимают только значения 0 и 1), функция распределения обычно выбирается как распределение Бернулли , и интерпретация µ i тогда является вероятностью p , того, что Y i принимает значение один.

Существует несколько популярных функций связи для биномиальных функций.

[ редактировать ]

Наиболее типичной функцией ссылки является каноническая логит- ссылка:

GLM с такой настройкой представляют собой модели логистической регрессии (или логит-модели ).

[ редактировать ]

В качестве альтернативы для линии можно использовать обратную функцию любой непрерывной кумулятивной функции распределения (CDF), поскольку диапазон CDF равен , диапазон биномиального среднего. Обычный CDF является популярным выбором и дает пробит-модель . Его ссылка

Причина использования пробит-модели заключается в том, что постоянное масштабирование входной переменной до нормального CDF (которое можно получить за счет эквивалентного масштабирования всех параметров) дает функцию, практически идентичную логит-функции, но пробит-функцию. в некоторых ситуациях модели более удобны, чем логит-модели. (В байесовской настройке, в которой нормально распределенные априорные распределения помещаются в параметры, связь между нормальными априорными значениями и нормальной функцией связи CDF означает, что пробит-модель может быть вычислена с использованием выборки Гиббса , тогда как логит-модель обычно не может быть вычислена.)

Дополнительный журнал (cloglog)

[ редактировать ]

Также может использоваться дополнительная функция log-log:

Эта функция связи асимметрична и часто дает результаты, отличные от функций связи логит и пробит. [5] Модель засорения соответствует приложениям, в которых мы наблюдаем либо ноль событий (например, дефекты), либо одно или несколько событий, где предполагается, что количество событий соответствует распределению Пуассона . [6] Предположение Пуассона означает, что

где μ — положительное число, обозначающее ожидаемое количество событий. Если p представляет долю наблюдений хотя бы с одним событием, его дополнение

а потом

Линейная модель требует, чтобы переменная ответа принимала значения по всей реальной линии. Поскольку µ должно быть положительным, мы можем обеспечить это, взяв логарифм и позволив log( µ ) быть линейной моделью. Это приводит к преобразованию «засор».

[ редактировать ]

Тождественная связь g(p) = p также иногда используется для биномиальных данных, чтобы получить линейную вероятностную модель . Однако идентификационная связь может предсказывать бессмысленные «вероятности» меньше нуля или больше единицы. Этого можно избежать, используя такие преобразования, как cloglog, probit или logit (или любую обратную кумулятивную функцию распределения). Основное достоинство тождественной связи состоит в том, что ее можно оценить с помощью линейной математики, а другие стандартные функции связи приблизительно линейны, согласуясь с тождественной связью вблизи p = 0,5.

Функция дисперсии

[ редактировать ]

Функция дисперсии для " квазибиномиальные » данные:

где параметр дисперсии τ равен ровно 1 для биномиального распределения. Действительно, стандартная биномиальная вероятность опускает τ . Когда оно присутствует, модель называется «квазибиномиальной», а модифицированное правдоподобие называется квазиправдоподобием , поскольку обычно оно не является правдоподобием, соответствующим какому-либо реальному семейству вероятностных распределений. Если τ превышает 1, говорят, что модель демонстрирует сверхдисперсию .

Полиномиальная регрессия

[ редактировать ]

Биномиальный случай можно легко расширить, чтобы учесть полиномиальное распределение в качестве ответа (также обобщенную линейную модель для подсчетов с ограниченным итогом). Обычно это делается двумя способами:

Заказной ответ

[ редактировать ]

Если переменная ответа порядковая , то можно использовать модельную функцию вида:

для m > 2. Различные связи g приводят к порядковой регрессии, моделям таким как модели пропорциональных шансов или модели упорядоченной пробита .

Неупорядоченный ответ

[ редактировать ]

Если переменная ответа является номинальным измерением или данные не удовлетворяют предположениям упорядоченной модели, можно использовать модель следующей формы:

для m > 2. Различные связи g приводят к полиномиальным логит- или полиномиальным пробит- моделям. Они более общие, чем модели упорядоченного ответа, и оцениваются больше параметров.

Данные подсчета

[ редактировать ]

Другой пример обобщенных линейных моделей включает регрессию Пуассона , которая моделирует подсчет данных с использованием распределения Пуассона . Ссылка обычно представляет собой логарифм, каноническую ссылку.

Функция дисперсии пропорциональна среднему значению

где параметр дисперсии τ обычно равен единице. Если это не так, результирующую модель квазиправдоподобия часто называют пуассоновской со сверхдисперсией или квазипуассоновской .

Расширения

[ редактировать ]

Коррелированные или кластеризованные данные

[ редактировать ]

Стандарт GLM предполагает, что наблюдения некоррелированы . Были разработаны расширения, позволяющие коррелировать между наблюдениями, как это происходит, например, в продольных исследованиях и кластерных планах:

  • Обобщенные уравнения оценки (GEE) допускают корреляцию между наблюдениями без использования явной вероятностной модели происхождения корреляций, поэтому явная вероятность отсутствует . Они подходят, когда случайные эффекты и их дисперсии не представляют интереса, поскольку допускают корреляцию, не объясняя ее происхождения. Основное внимание уделяется оценке среднего ответа по популяции («среднепопуляционные» эффекты), а не параметрам регрессии, которые позволили бы предсказать эффект изменения одного или нескольких компонентов X на данного человека. GEE обычно используются вместе со стандартными ошибками Хубера-Уайта . [7] [8]
  • Обобщенные линейные смешанные модели (GLMM) являются расширением GLM, которое включает случайные эффекты в линейный предиктор, предоставляя явную вероятностную модель, объясняющую происхождение корреляций. Полученные в результате оценки параметров, специфичные для конкретного субъекта, подходят, когда основное внимание уделяется оценке влияния изменения одного или нескольких компонентов X на данного человека. GLMM также называют многоуровневыми моделями и смешанными моделями . В целом, подгонка GLMM является более сложной и трудоемкой в ​​вычислительном отношении, чем подгонка GEE.

Обобщенные аддитивные модели

[ редактировать ]

Обобщенные аддитивные модели (GAM) являются еще одним расширением GLM, в котором линейный предиктор η не ограничен линейностью по ковариатам X , но представляет собой сумму функций сглаживания, применяемых к x i s:

Функции сглаживания f i оцениваются по данным. Как правило, это требует большого количества точек данных и требует больших вычислительных ресурсов. [9] [10]

См. также

[ редактировать ]
  1. ^ Нелдер, Джон ; Веддерберн, Роберт (1972). «Обобщенные линейные модели». Журнал Королевского статистического общества. Серия А (Общая) . 135 (3). Издательство Блэквелл: 370–384. дои : 10.2307/2344614 . JSTOR   2344614 . S2CID   14154576 .
  2. ^ МакКаллах и Нелдер 1989 , Глава 2.
  3. ^ МакКаллах и Нелдер 1989 , стр. 43.
  4. ^ Сенн, Стивен (2003). «Разговор с Джоном Нелдером» . Статистическая наука . 18 (1): 118–131. дои : 10.1214/ss/1056397489 . Я подозреваю, что нам следовало бы найти для нее какое-то более причудливое название, которое прижилось бы и не путалось бы с общей линейной моделью, хотя «генеральное» и «обобщенное» — не совсем одно и то же. Я понимаю, почему, возможно, было бы лучше подумать о чем-то другом.
  5. ^ «Дополнительная логарифмическая модель» (PDF) .
  6. ^ «Какая функция связи — Logit, Probit или Cloglog?» . Байесиум Аналитика . 14 августа 2015 г. Проверено 17 марта 2019 г.
  7. ^ Зегер, Скотт Л .; Лян, Кунг-Йи ; Альберт, Пол С. (1988). «Модели для продольных данных: подход с использованием обобщенного уравнения оценки». Биометрия . 44 (4). Международное биометрическое общество: 1049–1060. дои : 10.2307/2531734 . JSTOR   2531734 . ПМИД   3233245 .
  8. ^ Хардин, Джеймс; Хильбе, Джозеф (2003). Обобщенные оценочные уравнения . Лондон, Англия: Чепмен и Холл/CRC. ISBN  1-58488-307-3 .
  9. ^ Хасти и Тибширани 1990 .
  10. ^ Вуд 2006 .

Библиография

[ редактировать ]

Дальнейшее чтение

[ редактировать ]
  • Данн, ПК; Смит, ГК (2018). Обобщенные линейные модели с примерами в R. Нью-Йорк: Спрингер. дои : 10.1007/978-1-4419-0118-7 . ISBN  978-1-4419-0118-7 .
  • Добсон, Эй Джей; Барнетт, AG (2008). Введение в обобщенные линейные модели (3-е изд.). Бока-Ратон, Флорида: Чепмен и Холл/CRC. ISBN  978-1-58488-165-0 .
  • Хардин, Джеймс; Хильбе, Джозеф (2007). Обобщенные линейные модели и расширения (2-е изд.). Колледж-Стейшн: Stata Press. ISBN  978-1-59718-014-6 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 86bae91504dc2d67093c4e60deb1edb3__1713941820
URL1:https://arc.ask3.ru/arc/aa/86/b3/86bae91504dc2d67093c4e60deb1edb3.html
Заголовок, (Title) документа по адресу, URL1:
Generalized linear model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)