Обобщенная линейная модель
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике обобщенная линейная модель ( GLM ) является гибким обобщением обычной линейной регрессии . GLM обобщает линейную регрессию, позволяя связать линейную модель с переменной отклика через функцию связи и позволяя величине дисперсии каждого измерения быть функцией его прогнозируемого значения.
Обобщенные линейные модели были сформулированы Джоном Нелдером и Робертом Веддерберном как способ объединения различных других статистических моделей, включая линейную регрессию , логистическую регрессию и регрессию Пуассона . [1] Они предложили наименьших квадратов итеративно перевзвешенный метод для оценки максимального правдоподобия (MLE) параметров модели. MLE остается популярным и является методом по умолчанию во многих пакетах статистических вычислений. и другие подходы, включая байесовскую регрессию и метод наименьших квадратов, соответствующий ответам , стабилизированным дисперсией Были разработаны .
Интуиция [ править ]
Обычная линейная регрессия предсказывает ожидаемое значение данной неизвестной величины ( переменной отклика , случайной величины ) как линейную комбинацию набора наблюдаемых значений ( предикторов ). Это означает, что постоянное изменение предиктора приводит к постоянному изменению переменной отклика (т. е. модель линейного отклика ). Это целесообразно, когда переменная отклика может изменяться, с хорошим приближением, бесконечно в любом направлении или, в более общем смысле, для любой величины, которая изменяется лишь на относительно небольшую величину по сравнению с изменением прогнозируемых переменных, например, роста человека.
Однако эти предположения неприемлемы для некоторых типов переменных отклика. Например, в тех случаях, когда ожидается, что переменная отклика всегда будет положительной и будет изменяться в широком диапазоне, постоянные изменения входных данных приводят к геометрическим (т.е. экспоненциальным) изменениям, а не к постоянно меняющимся изменениям выходных данных. В качестве примера предположим, что модель линейного прогнозирования на основе некоторых данных (возможно, в основном полученных с больших пляжей) узнает, что снижение температуры на 10 градусов приведет к тому, что пляж будет посещать на 1000 человек меньше. Эта модель вряд ли будет хорошо обобщаться для пляжей разного размера. Более конкретно, проблема заключается в том, что если вы используете модель для прогнозирования новой посещаемости при падении температуры на 10 для пляжа, который регулярно принимает 50 посетителей, вы спрогнозируете невозможное значение посещаемости, равное -950. Логично, что более реалистичная модель вместо этого предсказывала бы постоянную скорость увеличения посещаемости пляжа (например, увеличение на 10 градусов приводит к удвоению посещаемости пляжа, а падение на 10 градусов приводит к уменьшению посещаемости вдвое). Такая модель называется модель экспоненциального ответа (или логарифмически-линейная модель , поскольку прогнозируется, что логарифм ответа будет изменяться линейно).
Точно так же модель, которая предсказывает вероятность выбора да/нет ( переменная Бернулли ), еще менее подходит в качестве модели линейного отклика, поскольку вероятности ограничены с обеих сторон (они должны находиться в диапазоне от 0 до 1). Представьте себе, например, модель, которая предсказывает вероятность того, что данный человек пойдет на пляж, в зависимости от температуры. Разумная модель могла бы, например, предсказать, что при изменении температуры на 10 градусов вероятность того, что человек пойдет на пляж, в два раза увеличится или уменьшится. Но что означает «вдвое более вероятно» с точки зрения вероятности? Это не может буквально означать удвоение значения вероятности (например, 50% становится 100%, 75% становится 150% и т. д.). Скорее, удваиваются шансы : с коэффициентов 2:1 до коэффициентов 4:1, до коэффициентов 8:1 и т. д. Такая модель представляет собой логарифмическую или логистическую модель .
Обобщенные линейные модели охватывают все эти ситуации, позволяя переменным отклика иметь произвольные распределения (а не просто нормальное распределение ), а также произвольной функции переменной отклика ( функции связи ) изменяться линейно в зависимости от предикторов (вместо того, чтобы предполагать, что сам ответ должен изменяться линейно). Например, приведенный выше случай прогнозируемого количества посетителей пляжа обычно моделируется с помощью распределения Пуассона и логарифмической связи, тогда как случай прогнозируемой вероятности посещения пляжа обычно моделируется с помощью распределения Бернулли (или биномиального распределения , в зависимости от точного количества посетителей). как сформулирована проблема) и функция связи log-odds (или logit ).
Обзор [ править ]
В обобщенной линейной модели (GLM) предполагается, что каждый результат Y зависимых переменных генерируется из определенного распределения в экспоненциальном семействе , большом классе вероятностных распределений , который включает нормальное , биномиальное , пуассоновское и гамма- , среди прочего, распределения. . Условное среднее значение распределения зависит от независимых переменных X посредством:
где E( Y | X ) — значение Y X условии при ожидаемое ; X β — линейный предиктор , линейная комбинация неизвестных параметров β ; g — функция связи.
В этой схеме дисперсия обычно является функцией V от среднего значения:
Удобно, если V следует из экспоненциального семейства распределений, но может быть просто, что дисперсия является функцией прогнозируемого значения.
Неизвестные параметры β обычно оцениваются с помощью методов максимального правдоподобия , максимального квазиправдоподобия или байесовских методов.
Компоненты модели [ править ]
GLM состоит из трех элементов:
- 1. Особый дистрибутив для моделирования из числа тех, которые считаются экспоненциальными семействами вероятностных распределений,
- 2. Линейный предиктор , и
- 3. Функция ссылки такой, что .
Распределение вероятностей
Экспоненциальное семейство распределений со сверхдисперсией является обобщением экспоненциального семейства и модели экспоненциальной дисперсии распределений и включает в себя те семейства вероятностных распределений, параметризованные и , чьи функции плотности f (или функция массы вероятности для случая дискретного распределения ) могут быть выражены в виде
Параметр дисперсии , , обычно известен и обычно связан с дисперсией распределения. Функции , , , , и известны. В это семейство входят многие распространенные распределения, включая нормальное, экспоненциальное, гамма-распределение, распределение Пуассона, распределение Бернулли и (для фиксированного количества испытаний) биномиальное, полиномиальное и отрицательное биномиальное.
Для скаляра и (обозначается и в данном случае) это сводится к
связано со средним значением распределения. Если — тождественная функция, то говорят, что распределение имеет каноническую форму (или естественную форму ). Обратите внимание, что любое распределение можно преобразовать к канонической форме, переписав как а затем применив преобразование . Всегда можно конвертировать с точки зрения новой параметризации, даже если не является однозначной функцией ; см. комментарии на странице экспоненциальных семейств . Если, кроме того, это личность и известно, то называется каноническим параметром (или натуральным параметром ) и связан со средним значением через
Для скаляра и , это сводится к
Можно показать, что в этом сценарии дисперсия распределения равна [2]
Для скаляра и , это сводится к
Линейный предиктор [ править ]
Линейный предиктор — это величина, которая включает в модель информацию о независимых переменных. Символ η ( греч. « эта ») обозначает линейный предиктор. Это связано с ожидаемым значением данных через функцию связи.
η выражается как линейные комбинации (таким образом, «линейные») неизвестных параметров β . Коэффициенты линейной комбинации представляются в виде матрицы независимых X. переменных Таким образом, η можно выразить как
Функция связи [ править ]
Функция связи обеспечивает связь между линейным предиктором и средним значением функции распределения. Существует множество часто используемых функций ссылок, и их выбор определяется несколькими соображениями. Всегда существует четко определенная каноническая ответа функция связи, которая получается из экспоненты функции плотности . Однако в некоторых случаях имеет смысл попытаться сопоставить область определения функции связи с диапазоном среднего значения функции распределения или использовать неканоническую функцию связи для алгоритмических целей, например, байесовскую пробит-регрессию .
При использовании функции распределения с каноническим параметром функция канонической ссылки — это функция, которая выражает с точки зрения т.е. Для наиболее распространенных распределений среднее значение распределения — один из параметров стандартной формы функции плотности , а затем — это функция, определенная выше, которая отображает функцию плотности в ее каноническую форму. При использовании функции канонической ссылки что позволяет быть достаточной статистикой для .
Ниже приводится таблица нескольких широко используемых распределений экспоненциального семейства и данных, для которых они обычно используются, а также канонических функций связи и их обратных функций (иногда называемых средней функцией, как это сделано здесь).
Распределение | Поддержка дистрибуции | Типичное использование | Имя ссылки | Функция связи, | Средняя функция |
---|---|---|---|---|---|
Нормальный | настоящий: | Данные линейного отклика | Личность | ||
Экспоненциальный | настоящий: | Данные экспоненциального отклика, параметры шкалы | Отрицательный обратный | ||
Гамма | |||||
Обратный Гауссовский | настоящий: | Обратный в квадрате | |||
Пуассон | целое число: | количество вхождений в фиксированный промежуток времени/пространства | Бревно | ||
Бернулли | целое число: | результат единичного события да/нет | Логит | ||
Биномиальный | целое число: | количество вхождений «да» из N вхождений «да/нет» | |||
Категорический | целое число: | результат единичного K возникновения -пути | |||
K -вектор целого числа: , где ровно один элемент вектора имеет значение 1 | |||||
Полиномиальный | K -вектор целого числа: | количество вхождений разных типов (1, ..., K ) из N общего числа K вхождений -способа |
В случаях экспоненциального и гамма-распределений область канонической функции связи не совпадает с разрешенным диапазоном среднего значения. В частности, линейный предиктор может быть положительным, что дало бы невозможное отрицательное среднее значение. При максимизации вероятности необходимо принять меры предосторожности, чтобы избежать этого. Альтернативой является использование неканонической функции ссылки.
В случае распределений Бернулли, биномиального, категориального и полиномиального распределения поддержка распределений не является тем же типом данных, что и прогнозируемый параметр. Во всех этих случаях прогнозируемый параметр представляет собой одну или несколько вероятностей, то есть действительные числа в диапазоне . Полученная модель известна как логистическая регрессия (или полиномиальная логистическая регрессия в случае, когда K прогнозируются -образные, а не двоичные значения).
Для распределений Бернулли и биномиального распределения параметром является одна вероятность, указывающая вероятность возникновения одного события. Модель Бернулли по-прежнему удовлетворяет основному условию обобщенной линейной модели: даже если единственный результат всегда будет либо 0, либо 1, ожидаемое значение , тем не менее, будет действительной вероятностью, то есть вероятностью появления ответа «да». (или 1) результат. Аналогично, в биномиальном распределении ожидаемое значение равно Np , т.е. ожидаемая доля результатов «да» будет вероятностью, которую следует предсказать.
Для категориальных и полиномиальных распределений прогнозируемый параметр представляет собой K -вектор вероятностей с дополнительным ограничением, согласно которому сумма всех вероятностей должна составлять 1. Каждая вероятность указывает вероятность появления одного из K возможных значений. Для полиномиального распределения и векторной формы категориального распределения ожидаемые значения элементов вектора могут быть связаны с предсказанными вероятностями аналогично биномиальному распределению и распределению Бернулли.
Установка [ править ]
Максимальная вероятность [ править ]
Оценки максимального правдоподобия можно найти с помощью итеративно перевзвешенного алгоритма наименьших квадратов или метода Ньютона с обновлениями формы:
где — наблюдаемая информационная матрица (отрицательная часть матрицы Гессе ) и – функция оценки ; или оценки Фишера метод :
где – информационная матрица Фишера . Обратите внимание: если используется функция канонической ссылки, то они одинаковы. [3]
Байесовские методы [ править ]
В общем, апостериорное распределение невозможно найти в замкнутой форме , поэтому его необходимо аппроксимировать, обычно с использованием аппроксимации Лапласа или какого-либо типа метода Монте-Карло с использованием цепей Маркова, такого как выборка Гиббса .
Примеры [ править ]
Общие линейные модели [ править ]
Возможная путаница связана с различием между обобщенными линейными моделями и общими линейными моделями , двумя широкими статистическими моделями. Соавтор Джон Нелдер выразил сожаление по поводу этой терминологии. [4]
Общую линейную модель можно рассматривать как частный случай обобщенной линейной модели с тождественной связью и нормально распределенными откликами. Поскольку наиболее точные интересующие нас результаты получены только для общей линейной модели, общая линейная модель претерпела несколько более длительное историческое развитие. Результаты для обобщенной линейной модели с нетождественной связью являются асимптотическими (имеют тенденцию хорошо работать с большими выборками).
Линейная регрессия
Простой и очень важный пример обобщенной линейной модели (также пример общей линейной модели) — линейная регрессия . В линейной регрессии использование метода наименьших квадратов оправдано теоремой Гаусса-Маркова , которая не предполагает, что распределение нормальное.
Однако с точки зрения обобщенных линейных моделей полезно предположить, что функция распределения — это нормальное распределение с постоянной дисперсией, а функция связи — это тождество, которое является канонической связью, если дисперсия известна. При этих предположениях оценка методом наименьших квадратов получается как оценка параметра максимального правдоподобия.
Для нормального распределения обобщенная линейная модель имеет выражение в замкнутом виде для оценок максимального правдоподобия, что удобно. В большинстве других GLM отсутствуют оценки в закрытой форме .
Двоичные данные [ править ]
Когда данные ответа Y являются двоичными (принимают только значения 0 и 1), функция распределения обычно выбирается как распределение Бернулли , и интерпретация µ i тогда является вероятностью p , того, что Y i принимает значение один.
Существует несколько популярных функций связи для биномиальных функций.
Функция логической связи [ править ]
Наиболее типичной функцией ссылки является каноническая логит- ссылка:
GLM с такой настройкой представляют собой модели логистической регрессии (или логит-модели ).
Функция пробит-связи как популярный выбор обратной кумулятивной функции распределения
В качестве альтернативы для канала можно использовать обратную функцию любой непрерывной кумулятивной функции распределения (CDF), поскольку диапазон CDF равен , диапазон биномиального среднего. Обычный CDF является популярным выбором и дает пробит-модель . Его ссылка
Причина использования пробит-модели заключается в том, что постоянное масштабирование входной переменной до нормального CDF (которое можно получить за счет эквивалентного масштабирования всех параметров) дает функцию, практически идентичную логит-функции, но пробит-функцию. в некоторых ситуациях модели более удобны, чем логит-модели. (В байесовской настройке, в которой нормально распределенные априорные распределения помещаются в параметры, связь между нормальными априорными значениями и нормальной функцией связи CDF означает, что пробит-модель может быть вычислена с использованием выборки Гиббса , тогда как логит-модель обычно не может быть вычислена.)
Дополнительный журнал-журнал (cloglog) [ править ]
Также может использоваться дополнительная функция log-log:
Эта функция связи асимметрична и часто дает результаты, отличные от функций связи логит и пробит. [5] Модель cloglog соответствует приложениям, в которых мы наблюдаем либо ноль событий (например, дефекты), либо одно или несколько событий, где предполагается, что количество событий соответствует распределению Пуассона . [6] Предположение Пуассона означает, что
где μ — положительное число, обозначающее ожидаемое количество событий. Если p представляет долю наблюдений хотя бы с одним событием, его дополнение
а потом
Линейная модель требует, чтобы переменная ответа принимала значения по всей реальной линии. Поскольку µ должно быть положительным, мы можем обеспечить это, взяв логарифм и позволив log( µ ) быть линейной моделью. Это приводит к преобразованию «cloglog».
Ссылка на личность [ править ]
Тождественная связь g(p) = p также иногда используется для биномиальных данных, чтобы получить линейную вероятностную модель . Однако идентификационная связь может предсказывать бессмысленные «вероятности» меньше нуля или больше единицы. Этого можно избежать, используя такие преобразования, как cloglog, probit или logit (или любую обратную кумулятивную функцию распределения). Основное достоинство тождественной связи состоит в том, что ее можно оценить с помощью линейной математики, а другие стандартные функции связи приблизительно линейны, согласуясь с тождественной связью вблизи p = 0,5.
Функция дисперсии [ править ]
Функция дисперсии для " квазибиномиальные » данные:
где параметр дисперсии τ равен ровно 1 для биномиального распределения. Действительно, стандартная биномиальная вероятность опускает τ . Когда оно присутствует, модель называется «квазибиномиальной», а модифицированное правдоподобие называется квазиправдоподобием , поскольку обычно оно не является правдоподобием, соответствующим какому-либо реальному семейству вероятностных распределений. Если τ превышает 1, говорят, что модель демонстрирует сверхдисперсию .
регрессия Полиномиальная
Биномиальный случай можно легко расширить, чтобы учесть полиномиальное распределение в качестве ответа (также обобщенную линейную модель для подсчетов с ограниченным итогом). Обычно это делается двумя способами:
Заказной ответ [ править ]
Если переменная ответа порядковая , то можно использовать модельную функцию вида:
для m > 2. Различные связи g приводят к порядковой регрессии, моделям таким как модели пропорциональных шансов или модели упорядоченной пробита .
Неупорядоченный ответ [ править ]
Если переменная ответа является номинальным измерением или данные не удовлетворяют предположениям упорядоченной модели, можно использовать модель следующей формы:
для m > 2. Различные связи g приводят к полиномиальным логит- или полиномиальным пробит- моделям. Они более общие, чем модели упорядоченного ответа, и оцениваются больше параметров.
Данные подсчета [ править ]
Другой пример обобщенных линейных моделей включает регрессию Пуассона , которая моделирует подсчет данных с использованием распределения Пуассона . Ссылка обычно представляет собой логарифм, каноническую ссылку.
Функция дисперсии пропорциональна среднему значению
где параметр дисперсии τ обычно равен единице. Если это не так, результирующую модель квазиправдоподобия часто называют пуассоновской со сверхдисперсией или квазипуассоновской .
Расширения [ править ]
кластеризованные или Коррелированные
Стандарт GLM предполагает, что наблюдения некоррелированы . Были разработаны расширения, позволяющие коррелировать между наблюдениями, как это происходит, например, в продольных исследованиях и кластерных планах:
- Обобщенные уравнения оценки (GEE) допускают корреляцию между наблюдениями без использования явной вероятностной модели происхождения корреляций, поэтому явная вероятность отсутствует . Они подходят, когда случайные эффекты и их дисперсии не представляют интереса, поскольку допускают корреляцию, не объясняя ее происхождения. Основное внимание уделяется оценке средней реакции по популяции («среднепопуляционные» эффекты), а не параметрам регрессии, которые позволили бы предсказать эффект изменения одного или нескольких компонентов X на данного человека. GEE обычно используются вместе со стандартными ошибками Хубера-Уайта . [7] [8]
- Обобщенные линейные смешанные модели (GLMM) являются расширением GLM, которое включает случайные эффекты в линейный предиктор, предоставляя явную вероятностную модель, объясняющую происхождение корреляций. Полученные в результате оценки параметров, специфичные для конкретного субъекта, подходят, когда основное внимание уделяется оценке влияния изменения одного или нескольких компонентов X на данного человека. GLMM также называют многоуровневыми моделями и смешанными моделями . В целом, подгонка GLMM является более сложной и трудоемкой в вычислительном отношении, чем подгонка GEE.
Обобщенные аддитивные модели [ править ]
Обобщенные аддитивные модели (GAM) являются еще одним расширением GLM, в котором линейный предиктор η не ограничен линейностью по ковариатам X , но представляет собой сумму функций сглаживания, применяемых к x i s:
Функции сглаживания f i оцениваются по данным. Как правило, это требует большого количества точек данных и требует больших вычислительных ресурсов. [9] [10]
См. также [ править ]
- Методика моделирования реагирования
- Сравнение общих и обобщенных линейных моделей – Статистическая линейная модель.
- Дробная модель
- Обобщенная модель линейного массива - модель, используемая для анализа наборов данных со структурами массива.
- GLIM (программное обеспечение) - статистическая программа для подбора обобщенных линейных моделей.
- Квазидисперсия
- Естественное экспоненциальное семейство - класс вероятностных распределений, который является частным случаем экспоненциального семейства.
- Распределение Твиди - семейство вероятностных распределений
- Функции дисперсии — функция сглаживания в статистике.
- Векторная обобщенная линейная модель (VGLM)
- Обобщенное оценочное уравнение
Ссылки [ править ]
Цитаты [ править ]
- ^ Нелдер, Джон ; Веддерберн, Роберт (1972). «Обобщенные линейные модели». Журнал Королевского статистического общества. Серия А (Общая) . 135 (3). Издательство Блэквелл: 370–384. дои : 10.2307/2344614 . JSTOR 2344614 . S2CID 14154576 .
- ^ МакКаллах и Нелдер 1989 , Глава 2.
- ^ МакКаллах и Нелдер 1989 , стр. 43.
- ^ Сенн, Стивен (2003). «Разговор с Джоном Нелдером» . Статистическая наука . 18 (1): 118–131. дои : 10.1214/ss/1056397489 .
Я подозреваю, что нам следовало бы найти для нее какое-то более причудливое название, которое прижилось бы и не путалось бы с общей линейной моделью, хотя «генеральное» и «обобщенное» — не совсем одно и то же. Я понимаю, почему, возможно, было бы лучше подумать о чем-то другом.
- ^ «Дополнительная логарифмическая модель» (PDF) .
- ^ «Какая функция связи — Logit, Probit или Cloglog?» . Байесиум Аналитика . 14 августа 2015 г. Проверено 17 марта 2019 г.
- ^ Зегер, Скотт Л .; Лян, Кунг-Йи ; Альберт, Пол С. (1988). «Модели для продольных данных: подход с использованием обобщенного уравнения оценки». Биометрия . 44 (4). Международное биометрическое общество: 1049–1060. дои : 10.2307/2531734 . JSTOR 2531734 . ПМИД 3233245 .
- ^ Хардин, Джеймс; Хильбе, Джозеф (2003). Обобщенные оценочные уравнения . Лондон, Англия: Чепмен и Холл/CRC. ISBN 1-58488-307-3 .
- ^ Хасти и Тибширани 1990 .
- ^ Вуд 2006 .
Библиография [ править ]
- Хасти, Ти Джей ; Тибширани, Р.Дж. (1990). Обобщенные аддитивные модели . Чепмен и Холл/CRC. ISBN 978-0-412-34390-2 .
- Мэдсен, Хенрик; Тирегод, Пол (2011). Введение в общие и обобщенные линейные модели . Чепмен и Холл/CRCC. ISBN 978-1-4200-9155-7 .
- МакКаллах, Питер ; Нелдер, Джон (1989). Обобщенные линейные модели (2-е изд.). Бока-Ратон , Флорида: Чепмен и Холл/CRC. ISBN 0-412-31760-5 .
- Вуд, Саймон (2006). Обобщенные аддитивные модели: введение в R. Чепмен и Холл/CRC. ISBN 1-58488-474-6 .
Дальнейшее чтение [ править ]
- Данн, ПК; Смит, ГК (2018). Обобщенные линейные модели с примерами в R. Нью-Йорк: Спрингер. дои : 10.1007/978-1-4419-0118-7 . ISBN 978-1-4419-0118-7 .
- Добсон, Эй Джей; Барнетт, AG (2008). Введение в обобщенные линейные модели (3-е изд.). Бока-Ратон, Флорида: Чепмен и Холл/CRC. ISBN 978-1-58488-165-0 .
- Хардин, Джеймс; Хильбе, Джозеф (2007). Обобщенные линейные модели и расширения (2-е изд.). Колледж-Стейшн: Stata Press. ISBN 978-1-59718-014-6 .
Внешние ссылки [ править ]
- СМИ, связанные с обобщенными линейными моделями, на Викискладе?