Обобщенная аддитивная модель

В статистике обобщенная аддитивная модель (GAM) представляет собой обобщенную линейную модель , в которой переменная линейного отклика линейно зависит от неизвестных гладких функций некоторых переменных-предсказателей, и интерес сосредотачивается на выводах об этих гладких функциях.

Первоначально GAM были разработаны Тревором Хасти и Робертом Тибширани. ^[1] объединить свойства обобщенных линейных моделей с аддитивными моделями . Их можно интерпретировать как дискриминативное обобщение наивной генеративной модели Байеса . ^[2]

Модель связывает одномерную переменную ответа Y с некоторыми переменными-предикторами x _i . Для Y указывается экспоненциальное семейное распределение (например, нормальное , биномиальное распределение или распределение Пуассона ) вместе с функцией связи g (например, функцией идентичности или журналирования), связывающей ожидаемое значение Y с переменными-предикторами через такую структуру, как

g(\operatorname {E} (Y))=\beta _{0}+f_{1}(x_{1})+f_{2}(x_{2})+\cdots +f_{m}(x_{m}).\,\!

Функции f _i могут быть функциями заданной параметрической формы (например, полиномом или нештрафным сплайном регрессии переменной) или могут быть заданы непараметрически или полупараметрически, просто как «гладкие функции», чтобы быть оценена непараметрическими методами . Таким образом, типичный GAM может использовать функцию сглаживания диаграммы рассеяния, например локально взвешенное среднее значение, для f ₁ ( x ₁ ), а затем использовать факторную модель для f ₂ ( x ₂ ). Эта гибкость, позволяющая осуществлять непараметрическую аппроксимацию со смягченными предположениями о фактической взаимосвязи между ответом и предиктором, обеспечивает возможность лучшего соответствия данным, чем чисто параметрические модели, но, возможно, с некоторой потерей интерпретируемости.

Теоретическая основа

С 1950-х годов было известно (через теорему о представлении Колмогорова-Арнольда ), что любая непрерывная многомерная функция может быть представлена как суммы и композиции одномерных функций.

f({\vec {x}})=\sum _{q=0}^{2n}\Phi _{q}\left(\sum _{p=1}^{n}\phi _{q,p}(x_{p})\right)

.

К сожалению, хотя теорема о представлении Колмогорова–Арнольда утверждает существование функции такого вида, она не дает механизма, с помощью которого ее можно было бы построить. Существуют определенные конструктивные доказательства, но они, как правило, требуют очень сложных (т.е. фрактальных) функций и, следовательно, не подходят для подходов моделирования. Таким образом, обобщенная аддитивная модель ^[1] отбрасывает внешнюю сумму и вместо этого требует, чтобы функция принадлежала более простому классу,

f({\vec {x}})=\Phi \left(\sum _{p=1}^{n}\phi _{p}(x_{p})\right)

.

где $\Phi$ — гладкая монотонная функция. Письмо $g$ для обратного $\Phi$ , это традиционно пишется как

g(f({\vec {x}}))=\sum _{i}f_{i}(x_{i})

.

Когда эта функция аппроксимирует математическое ожидание некоторой наблюдаемой величины, ее можно записать как

g(\operatorname {E} (Y))=\beta _{0}+f_{1}(x_{1})+f_{2}(x_{2})+\cdots +f_{m}(x_{m}).\,\!

Это стандартная формулировка обобщенной аддитивной модели. Затем было показано ^[1]^{[ как? ]} что алгоритм обратного подгонки всегда будет сходиться для этих функций.

общность

Класс модели GAM довольно широк, учитывая, что гладкая функция — довольно широкая категория. Например, ковариата $x_{j}$ может быть многомерным и соответствующий $f_{j}$ гладкая функция нескольких переменных, или $f_{j}$ может быть функцией, сопоставляющей уровень фактора со значением случайного эффекта. Другим примером является термин с варьирующимся коэффициентом (географической регрессией), такой как $z_{j}f_{j}(x_{j})$ где $z_{j}$ и $x_{j}$ обе ковариаты. Или если $x_{j}(t)$ само по себе является наблюдением функции, мы могли бы включить такой термин, как $\int f_{j}(t)x_{j}(t)dt$ (иногда известный как термин регрессии сигнала). $f_{j}$ также может быть простой параметрической функцией, которую можно использовать в любой обобщенной линейной модели. Класс модели был обобщен в нескольких направлениях, в частности, за пределы экспоненциального распределения семейных ответов, за пределы моделирования только среднего значения и за пределы одномерных данных. ^[3]^[4]^[5]

Методы подгонки GAM

Исходный метод подгонки GAM оценивал гладкие компоненты модели с использованием непараметрических сглаживателей (например, сглаживающих сплайнов или сглаживателей локальной линейной регрессии) с помощью алгоритма обратной подгонки . ^[1] Обратная подгонка работает путем итеративного сглаживания частичных остатков и представляет собой очень общий метод модульной оценки, позволяющий использовать широкий спектр методов сглаживания для оценки $f_{j}(x_{j})$ условия. Недостатком обратной подгонки является то, что ее трудно интегрировать с оценкой степени сглаживания условий модели, поэтому на практике пользователю приходится устанавливать их или выбирать между скромным набором заранее определенных уровней сглаживания.

Если $f_{j}(x_{j})$ представлены с использованием сглаживающих сплайнов ^[6] затем степень гладкости можно оценить как часть подбора модели с использованием обобщенной перекрестной проверки или с помощью метода ограниченного максимального правдоподобия (REML, иногда известного как «GML»), который использует двойственность между сплайновыми сглаживателями и гауссовскими случайными эффектами. ^[7] Этот полный сплайновый подход несет в себе $O(n^{3})$ вычислительные затраты, где $n$ — это количество наблюдений для переменной ответа, что делает ее несколько непрактичной для умеренно больших наборов данных. Более поздние методы решают эту проблему вычислительных затрат либо за счет предварительного уменьшения размера базы, используемой для сглаживания (снижения ранга), ^[8]^[9]^[10]^[11]^[12] или путем нахождения разреженных представлений сглаживаний с использованием марковских случайных полей , которые можно использовать для вычислений с помощью методов разреженной матрицы . ^[13] Эти более эффективные в вычислительном отношении методы используют GCV (или AIC или аналогичный) или REML или используют полностью байесовский подход для вывода о степени гладкости компонентов модели. Оценку степени гладкости с помощью REML можно рассматривать как эмпирический метод Байеса .

Альтернативный подход с особыми преимуществами в условиях больших размерностей заключается в использовании повышения , хотя для количественной оценки неопределенности обычно требуется начальная загрузка. ^[14]^[15] Было обнаружено, что GAM, подходящие с использованием мешков и повышения, обычно превосходят GAM, подходящие с использованием сплайновых методов. ^[16]

Рамки пониженного ранга

Многие современные реализации GAM и их расширений построены на подходе сглаживания уменьшенного ранга, поскольку он позволяет обоснованно оценивать гладкость сглаживания компонентов при сравнительно скромных вычислительных затратах, а также облегчает реализацию ряда расширений модели таким образом, что с другими методами сложнее. Проще говоря, идея состоит в том, чтобы заменить неизвестные гладкие функции в модели базисными разложениями.

f_{j}(x_{j})=\sum _{k=1}^{K_{j}}\beta _{jk}b_{jk}(x_{j})

где $b_{jk}(x_{j})$ — известные базисные функции, обычно выбираемые из-за хороших теоретических свойств аппроксимации (например, B-сплайны или тонкие пластинчатые сплайны пониженного ранга ), а $\beta _{jk}$ – это коэффициенты, которые необходимо оценить в рамках подбора модели. Базовый размер $K_{j}$ выбирается достаточно большим, чтобы мы ожидали, что оно будет соответствовать имеющимся данным (тем самым избегая систематической ошибки из-за чрезмерного упрощения модели), но достаточно малым, чтобы сохранить эффективность вычислений. Если $p=\sum _{j}K_{j}$ тогда вычислительные затраты на оценку модели таким способом будут составлять $O(np^{2})$ .

Обратите внимание, что $f_{j}$ идентифицируются только с точностью до члена-перехвата (мы можем добавить любую константу к $f_{1}$ вычитая его из $f_{2}$ вообще не меняя предсказаний модели), поэтому для устранения этой двусмысленности на гладкие члены необходимо наложить ограничения идентифицируемости. Самый резкий вывод о $f_{j}$ обычно получается с использованием ограничений суммы к нулю

\sum _{i}f_{j}(x_{ji})=0

т.е. настаивая на том, что сумма каждого $f_{j}$ оцениваемый по наблюдаемым значениям ковариаты, должен быть равен нулю. Такие линейные ограничения легче всего наложить путем перепараметризации на этапе настройки базиса: ^[11] поэтому ниже предполагается, что это было сделано.

Заменив все $f_{j}$ в модели с такими базисными расширениями мы превратили GAM в обобщенную линейную модель (GLM) с матрицей модели, которая просто содержит базисные функции, оцениваемые в наблюдаемых точках. $x_{j}$ ценности. Однако, поскольку базовые размеры, $K_{j}$ , были выбраны несколько большими, чем считается необходимым для данных, модель слишком параметризована и будет соответствовать данным, если ее оценивать как обычный GLM. Решение этой проблемы состоит в том, чтобы наказывать отклонения от гладкости в процессе подгонки модели, контролируя вес, придаваемый штрафам за сглаживание, с помощью параметров сглаживания. Например, рассмотрим ситуацию, в которой все сглаживания являются одномерными функциями. Записав все параметры в один вектор, $\beta$ , предположим, что $D(\beta )$ это отклонение (удвоенная разница между насыщенным логарифмическим правдоподобием и логарифмическим правдоподобием модели) для модели. Минимизация отклонения с помощью обычного метода наименьших квадратов с итеративным перевзвешиванием приведет к переобучению, поэтому мы ищем $\beta$ минимизировать

D(\beta )+\sum _{j}\lambda _{j}\int f_{j}^{\prime \prime }(x)^{2}dx

где интегрированные квадратичные штрафы за вторую производную служат для наказания за подвижность (отсутствие плавности) $f_{j}$ во время подгонки и параметры сглаживания $\lambda _{j}$ контролировать компромисс между точностью подгонки модели и гладкостью модели. В примере $\lambda _{j}\to \infty$ будет гарантировать, что оценка $f_{j}(x_{j})$ была бы прямая линия в $x_{j}$ .

Учитывая расширение базиса для каждого $f_{j}$ штрафы за покачивание могут быть выражены в виде квадратичных форм коэффициентов модели. ^[11] То есть мы можем написать

\int f_{j}^{\prime \prime }(x)^{2}dx=\beta _{j}^{T}{\bar {S}}_{j}\beta _{j}=\beta ^{T}S_{j}\beta

,

где ${\bar {S}}_{j}$ представляет собой матрицу известных коэффициентов, вычислимых по штрафу и базису, $\beta _{j}$ – вектор коэффициентов для $f_{j}$ , и $S_{j}$ это просто ${\bar {S}}_{j}$ дополнен нулями, чтобы выполнялось второе равенство, и мы могли записать штраф в терминах полного вектора коэффициентов $\beta$ . Многие другие штрафы за сглаживание могут быть записаны таким же образом, и, учитывая параметры сглаживания, проблема подбора модели теперь становится

{\hat {\beta }}={\text{argmin}}_{\beta }\{D(\beta )+\sum _{j}\lambda _{j}\beta ^{T}S_{j}\beta \}

,

который можно найти с помощью штрафной версии обычного алгоритма наименьших квадратов с итеративным перевзвешиванием (IRLS) для GLM: алгоритм не изменяется, за исключением того, что сумма квадратичных штрафов добавляется к рабочей цели наименьших квадратов на каждой итерации алгоритма.

Пенализация имеет несколько эффектов на вывод по сравнению с обычным GLM. Во-первых, оценки подвержены некоторому сглаживающему смещению, которое является ценой, которую приходится платить за ограничение дисперсии оценок путем штрафов. Однако, если параметры сглаживания выбраны соответствующим образом, (квадратичная) ошибка сглаживания, вносимая штрафом, должна быть меньше, чем уменьшение дисперсии, которое оно производит, так что конечным эффектом является уменьшение среднеквадратической ошибки оценки по сравнению с отсутствием штрафа. Связанный с этим эффект штрафов заключается в том, что понятие степеней свободы модели необходимо изменить, чтобы учесть действие штрафов по уменьшению свободы изменения коэффициентов. Например, если $W$ - диагональная матрица весов IRLS при сходимости, и $X$ — матрица модели GAM, тогда эффективные степени свободы модели определяются выражением ${\text{trace}}(F)$ где

F=(X^{T}WX+\sum _{j}\lambda _{j}S_{j})^{-1}X^{T}WX

,

– матрица эффективных степеней свободы. ^[11] Фактически, суммируя только диагональные элементы $F$ соответствующие коэффициентам $f_{j}$ дает эффективные степени свободы для оценки $f_{j}$ .

Приоритеты байесовского сглаживания

Смещение сглаживания усложняет интервальную оценку для этих моделей, и оказывается, что самый простой подход включает байесовский подход. ^[17]^[18]^[19]^[20] Понимание этого байесовского взгляда на сглаживание также помогает понять подходы REML и полного Байеса к оценке параметров сглаживания. На каком-то уровне налагаются штрафы за сглаживание, поскольку мы считаем, что гладкие функции более вероятны, чем волнистые, и если это правда, то мы могли бы также формализовать это понятие, поместив априорное значение на подвижность модели. Очень простой априор может быть

\pi (\beta )\propto \exp\{-\beta ^{T}\sum _{j}\lambda _{j}S_{j}\beta /(2\phi )\}

(где $\phi$ — параметр шкалы GLM, введенный только для дальнейшего удобства), но мы можем сразу распознать это как многомерный нормальный априор со средним значением $0$ и прецизионная матрица $S_{\lambda }=\sum _{j}\lambda _{j}S_{j}/\phi$ . Поскольку штраф позволяет выполнять некоторые функции без штрафа (прямые линии, на примере штрафов), $S_{\lambda }$ имеет недостаточный ранг, а априорное значение фактически является неправильным, с ковариационной матрицей, заданной Мура-Пенроуза псевдообратной матрицей $S_{\lambda }$ (некорректность соответствует приписыванию бесконечной дисперсии нештрафным компонентам гладкого). ^[19]

Теперь, если этот априор объединить с вероятностью GLM, мы обнаружим, что апостериорная мода для $\beta$ это именно то ${\hat {\beta }}$ найдено выше с помощью оштрафованного IRLS. ^[19]^[11] Кроме того, у нас есть результат большой выборки, который

\beta |y\sim N({\hat {\beta }},(X^{T}WX+S_{\lambda })^{-1}\phi ).

который можно использовать для получения доверительных/достоверных интервалов для гладких компонентов, $f_{j}$ . Априорные принципы гауссовой гладкости также являются основой для полностью байесовского вывода с помощью GAM. ^[9] а также методы оценки GAM как смешанных моделей. ^[12]^[21] по сути, это эмпирические методы Байеса .

Оценка параметра сглаживания

До сих пор мы рассматривали оценку и вывод с учетом параметров сглаживания: $\lambda$ , но их также необходимо оценить. Один из подходов состоит в том, чтобы использовать полностью байесовский подход, определяя априорные значения параметров (логарифмического) сглаживания и используя методы стохастического моделирования или аппроксимации высокого порядка для получения информации об апостериорных значениях коэффициентов модели. ^[9]^[13] Альтернативой является выбор параметров сглаживания для оптимизации критерия ошибки прогнозирования, например, обобщенная перекрестная проверка (GCV) или Информационный критерий Акаике (AIC). ^[22] Наконец, мы можем выбрать максимизацию предельного правдоподобия (REML), полученного путем интегрирования коэффициентов модели: $\beta$ из общей плотности $\beta ,y$ ,

{\hat {\lambda }}={\text{argmax}}_{\lambda }\int f(y|\beta ,\lambda )\pi (\beta |\lambda )d\beta

.

С $f(y|\beta ,\lambda )$ это просто вероятность $\beta$ , мы можем рассматривать это как выбор $\lambda$ чтобы максимизировать среднюю вероятность случайного выбора из предыдущего. Предыдущий интеграл обычно аналитически трудноразрешим, но его можно аппроксимировать с достаточно высокой точностью, используя метод Лапласа . ^[21]

Вывод параметров сглаживания является наиболее трудоемкой частью оценки/вывода модели. Например, для оптимизации GCV или предельного правдоподобия обычно требуется численная оптимизация с помощью метода Ньютона или квазиньютона, при этом каждое пробное значение для вектора параметров (логарифмического) сглаживания требует штрафной итерации IRLS для оценки соответствующего значения. ${\hat {\beta }}$ наряду с другими компонентами оценки GCV или приблизительной предельной вероятности Лапласа (LAML). Кроме того, для получения производных GCV или LAML, необходимых для оптимизации, требуется неявное дифференцирование для получения производных ${\hat {\beta }}$ относительно параметров сглаживания журнала, и это требует некоторой осторожности, поскольку необходимо поддерживать эффективность и числовую стабильность. ^[21]

Программное обеспечение

Backfit GAM изначально были предоставлены gam функция в S, ^[23] теперь портирован на язык R как gam упаковка. Процесс SAS GAM также обеспечивает дооснащение GAM. Рекомендуемый пакет в R для GAM: mgcv, что означает смешанную вычислительную машину GAM , ^[11] который основан на подходе пониженного ранга с автоматическим выбором параметров сглаживания. Процесс SAS GAMPL это альтернативная реализация. В Python существует пакет PyGAM, функции которого аналогичны функциям mgcv из R. Альтернативно, есть InterpretML пакет, который реализует подход упаковки и повышения. ^[24] Существует множество альтернативных пакетов. Примеры включают пакеты R. mboost, ^[14] который реализует подход повышения; gss, который предоставляет все методы сглаживания сплайнов; ^[25] VGAM который предоставляет векторные GAM; ^[4] и gamlss, который предоставляет обобщенную аддитивную модель местоположения, масштаба и формы . BayesX а его интерфейс R предоставляет GAM и расширения через MCMC и методы штрафного правдоподобия. ^[26] INLA Программное обеспечение реализует полностью байесовский подход, основанный на представлениях марковских случайных полей с использованием методов разреженной матрицы. ^[13]

В качестве примера того, как модели можно оценивать на практике с помощью программного обеспечения, рассмотрим пакет R. mgcv. Предположим, что наше рабочее пространство R содержит векторы y , x и z , и мы хотим оценить модель

y_{i}=\beta _{0}+f_{1}(x_{i})+f_{2}(z_{i})+\epsilon _{i}{\text{ where }}\epsilon _{i}\sim N(0,\sigma ^{2}).

В R мы могли бы выполнять команды

library(mgcv)  # load the package
b = gam(y ~ s(x) + s(z))

Как и большинство функций моделирования R. gam ожидает, что будет предоставлена формула модели, определяющая подходящую структуру модели. Переменная ответа указана слева от ~ а спецификация линейного предиктора приведена справа. gam устанавливает базы и штрафы для сглаживающих членов, оценивает модель, включая ее параметры сглаживания, и, в стандартной манере R, возвращает подобранный объект модели , который затем можно запросить с помощью различных вспомогательных функций, таких как summary, plot, predict, и AIC.

В этом простом примере использовано несколько настроек по умолчанию, о которых важно знать. Например, предполагалось гауссово распределение и тождественную связь, а критерием выбора параметра сглаживания была GCV. Кроме того, гладкие члены были представлены с использованием «штрафных сплайнов регрессии тонких пластин», а размерность базиса для каждого была установлена равной 10 (что подразумевает максимум 9 степеней свободы после наложения ограничений на идентификацию). Второй пример иллюстрирует, как мы можем контролировать эти вещи. Предположим, что мы хотим оценить модель

y_{i}\sim {\text{Poi}}(\mu _{i}){\text{ where }}\log \mu _{i}=\beta _{0}+\beta _{1}x_{i}+f_{1}(t_{i})+f_{2}(v_{i},w_{i}).

используя выбор параметра сглаживания REML, и мы ожидаем, что $f_{1}$ это относительно сложная функция, которую мы хотели бы смоделировать с помощью штрафного сплайна кубической регрессии. Для $f_{2}$ мы также должны решить, будет ли $v$ и $w$ естественно, находятся в одном масштабе, поэтому подходит изотропный сглаживатель, такой как сплайн тонкой пластины (заданный через `s(v,w)'), или они действительно находятся в разных масштабах, так что нам нужны отдельные штрафы за сглаживание и параметры сглаживания для $v$ и $w$ как это предусмотрено тензорным произведением, более гладким. Предположим, что в данном случае мы выбрали последнее, тогда следующий R-код оценит модель

b1 = gam(y ~ x + s(t,bs="cr",k=100) + te(v,w),family=poisson,method="REML")

который использует базовый размер 100 для сглаживания $t$ . В спецификации функции распределения и связи используются «семейные» объекты, которые являются стандартными при подборе GLM в R или S. Обратите внимание, что к линейному предиктору также можно добавить гауссовские случайные эффекты.

Эти примеры предназначены только для того, чтобы дать общее представление о том, как используется программное обеспечение GAM. Более подробную информацию можно найти в документации к программному обеспечению для различных пакетов и в приведенных ниже ссылках. ^[11]^[25]^[4]^[23]^[14]^[26]

Проверка модели

Как и в случае с любой статистической моделью, важно проверить предположения модели GAM. Остаточные участки следует исследовать так же, как и для любого GLM. То есть остатки отклонений (или другие стандартизированные остатки) следует проверять на предмет закономерностей, которые могут указывать на существенное нарушение предположений модели о независимости или средней дисперсии. Обычно это включает в себя построение графика стандартизированных остатков против подобранных значений и ковариат для поиска проблем средней дисперсии или отсутствующего шаблона, а также может включать изучение коррелограмм (ACF) и/или вариограмм остатков для проверки на нарушение независимости. Если соотношение среднего и дисперсии модели правильное, то масштабированные остатки должны иметь примерно постоянную дисперсию. Обратите внимание: поскольку GLM и GAM можно оценить с использованием квазиправдоподобия , из этого следует, что детали распределения остатков за пределами отношения средней дисперсии имеют относительно небольшое значение.

Одной из проблем, которая более характерна для GAM, чем для других GLM, является опасность ошибочного заключения о том, что данные завышены до нуля. Трудность возникает, когда данные содержат много нулей, которые можно смоделировать с помощью Пуассона или бинома с очень низким ожидаемым значением: гибкость структуры GAM часто позволяет представить очень низкое среднее значение в некоторой области ковариатного пространства, но распределение стандартизированные остатки не будут выглядеть примерно так же нормально, как нас учат вводные курсы GLM, даже если модель совершенно правильна. ^[27]

Единственная дополнительная проверка, которую вводят GAM, — это необходимость проверить правильность выбранных степеней свободы. Это особенно остро проявляется при использовании методов, которые не оценивают гладкость компонентов модели автоматически. При использовании методов с автоматическим выбором параметров сглаживания все равно необходимо проверять, чтобы выбор базисной размерности не был ограниченно малым, хотя, если эффективные степени свободы оценки термина значительно ниже ее базисной размерности, то это маловероятно. В любом случае проверка $f_{j}(x_{j})$ основан на изучении закономерностей в остатках по отношению к $x_{j}$ . Это можно сделать, используя частичные остатки, наложенные на график ${\hat {f}}_{j}(x_{j})$ или использование перестановки остатков для построения тестов на остаточный шаблон.

Выбор модели

Когда параметры сглаживания оцениваются как часть подбора модели, тогда многое из того, что традиционно считается выбором модели, было включено в процесс подбора: при оценке параметров сглаживания уже осуществляется выбор между богатым семейством моделей различной функциональной сложности. Однако оценка параметра сглаживания обычно не удаляет гладкий член из модели полностью, поскольку большинство штрафов оставляют некоторые функции без штрафа (например, прямые линии не подвергаются штрафу из-за штрафа за производную сплайна, приведенного выше). Таким образом, остается вопрос о том, должен ли термин вообще присутствовать в модели. Одним из простых подходов к этой проблеме является добавление дополнительного штрафа к каждому гладкому члену в GAM, что штрафует те компоненты гладкости, которые в противном случае не подвергались бы штрафу (и только они). Каждый дополнительный штраф имеет свой собственный параметр сглаживания, и затем оценка продолжается, как и раньше, но теперь с возможностью того, что члены будут полностью оштрафованы до нуля. ^[28] В условиях больших размерностей, возможно, имеет смысл попытаться выполнить эту задачу, используя регуляризацию лассо или эластичной сети . Повышение также автоматически выполняет выбор терминов в рамках подгонки. ^[14]

Альтернативой является использование традиционных методов пошаговой регрессии для выбора модели. Это также метод по умолчанию, когда параметры сглаживания не оцениваются как часть аппроксимации, и в этом случае каждому члену сглаживания обычно разрешается принимать один из небольшого набора заранее определенных уровней сглаживания в модели, и они выбираются между ступенчатая мода. Пошаговые методы работают путем итеративного сравнения моделей с определенными терминами модели или без них (или, возможно, с разными уровнями сложности терминов) и требуют измерения соответствия модели или значимости термина, чтобы решить, какую модель выбрать на каждом этапе. Например, мы могли бы использовать p-значения для проверки каждого термина на равенство нулю, чтобы принять решение о терминах-кандидатах на удаление из модели, и мы могли бы сравнить значения информационного критерия Акаике (AIC) для альтернативных моделей.

Вычисление P-значения для сглаживаний не является простым из-за эффектов штрафов, но доступны приближения. ^[1]^[11] AIC для GAM можно рассчитать двумя способами. Маржинальный AIC основан на предельном правдоподобии (см. выше) с интегрированными коэффициентами модели. В этом случае штраф AIC основан на количестве параметров сглаживания (и любых параметров дисперсии) в модели. Однако из-за хорошо известного факта, что REML несопоставим между моделями с разными структурами фиксированных эффектов, мы обычно не можем использовать такой AIC для сравнения моделей с разными гладкими членами (поскольку их нештрафованные компоненты действуют как фиксированные эффекты). Основание AIC на предельном правдоподобии, в котором интегрированы только штрафные эффекты, возможно (количество нештрафованных коэффициентов теперь добавляется к числу параметров для штрафа AIC), но эта версия предельного правдоподобия страдает тенденцией к oversmooth, что послужило первоначальной мотивацией для разработки REML. Учитывая эти проблемы, GAM часто сравнивают с использованием условного AIC, в котором в AIC используется правдоподобие модели (а не предельное правдоподобие), а количество параметров принимается за эффективные степени свободы модели. ^[1]^[22]

Было показано, что наивные версии условного AIC в некоторых обстоятельствах с большой вероятностью выбирают более крупные модели, что связано с пренебрежением неопределенностью параметров сглаживания при вычислении эффективных степеней свободы. ^[29] однако исправление эффективных степеней свободы для этой проблемы восстанавливает приемлемую производительность. ^[3]

Предостережения

Переоснащение может быть проблемой для GAM, ^[22] особенно если имеется немоделированная остаточная автокорреляция или немоделированная сверхдисперсия . Перекрестная проверка может использоваться для обнаружения и/или уменьшения проблем переобучения с помощью GAM (или других статистических методов). ^[30] а программное обеспечение часто позволяет повысить уровень штрафов, чтобы обеспечить более плавную подгонку. Оценка очень большого количества параметров сглаживания также, вероятно, будет сложной задачей со статистической точки зрения, и известны тенденции к тому, что критерии ошибки прогнозирования (GCV, AIC и т. д.) иногда существенно снижают сглаживание, особенно при умеренных размерах выборки, при этом REML является несколько менее проблематичным в этом случае. внимание. ^[31]

Там, где это уместно, более простые модели, такие как GLM, могут быть предпочтительнее GAM, если только GAM существенно не улучшают способность прогнозирования (в наборах проверки) для рассматриваемого приложения.

См. также

Ссылки

^ Перейти обратно: ^а ^б ^с ^д ^и ^ж Хасти, Ти Джей; Тибширани, Р.Дж. (1990). Обобщенные аддитивные модели . Чепмен и Холл/CRC. ISBN 978-0-412-34390-2 .
^ Рубинштейн, Ю. Дэн; Хасти, Тревор (14 августа 1997 г.). «Дискриминативное и информативное обучение» . Материалы Третьей Международной конференции по обнаружению знаний и интеллектуальному анализу данных . КДД'97. Ньюпорт-Бич, Калифорния: AAAI Press: 49–53.
^ Перейти обратно: ^а ^б Вуд, С.Н.; Пья, Н.; Саефкен, Б. (2016). «Параметры сглаживания и выбор модели для общих гладких моделей (с обсуждением)». Журнал Американской статистической ассоциации . 111 (516): 1548–1575. arXiv : 1511.03864 . дои : 10.1080/01621459.2016.1180986 . S2CID 54802107 .
^ Перейти обратно: ^а ^б ^с Да, Томас (2015). Векторные обобщенные линейные и аддитивные модели . Спрингер. ISBN 978-1-4939-2817-0 .
^ Ригби, РА; Стасинопулос, DM (2005). «Обобщенные аддитивные модели местоположения, масштаба и формы (с обсуждением)» . Журнал Королевского статистического общества, серия C. 54 (3): 507–554. дои : 10.1111/j.1467-9876.2005.00510.x .
^ Вахба, Грейс. Сплайновые модели для данных наблюдений . СИАМ.
^ Гу, К.; Вахба, Г. (1991). «Минимизация оценок GCV/GML с помощью нескольких параметров сглаживания с помощью метода Ньютона» (PDF) . Журнал SIAM по научным и статистическим вычислениям . 12 (2): 383–398. дои : 10.1137/0912021 .
^ Вуд, С.Н. (2000). «Моделирование и оценка параметров сглаживания с множественными квадратичными штрафами» (PDF) . Журнал Королевского статистического общества . Серия Б. 62 (2): 413–428. дои : 10.1111/1467-9868.00240 . S2CID 15500664 .
^ Перейти обратно: ^а ^б ^с Фармайер, Л.; Ланг, С. (2001). «Байесовский вывод для обобщенных аддитивных смешанных моделей, основанных на априорах марковских случайных полей». Журнал Королевского статистического общества, серия C. 50 (2): 201–220. CiteSeerX 10.1.1.304.8706 . дои : 10.1111/1467-9876.00229 . S2CID 18074478 .
^ Ким, Ю.Дж.; Гу, К. (2004). «Сглаживающая сплайновая гауссова регрессия: более масштабируемые вычисления посредством эффективной аппроксимации» . Журнал Королевского статистического общества, серия B. 66 (2): 337–356. дои : 10.1046/j.1369-7412.2003.05316.x . S2CID 41334749 .
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час Вуд, СН (2017). Обобщенные аддитивные модели: введение в R (2-е изд.) . Чепмен и Холл/CRC. ISBN 978-1-58488-474-3 .
^ Перейти обратно: ^а ^б Руперт, Д.; Ванд, член парламента; Кэрролл, Р.Дж. (2003). Полупараметрическая регрессия . Издательство Кембриджского университета.
^ Перейти обратно: ^а ^б ^с Рю, Х.; Мартино, Сара; Шопен, Николя (2009). «Приближенный байесовский вывод для скрытых гауссовских моделей с использованием интегрированных вложенных аппроксимаций Лапласа (с обсуждением)» . Журнал Королевского статистического общества, серия B. 71 (2): 319–392. дои : 10.1111/j.1467-9868.2008.00700.x .
^ Перейти обратно: ^а ^б ^с ^д Шмид, М.; Хотхорн, Т. (2008). «Усиление аддитивных моделей с использованием покомпонентных P-сплайнов». Вычислительная статистика и анализ данных . 53 (2): 298–311. дои : 10.1016/j.csda.2008.09.009 .
^ Майр, А.; Фенске, Н.; Хофнер, Б.; Кнейб, Т.; Шмид, М. (2012). «Обобщенные аддитивные модели местоположения, масштаба и формы для многомерных данных - гибкий подход, основанный на повышении». Журнал Королевского статистического общества, серия C. 61 (3): 403–427. дои : 10.1111/j.1467-9876.2011.01033.x . S2CID 123646605 .
^ Лу, Инь; Каруана, Рич; Герке, Йоханнес (2012). «Понятные модели классификации и регрессии». Материалы 18-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных - KDD '12 . п. 150. дои : 10.1145/2339530.2339556 . ISBN 9781450314626 . S2CID 7715182 .
^ Вахба, Г. (1983). «Байесовские доверительные интервалы для сглаживающего сплайна с перекрестной проверкой» (PDF) . Журнал Королевского статистического общества, серия B. 45 : 133–150.
^ Нычка, Д. (1988). «Байесовские доверительные интервалы для сглаживания сплайнов». Журнал Американской статистической ассоциации . 83 (404): 1134–1143. дои : 10.1080/01621459.1988.10478711 .
^ Перейти обратно: ^а ^б ^с Сильверман, BW (1985). «Некоторые аспекты подхода к сглаживанию сплайнов для подбора кривой непараметрической регрессии (с обсуждением)» (PDF) . Журнал Королевского статистического общества, серия B. 47 : 1–53.
^ Марра, Г.; Вуд, С.Н. (2012). «Свойства покрытия доверительных интервалов для компонентов обобщенной аддитивной модели» (PDF) . Скандинавский статистический журнал . 39 : 53–74. дои : 10.1111/j.1467-9469.2011.00760.x . S2CID 49393564 .
^ Перейти обратно: ^а ^б ^с Вуд, С.Н. (2011). «Быстрая стабильная ограниченная оценка максимального правдоподобия и предельного правдоподобия полупараметрических обобщенных линейных моделей» (PDF) . Журнал Королевского статистического общества, серия B. 73 : 3–36. дои : 10.1111/j.1467-9868.2010.00749.x . S2CID 123001831 .
^ Перейти обратно: ^а ^б ^с Вуд, Саймон Н. (2008). «Быстрая стабильная прямая подгонка и выбор гладкости для обобщенных аддитивных моделей». Журнал Королевского статистического общества, серия B. 70 (3): 495–518. arXiv : 0709.3906 . дои : 10.1111/j.1467-9868.2007.00646.x . S2CID 17511583 .
^ Перейти обратно: ^а ^б Чемберс, Дж. М.; Хасти, Т. (1993). Статистические модели в S . Чепмен и Холл.
^ Нори, Харша; Дженкинс, Сэмюэл; Кох, Пол; Каруана, Рич (2019). «InterpretML: унифицированная платформа для интерпретируемости машинного обучения». arXiv : 1909.09223 [ cs.LG ].
^ Перейти обратно: ^а ^б Гу, Чонг (2013). Сглаживание сплайновых моделей ANOVA (2-е изд.) . Спрингер.
^ Перейти обратно: ^а ^б обращение, Николас; Адлер, Дэниел; Кнейб, Томас; Ланг, Стефан; Зейлейс, Ахим. «Модели структурированной аддитивной регрессии: интерфейс R для BayesX» (PDF) . Журнал статистического программного обеспечения . 63 (21): 1–46.
^ Огюстин, Нью-Хэмпшир; Соло, Э.А.; Вуд, С.Н. (2012). «О квантильных квантильных графиках для обобщенных линейных моделей» (PDF) . Вычислительная статистика и анализ данных . 56 (8): 2404–2409. дои : 10.1016/j.csda.2012.01.026 . S2CID 2960406 .
^ Марра, Г.; Вуд, С.Н. (2011). «Практический выбор переменных для обобщенных аддитивных моделей». Вычислительная статистика и анализ данных . 55 (7): 2372–2387. дои : 10.1016/j.csda.2011.02.004 .
^ Гревен, Соня; Кнейб, Томас (2010). «О поведении маргинального и условного AIC в линейных смешанных моделях». Биометрика . 97 (4): 773–789. doi : 10.1093/biomet/asq042 .
^ Брайан Юнкер (22 марта 2010 г.). «Аддитивные модели и перекрестная проверка» (PDF) .
^ Рейсс, ПТ; Огден, Т.Р. (2009). «Выбор параметров сглаживания для одного класса полупараметрических линейных моделей» . Журнал Королевского статистического общества, серия B. 71 (2): 505–523. дои : 10.1111/j.1467-9868.2008.00695.x . S2CID 51945597 .

Внешние ссылки

gam — пакет R для GAM путем обратной установки.
gam , модуль Python в модуле statsmodels.gam.
InterpretML — пакет Python для подгонки GAM посредством упаковки и повышения.
mgcv — пакет R для GAM, использующий штрафные сплайны регрессии.
mboost — пакет R для повышения производительности, включая аддитивные модели.
gss — пакет R для сглаживания сплайнового дисперсионного анализа.
Программное обеспечение INLA для байесовского вывода с использованием GAM и многого другого.
Программное обеспечение BayesX для MCMC и подходы с применением штрафного правдоподобия к GAM.
Волшебство и анализ сезонных временных рядов с помощью GAM в R
GAM: Серебряная пуля прогнозного моделирования
Построение GAM методом проекционного спуска

[Hastie1990-1] Перейти обратно: ^а ^б ^с ^д ^и ^ж Хасти, Ти Джей; Тибширани, Р.Дж. (1990). Обобщенные аддитивные модели . Чепмен и Холл/CRC. ISBN 978-0-412-34390-2 .

[2] Рубинштейн, Ю. Дэн; Хасти, Тревор (14 августа 1997 г.). «Дискриминативное и информативное обучение» . Материалы Третьей Международной конференции по обнаружению знаний и интеллектуальному анализу данных . КДД'97. Ньюпорт-Бич, Калифорния: AAAI Press: 49–53.

[Wood2016-3] Перейти обратно: ^а ^б Вуд, С.Н.; Пья, Н.; Саефкен, Б. (2016). «Параметры сглаживания и выбор модели для общих гладких моделей (с обсуждением)». Журнал Американской статистической ассоциации . 111 (516): 1548–1575. arXiv : 1511.03864 . дои : 10.1080/01621459.2016.1180986 . S2CID 54802107 .

[Yee2015-4] Перейти обратно: ^а ^б ^с Да, Томас (2015). Векторные обобщенные линейные и аддитивные модели . Спрингер. ISBN 978-1-4939-2817-0 .

[Rigby2005-5] Ригби, РА; Стасинопулос, DM (2005). «Обобщенные аддитивные модели местоположения, масштаба и формы (с обсуждением)» . Журнал Королевского статистического общества, серия C. 54 (3): 507–554. дои : 10.1111/j.1467-9876.2005.00510.x .

[Wahba1990-6] Вахба, Грейс. Сплайновые модели для данных наблюдений . СИАМ.

[Gu1991-7] Гу, К.; Вахба, Г. (1991). «Минимизация оценок GCV/GML с помощью нескольких параметров сглаживания с помощью метода Ньютона» (PDF) . Журнал SIAM по научным и статистическим вычислениям . 12 (2): 383–398. дои : 10.1137/0912021 .

[Wood2000-8] Вуд, С.Н. (2000). «Моделирование и оценка параметров сглаживания с множественными квадратичными штрафами» (PDF) . Журнал Королевского статистического общества . Серия Б. 62 (2): 413–428. дои : 10.1111/1467-9868.00240 . S2CID 15500664 .

[Fahrmeier2001-9] Перейти обратно: ^а ^б ^с Фармайер, Л.; Ланг, С. (2001). «Байесовский вывод для обобщенных аддитивных смешанных моделей, основанных на априорах марковских случайных полей». Журнал Королевского статистического общества, серия C. 50 (2): 201–220. CiteSeerX 10.1.1.304.8706 . дои : 10.1111/1467-9876.00229 . S2CID 18074478 .

[kim2004-10] Ким, Ю.Дж.; Гу, К. (2004). «Сглаживающая сплайновая гауссова регрессия: более масштабируемые вычисления посредством эффективной аппроксимации» . Журнал Королевского статистического общества, серия B. 66 (2): 337–356. дои : 10.1046/j.1369-7412.2003.05316.x . S2CID 41334749 .

[Wood2017-11] Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час Вуд, СН (2017). Обобщенные аддитивные модели: введение в R (2-е изд.) . Чепмен и Холл/CRC. ISBN 978-1-58488-474-3 .

[Ruppert2003-12] Перейти обратно: ^а ^б Руперт, Д.; Ванд, член парламента; Кэрролл, Р.Дж. (2003). Полупараметрическая регрессия . Издательство Кембриджского университета.

[Rue2009-13] Перейти обратно: ^а ^б ^с Рю, Х.; Мартино, Сара; Шопен, Николя (2009). «Приближенный байесовский вывод для скрытых гауссовских моделей с использованием интегрированных вложенных аппроксимаций Лапласа (с обсуждением)» . Журнал Королевского статистического общества, серия B. 71 (2): 319–392. дои : 10.1111/j.1467-9868.2008.00700.x .

[mboost-14] Перейти обратно: ^а ^б ^с ^д Шмид, М.; Хотхорн, Т. (2008). «Усиление аддитивных моделей с использованием покомпонентных P-сплайнов». Вычислительная статистика и анализ данных . 53 (2): 298–311. дои : 10.1016/j.csda.2008.09.009 .

[mayr2012-15] Майр, А.; Фенске, Н.; Хофнер, Б.; Кнейб, Т.; Шмид, М. (2012). «Обобщенные аддитивные модели местоположения, масштаба и формы для многомерных данных - гибкий подход, основанный на повышении». Журнал Королевского статистического общества, серия C. 61 (3): 403–427. дои : 10.1111/j.1467-9876.2011.01033.x . S2CID 123646605 .

[LouCaruana2012-16] Лу, Инь; Каруана, Рич; Герке, Йоханнес (2012). «Понятные модели классификации и регрессии». Материалы 18-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных - KDD '12 . п. 150. дои : 10.1145/2339530.2339556 . ISBN 9781450314626 . S2CID 7715182 .

[Wahba83-17] Вахба, Г. (1983). «Байесовские доверительные интервалы для сглаживающего сплайна с перекрестной проверкой» (PDF) . Журнал Королевского статистического общества, серия B. 45 : 133–150.

[Nychka88-18] Нычка, Д. (1988). «Байесовские доверительные интервалы для сглаживания сплайнов». Журнал Американской статистической ассоциации . 83 (404): 1134–1143. дои : 10.1080/01621459.1988.10478711 .

[silverman85-19] Перейти обратно: ^а ^б ^с Сильверман, BW (1985). «Некоторые аспекты подхода к сглаживанию сплайнов для подбора кривой непараметрической регрессии (с обсуждением)» (PDF) . Журнал Королевского статистического общества, серия B. 47 : 1–53.

[marra12-20] Марра, Г.; Вуд, С.Н. (2012). «Свойства покрытия доверительных интервалов для компонентов обобщенной аддитивной модели» (PDF) . Скандинавский статистический журнал . 39 : 53–74. дои : 10.1111/j.1467-9469.2011.00760.x . S2CID 49393564 .

[Wood2011-21] Перейти обратно: ^а ^б ^с Вуд, С.Н. (2011). «Быстрая стабильная ограниченная оценка максимального правдоподобия и предельного правдоподобия полупараметрических обобщенных линейных моделей» (PDF) . Журнал Королевского статистического общества, серия B. 73 : 3–36. дои : 10.1111/j.1467-9868.2010.00749.x . S2CID 123001831 .

[Wood2008-22] Перейти обратно: ^а ^б ^с Вуд, Саймон Н. (2008). «Быстрая стабильная прямая подгонка и выбор гладкости для обобщенных аддитивных моделей». Журнал Королевского статистического общества, серия B. 70 (3): 495–518. arXiv : 0709.3906 . дои : 10.1111/j.1467-9868.2007.00646.x . S2CID 17511583 .

[whitebook-23] Перейти обратно: ^а ^б Чемберс, Дж. М.; Хасти, Т. (1993). Статистические модели в S . Чепмен и Холл.

[Nori2019-24] Нори, Харша; Дженкинс, Сэмюэл; Кох, Пол; Каруана, Рич (2019). «InterpretML: унифицированная платформа для интерпретируемости машинного обучения». arXiv : 1909.09223 [ cs.LG ].

[Gu2013-25] Перейти обратно: ^а ^б Гу, Чонг (2013). Сглаживание сплайновых моделей ANOVA (2-е изд.) . Спрингер.

[bayesx-26] Перейти обратно: ^а ^б обращение, Николас; Адлер, Дэниел; Кнейб, Томас; Ланг, Стефан; Зейлейс, Ахим. «Модели структурированной аддитивной регрессии: интерфейс R для BayesX» (PDF) . Журнал статистического программного обеспечения . 63 (21): 1–46.

[Augustin2012-27] Огюстин, Нью-Хэмпшир; Соло, Э.А.; Вуд, С.Н. (2012). «О квантильных квантильных графиках для обобщенных линейных моделей» (PDF) . Вычислительная статистика и анализ данных . 56 (8): 2404–2409. дои : 10.1016/j.csda.2012.01.026 . S2CID 2960406 .

[Marra2011-28] Марра, Г.; Вуд, С.Н. (2011). «Практический выбор переменных для обобщенных аддитивных моделей». Вычислительная статистика и анализ данных . 55 (7): 2372–2387. дои : 10.1016/j.csda.2011.02.004 .

[Greven2010-29] Гревен, Соня; Кнейб, Томас (2010). «О поведении маргинального и условного AIC в линейных смешанных моделях». Биометрика . 97 (4): 773–789. doi : 10.1093/biomet/asq042 .

[30] Брайан Юнкер (22 марта 2010 г.). «Аддитивные модели и перекрестная проверка» (PDF) .

[Reiss2009-31] Рейсс, ПТ; Огден, Т.Р. (2009). «Выбор параметров сглаживания для одного класса полупараметрических линейных моделей» . Журнал Королевского статистического общества, серия B. 71 (2): 505–523. дои : 10.1111/j.1467-9868.2008.00695.x . S2CID 51945597 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]