Векторная обобщенная линейная модель
Эта статья в значительной степени или полностью опирается на один источник . ( июнь 2020 г. ) |
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике класс векторных обобщенных линейных моделей ( VGLM был предложен ). расширить диапазон моделей, обслуживаемых обобщенными линейными моделями ( GLM ).В частности, VGLM допускают переменные отклика, выходящие за рамки классического экспоненциального семейства. и для более чем одного параметра. Каждый параметр (не обязательно среднее) можно преобразовать с помощью функции связи .Структура VGLM также достаточно велика, чтобы естественным образом вместить несколько ответов; этонесколько независимых ответов, каждый из которых исходит из определенного статистического распределения свозможно, разные значения параметров.
Векторные обобщенные линейные модели подробно описаны в Yee (2015). [1] Центральным принятым алгоритмом является наименьших квадратов с итеративным перевзвешиванием метод .для оценки максимального правдоподобия обычно всех параметров модели. В частности, Скоринг Фишера реализован таким образом, что для большинства моделейиспользует первую и ожидаемую вторую производные функции логарифмического правдоподобия.
Мотивация
[ редактировать ]GLM по существу охватывают однопараметрические модели из классического экспоненциального семейства .и включают 3 наиболее важные модели статистической регрессии:линейная модель, регрессия Пуассона для подсчетов и логистическая регрессиядля двоичных ответов.Однако экспоненциальное семейство слишком ограничено для регулярного анализа данных.Например, для подсчетов регулярно используются нулевая инфляция, нулевое усечение и чрезмерная дисперсия.и временные адаптации, сделанные к биномиальному иМодели Пуассона в виде квазибиномиальной иКвази-Пуассон можно назвать ad hoc и неудовлетворительным.Но структура VGLM легко обрабатывает такие модели, как нулевая регрессия Пуассона,регрессия Пуассона (препятствия) с нулевым изменением,положительная регрессия Пуассона и отрицательная биномиальная регрессия.Другой пример: для линейной модели:дисперсия нормального распределения снижается как параметр масштаба и рассматриваетсячасто как неприятный параметр (если он вообще считается параметром).Но структура VGLM позволяет моделировать дисперсию с использованием ковариат.
В целом, VGLM можно рассматривать как GLM, которые обрабатывают множество моделей. вне классического экспоненциального семейства и не ограничиваются оценкой одно среднее.Во время оценкивместо использования взвешенных наименьших квадратов во время IRLS обработки для корреляция между M линейными предикторами.
Данные и обозначения
[ редактировать ]Мы предполагаем, что ответ или результат, или зависимая переменная (и), , предполагается, что они генерируются из определенного распределения . Большинство распределений одномерны, так что и пример — двумерное нормальное распределение.
Иногда мы записываем наши данные как для . Каждое из n наблюдений считаетсянезависимый.Затем . известны положительные априорные веса и часто .
Независимые переменные записываются , или когда я нужен, как .Обычно происходит перехват , в этом случае или .
Фактически, структура VGLM допускает S ответов, каждое из измерений .Выше S = 1. Следовательно, размерность в более общем плане . Один обрабатывает S- ответы с помощью такого кода:как vglm(cbind(y1, y2, y3) ~ x2 + x3, ..., data = mydata)
для S = 3.Для упрощения в большей части этой статьи S = 1.
Компоненты модели
[ редактировать ]VGLM обычно состоит из четырех элементов:
- 1. Функция плотности вероятности или функция массы вероятности из некоторого статистического распределения, имеющего логарифмическое правдоподобие. , первые производные и матрица ожидаемой информации , которую можно вычислить. Модель должна удовлетворять обычным условиям регулярности MLE .
- 2. Линейные предикторы описано ниже для моделирования каждого параметра ,
- 3. Функции связи такой, что
- 4. Матрицы ограничений для каждый полного ранга столбца и известен.
Линейные предикторы
[ редактировать ]Каждый линейный предиктор представляет собой величину, которая включает в себяинформацию о независимых переменных в модель. Символ ( греческое « эта ») обозначает линейный предиктор, а индекс j используется для обозначения j- го предиктора. Он связывает j -й параметр с объясняющими переменными, и выражается в виде линейных комбинаций (таким образом, «линейных») неизвестных параметров т. е. коэффициентов регрессии .
-й параметр j , , распределения зависит от независимые переменные, через
Позволять быть векторомвсе линейные предикторы. (Для удобства мы всегда позволяем иметь размерность М ).Таким образом, все ковариаты, включающие потенциально влиять на все параметры через линейные предикторы . Позже мы разрешим обобщить линейные предикторы до аддитивных предикторов, которые представляют собой сумму гладких функций каждого и каждая функция оценивается на основе данных.
Функции связи
[ редактировать ]Каждая функция связи обеспечивает связь между линейным предиктором и параметр распределения. Существует множество часто используемых функций ссылок, и их выбор может быть несколько произвольным. Имеет смысл попытаться сопоставить домен функции ссылки с диапазон . значений параметра распределения Обратите внимание выше, что позволяет использовать разные функции связи для каждого параметра.Они обладают теми же свойствами, что и обобщенные линейные модели , например,общие функции ссылки включают ссылку на логит для параметров в ,и ссылку на журнал для положительных параметров. VGAM
пакет имеет функцию identitylink()
для параметров, которые могут принимать как положительные, так и отрицательные значения.
Матрицы ограничений
[ редактировать ]В более общем смысле, структура VGLM допускает любые линейные ограничения между коэффициентами регрессии. каждого линейного предиктора. Например, мы можем захотеть установить некоторые из них равными 0 или ограничить некоторые из них равными. У нас есть
где являются матрицами ограничений .Каждая матрица ограничений известна и заранее задана, имеет M строк и от 1 до M столбцов. Элементы матриц ограничений имеют конечные значения и часто равны 0 или 1.Например, значение 0 фактически исключает этот элемент, а значение 1 включает его.Для некоторых моделей характерно предположение о параллелизме , что означает, что для , идля некоторых моделей, для слишком.Особый случай, когда для все известно как тривиальные ограничения ; всекоэффициенты регрессии являются приблизительными и не связаны между собой.И известен как только для перехвата параметр если j - я строка всех равны для , то есть, равен только перехвату. Таким образом, параметры, предназначенные только для перехвата, моделируются максимально просто как скаляры.
Неизвестные параметры, , обычно оцениваются методом максимального правдоподобия .Все коэффициенты регрессии можно представить в виде матрицы следующим образом:
Объект Xij
[ редактировать ]В более общем плане можно разрешить значение переменной иметь разное значение для каждого .Например, если каждый линейный предиктор относится к разному моменту времени, томожно иметь изменяющуюся во времени ковариату.Например,в дискретного выбора моделях условные логит-модели, вложенные логит-модели, обобщенные логит-модели,и тому подобное, чтобы различать определенные варианты иподгоните полиномиальную логит-модель, например, к выбору транспорта.Такая переменная, как стоимость, различается в зависимости от выбора, например,такси дороже, чем автобус, который дороже, чем пешком. xij
объект VGAM
позволяетобобщать к .
Самая общая формула:
Здесь является необязательным смещением ; который переводитбыть матрица на практике. VGAM
пакет имеет xij
аргумент, позволяющийпоследовательные элементы диагональной матрицы, которые необходимо ввести.
Программное обеспечение
[ редактировать ]Йи (2015) [1] описывает R пакет реализация в называется ВГАМ. [2] В настоящее время это программное обеспечение подходит примерно для 150 моделей/дистрибутивов.Центральными функциями моделирования являются vglm()
и vgam()
. family
аргументу присвоена функция семейства VGAM ,например, family = negbinomial
для отрицательной биномиальной регрессии, family = poissonff
для Пуассона регрессии , family = propodds
для пропорциональной нечетной модели или кумулятивная логит-модель для порядковой категориальной регрессии.
Примерка
[ редактировать ]Максимальная вероятность
[ редактировать ]Мы максимизируем логарифмическую вероятность
где являются положительными и имеют известные априорные веса . Оценки максимального правдоподобия можно найти используя наименьших квадратов итеративно перевзвешенный алгоритм с использованием Метод оценки Фишера с обновлениями формы:
где является информационная матрица Фишера на итерации a .Ее также называют матрицей ожидаемой информации , или EIM .
ВЛМ
[ редактировать ]Для расчета (маленькая) модельная матрица построена от правой части формулы в vglm()
и матрицы ограничений объединяются в большую матрицу модели.IRLS применяется к этому X. большому Эта матрица известна как VLM.матрица, поскольку векторная линейная модель представляет собой базовый метод наименьших квадратовпроблема решается. VLM — это взвешенная многомерная регрессия, в которойдисперсионно-ковариационная матрица для каждой строки матрицы ответа не являетсяобязательно то же самое и известно.(В классической многомерной регрессии все ошибки имеютта же дисперсионно-ковариационная матрица, и она неизвестна).В частности, VLM минимизирует взвешенную сумму квадратов
Это количество минимизируется на каждой итерации IRLS.Рабочие ответы (также известные как псевдоответы и скорректированные зависимые векторы )
где известны как рабочие веса или матрицы рабочих весов . Они симметричны и положительно определены. Использование EIM помогает гарантировать, что все они положительно определены (а не просто их сумма) на большей части пространства параметров. Напротив, использование Ньютона-Рафсона означало бы, что будут использоваться наблюдаемые информационные матрицы, и они имеют тенденцию быть положительно определенными в меньшем подмножестве пространства параметров.
В вычислительном отношении разложение Холецкого используется для инвертирования матриц рабочих весов и преобразования общей обобщенной задачи наименьших квадратов в обычную задачу наименьших квадратов .
Примеры
[ редактировать ]Обобщенные линейные модели
[ редактировать ]Конечно, все обобщенные линейные модели являются частными случаями VGLM.Но мы часто оцениваем все параметры путем полной максимального правдоподобия оценки , а нечем использовать метод моментов для параметра масштаба.
Заказной категоричный ответ
[ редактировать ]Если переменная отклика представляет собой порядковое измерение с M + 1 уровнями , то можно подобрать модельную функцию вида:
- где
для Различные связи приводят к моделям пропорциональных шансов или упорядоченной прибыли моделям .например, VGAM
семейная функция cumulative(link = probit)
присваивает пробит-ссылку кумулятивномувероятностей, поэтому эту модель еще называют кумулятивной пробит-моделью .Обычно их называют моделями совокупных ссылок .
Для категориальных и полиномиальных распределений подобранные значения представляют собой ( M + 1)-вектор вероятностей со свойством, что сумма всех вероятностей равна 1. Каждая вероятность указывает вероятность появления одного из M + 1 возможных значений.
Неупорядоченный категорический ответ
[ редактировать ]Если переменная отклика является номинальным измерением , или данные не удовлетворяют предположениям упорядоченной модели, то можно использовать модель следующего вида:
для Приведенную выше ссылку иногда называют мультилогитной ссылкой.и эта модель называется полиномиальной логит- моделью.Обычно в качестве основного выбирают первый или последний уровень ответа. референтная или базовая группа; вышеприведенное использует последний уровень. VGAM
семейная функция multinomial()
подходит к вышеуказанной модели,и у него есть аргумент под названием refLevel
который может быть назначенуровень, используемый в качестве референтной группы.
Данные подсчета
[ редактировать ]Классическая теория GLM выполняет регрессию Пуассона для данных подсчета . Ссылка обычно представляет собой логарифм, известный как каноническая ссылка .Функция дисперсии пропорциональна среднему значению:
где параметр дисперсии обычно фиксируется ровно на единице. Если это не так, результирующую модель квазиправдоподобия часто называют пуассоновской со сверхдисперсией или квазипуассоновской ; затем обычно оценивается методом моментов и, как таковое,доверительные интервалы для их трудно получить.
Напротив, VGLM предлагают гораздо более богатый набор моделей для обработки чрезмерной дисперсии по отношению к Пуассону, например, отрицательное биномиальное распределение и несколько его вариантов. Другая модель регрессии подсчета — это обобщенное распределение Пуассона . Другими возможными моделями являются дзета-распределение и распределение Ципфа .
Расширения
[ редактировать ]Обобщенные линейные модели векторов пониженного ранга
[ редактировать ]RR-VGLM — это VGLM, в которых подмножество матрица B имеет более низкий ранг .Не ограничивая общности, предположим, что является разбиением вектора ковариат. Тогда часть матрицы B , соответствующая имеет форму где и представляют собой тонкие матрицы (т. е. со столбцами R ), например, векторы, если ранг R = 1. RR-VGLM потенциально предлагают несколько преимуществ при применении к определенныммодели и наборы данных. Во-первых, если M и p велики, то количество коэффициентов регрессиикоторые оцениваются VGLM, велика ( ). Тогда RR-VGLM могут значительно сократить количество оцененных коэффициентов регрессии, если R низкий, например, R = 1.или R = 2. Примером модели, где это особенно полезно, является RR- мультиномиальная логит-модель , также известная как стереотипная модель .Во-вторых, является R -вектором скрытых переменных , и часто их можно с пользой интерпретировать.Если R = 1, то мы можем написать так что скрытая переменная включает в себя нагрузки на объясняющие переменные.Можно видеть, что RR-VGLM используют оптимальные линейные комбинации а затем VGLM подгоняется к независимым переменным . В-третьих, побочный график можно построить, если R = 2, и это позволяет визуализировать модель.
Можно показать, что RR-VGLM — это просто VGLM, в которых матрицы ограничений дляпеременные в неизвестны и подлежат оценке.Потом выясняется, что длятакие переменные.RR-VGLM можно оценить с помощью альтернативного алгоритма, который фиксирует и оценки а потом исправляет и оценки , и т. д.
На практике для этого необходимы некоторые ограничения уникальности. и/или . В VGAM
, rrvglm()
функция по умолчанию использует угловые ограничения , что означает, что верхние R строк установлено на . RR-VGLM были предложены в 2003 году. [3]
Два к одному
[ редактировать ]Особым случаем RR-VGLM является ситуация, когда R = 1 и M = 2. Это уменьшение размерности с 2 параметров до 1 параметра. Тогда можно показать, что
где элементы и оцениваются. Эквивалентно,
Эта формула обеспечивает связь и . Он устанавливает связь между двумя параметрами модели, которая может быть полезна, например, для моделирования зависимости средней дисперсии. Иногда существует некоторый выбор функций связи, поэтому он обеспечивает некоторую гибкость при объединении двух параметров, например, связь логит, пробит, каучит или засор для параметров в единичном интервале. Приведенная выше формула особенно полезна для отрицательного биномиального распределения , так что RR-NB имеет функцию дисперсии.
назвали его вариантом NB-P Некоторые авторы . и оцениваются, и для них также можно получить приблизительные доверительные интервалы.
Кстати, можно подогнать и несколько других полезных вариантов NB, выбрав правильную комбинацию матриц ограничений. Например, НБ − 1, НБ − 2 ( negbinomial()
по умолчанию), NB − H ; см. Йи (2014) [4] и таблица 11.3 Yee (2015). [1]
RCIM
[ редактировать ]Подкласс моделей взаимодействия строк и столбцов (RCIM) также было предложено; это особый тип RR-VGLM. RCIM применимы только к ответу матрицы Y , и существуютнет явных объясняющих переменных .Вместо этого явно задаются индикаторные переменные для каждой строки и столбца, а порядок - R. взаимодействие формы разрешено.Особые случаи этого типа модели включают модель ассоциации Goodman RC. и методология квазидисперсий, реализованная qvcalc
пакет Р.
RCIM можно определить как RR-VGLM, примененный к Y с
Для модели ассоциации Goodman RC мы имеем так чтоесли R = 0, то это регрессия Пуассона, адаптированная к матрице счетчиков с эффектами строк и эффектов столбцов; это похоже на идею двусторонней модели ANOVA без взаимодействия.
Другой пример RCIM: если – тождественное звено, параметр – медиана, модель соответствует асимметричному распределению Лапласа; тогда RCIM без взаимодействия аналогичен методу, называемому медианной полировкой .
В VGAM
, rcim()
и grc()
функции соответствуют вышеуказанным моделям.А еще Йи и Хади (2014) [5] показать, что RCIM можно использовать для соответствия неограниченной квадратичной ординациимодели данных о видах; это пример косвенного градиентного анализа в ординация (тема статистической экологии).
Векторные обобщенные аддитивные модели
[ редактировать ]Векторные обобщенно-аддитивные модели (VGAM) являются основным расширение для VGLM, в котором линейный предиктор не ограничивается быть линейный по ковариатам но это сумма сглаживающих функций, примененных к :
где Это M аддитивные предикторы .Каждая гладкая функция оценивается по данным.Таким образом, VGLM управляются моделями , а VGAM — данными .На данный момент в программе реализованы только сглаживающие сплайны. VGAM
упаковка.Для M > 1 они на самом деле являются векторными сплайнами , которые оценивают компонентные функциив одновременно.Конечно, с VGLM можно использовать сплайны регрессии.Мотивация VGAM аналогичначто изХасти и Тибширани (1990) [6] иВуд (2017). [7] VGAM были предложены в 1996 году.. [8]
В настоящее время ведутся работы по оценке VGAM с использованием P-сплайнов. Эйлерса и Маркса (1996). [9] Это дает несколько преимуществ по сравнению с использованием сглаживающих сплайнов и векторной обратной подгонки , напримервозможность упростить автоматический выбор параметров сглаживания.
Квадратичные векторные обобщенные линейные модели пониженного ранга
[ редактировать ]Они добавляют квадратичную скрытую переменную к классу RR-VGLM.В результате к каждому ответу можно подобрать колоколообразную кривую, так какфункция скрытой переменной.При R = 2 поверхности имеют колоколообразную форму как функцию 2скрытые переменные --- чем-то похожие на двумерное нормальное распределение .Конкретные применения QRR-VGLM можно найти в экологии . в области многомерного анализа, называемой ординацией .
В качестве конкретного примера QRR-VGLM первого ранга:рассмотрите данные Пуассона для S. видов Моделью для видов является регрессия Пуассона.
для . Самая правая параметризация, в которой используются символы имеет особое экологическое значение, поскольку они связаны с видовым обилием , оптимумом и толерантностью соответственно. Например, толерантность является мерой ширины ниши, и большое значение означает, что этот вид может жить в самых разных средах. В приведенном выше уравнении потребуется чтобыполучить колоколообразную кривую.
QRR-VGLM соответствуют моделям гауссовой ординации по оценке максимального правдоподобия иони являются примером прямого градиентного анализа . cqo()
функционировать в VGAM
пакет в настоящее времязвонки optim()
для поиска оптимального , и учитывая это, легко вычислитьсайт оценивается и соответствует подходящей обобщенной линейной модели этому .Функция названа в честь аббревиатуры CQO, что означает ограниченная квадратичная ординация : ограниченная предназначена для прямойградиентный анализ (есть переменные окружающей среды и линейная комбинацияиз них принимается как скрытая переменная), а квадратичная – дляквадратичная форма по скрытым переменным на шкала.К сожалению, QRR-VGLM чувствительны к выбросам как в ответе, так и в ответе.и объясняющие переменные, а также являются дорогостоящими в вычислительном отношении, иможет дать локальное решение, а не глобальное решение.QRR-VGLM были предложены в 2004 году. [10]
См. также
[ редактировать ]- обобщенные линейные модели
- Р (программное обеспечение)
- Регрессионный анализ
- Статистическая модель
- Натуральное экспоненциальное семейство
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Да, TW (2015). Векторные обобщенные линейные и аддитивные модели: с реализацией в R. Нью-Йорк, США: Спрингер. ISBN 978-1-4939-2817-0 .
- ^ «Векторные обобщенные линейные модели» . 18 января 2016 г.
- ^ Да, ТВ; Хасти, Ти Джей (2003). «Векторные обобщенные линейные модели пониженного ранга». Статистическое моделирование . 3 (1): 15–41. CiteSeerX 10.1.1.36.3700 . дои : 10.1191/1471082x03st045oa . S2CID 122810408 .
- ^ Да, TW (1996). «Векторные обобщенные линейные модели пониженного ранга с двумя линейными предикторами». Вычислительная статистика и анализ данных . 71 : 889–902. дои : 10.1016/j.csda.2013.01.012 .
- ^ Да, ТВ; Хади, А.Ф. (2014). «Модели взаимодействия строк и столбцов с реализацией R». Вычислительная статистика . 29 (6): 1427–1445. дои : 10.1007/s00180-014-0499-9 . S2CID 253724333 .
- ^ Хасти, Ти Джей; Тибширани, Р.Дж. (1990). Обобщенные аддитивные модели . Лондон: Чепмен и Холл.
- ^ Вуд, СН (2017). Обобщенные аддитивные модели: введение в R (второе изд.). Лондон: Чепмен и Холл. ISBN 9781498728331 .
- ^ Да, ТВ; Уайлд, CJ (1996). «Векторные обобщенно-аддитивные модели». Журнал Королевского статистического общества, серия B. 58 (3): 481–493.
- ^ Эйлерс, PHC; Маркс, Б.Д. (1996). «Гибкое сглаживание с помощью B-сплайнов и штрафов». Статистическая наука . 11 (2): 89–121. CiteSeerX 10.1.1.47.4521 . дои : 10.1214/ss/1038425655 .
- ^ Да, TW (2004). «Новый метод максимально вероятного канонического гауссовского ординирования». Экологические монографии . 74 (4): 685–701. дои : 10.1890/03-0078 .
Дальнейшее чтение
[ редактировать ]- Хильбе, Джозеф (2011). Отрицательная биномиальная регрессия (2-е изд.). Кембридж: Издательство Кембриджского университета. ISBN 978-0-521-19815-8 .