Обобщенная аддитивная модель местоположения, масштаба и формы.
Обобщенная аддитивная модель местоположения, масштаба и формы (GAMLSS) — это подход к статистическому моделированию и обучению. GAMLSS — это современный подход к ( полупараметрической ) регрессии, основанный на распределении. Для ответной (целевой) переменной предполагается параметрическое распределение, но параметры этого распределения могут варьироваться в зависимости от объясняющих переменных с использованием линейных, нелинейных или плавных функций. На языке машинного обучения GAMLSS — это форма контролируемого машинного обучения.
В частности, статистическая система GAMLSS позволяет адаптировать к данным гибкие модели регрессии и сглаживания. Модель GAMLSS предполагает, что переменная ответа имеет любое параметрическое распределение, которое может быть тяжелым или легким, а также положительно или отрицательно искаженным. Кроме того, все параметры распределения [местоположение (например, среднее значение), масштаб (например, дисперсия) и форма (асимметрия и эксцесс)] могут быть смоделированы как линейные, нелинейные или плавные функции объясняющих переменных.
Обзор модели
[ редактировать ]Обобщенная аддитивная модель местоположения, масштаба и формы (GAMLSS) — это статистическая модель, разработанная Ригби и Стасинопулосом (а позже расширенная) для преодоления некоторых ограничений, связанных с популярными обобщенными линейными моделями (GLM) и обобщенными аддитивными моделями (GAM). . Обзор этих ограничений см. в Nelder and Wedderburn (1972). [1] и книга Хасти и Тибширани. [2]
В GAMLSS предположение экспоненциального семейного распределения для переменной ответа ( ), (важно в GLM и GAM ), ослабляется и заменяется общим семейством распределений, включая сильно асимметричные и/или куртотические непрерывные и дискретные распределения .
Систематическая часть модели расширена, чтобы позволить моделировать не только среднее значение ( или местоположение ), но и другие параметры распределения y как линейные и/или нелинейные, параметрические и/или аддитивные непараметрические функции объясняющих переменных и/или случайные эффекты .
GAMLSS особенно подходит для моделирования лептокуртической или платикуртической и/или положительно или отрицательно искаженной переменной ответа. Для данных переменной ответа типа счетчика он имеет дело с чрезмерной дисперсией , используя правильные дискретные распределения с чрезмерной дисперсией. Неоднородность также решается путем моделирования параметров масштаба или формы с использованием объясняющих переменных. Существует несколько пакетов, написанных на R и связанных с моделями GAMLSS. [3] и учебные пособия по использованию и интерпретации GAMLSS. [4]
Модель GAMLSS предполагает независимые наблюдения. для с функцией вероятности (плотности) при условии вектор из четырех параметров распределения, каждый из которых может быть функцией объясняющих переменных. Первые два параметра распределения населения и обычно характеризуются как параметры местоположения и масштаба, тогда как остальные параметры, если таковые имеются, характеризуются как параметры формы, например параметры асимметрии и эксцесса , хотя модель может применяться в более общем плане к параметрам любого распределения населения с точностью до четыре параметра распределения и могут быть обобщены до более чем четырех параметров распределения.
где µ, σ, ν, τ и являются векторами длины , — вектор параметров длины , представляет собой фиксированную известную расчетную матрицу порядка и – гладкая непараметрическая функция объясняющей переменной , и . являются функциями связи .
Для центильной оценки Группа многоцентровых эталонных исследований роста ВОЗ рекомендовала GAMLSS и экспоненциальное распределение мощности Бокса-Кокса (BCPE). [5] для разработки Норм роста детей ВОЗ. [6] [7]
Какие дистрибутивы можно использовать
[ редактировать ]Форма распределения, предполагаемая для переменной отклика y, является очень общей. Например, реализация GAMLSS в R [8] доступно около 100 различных дистрибутивов. Такие реализации также позволяют использовать усеченные распределения и цензурированные (или интервальные) переменные отклика. [8]
Ссылки
[ редактировать ]- ^ Нелдер, Дж.А.; Веддерберн, RWM (1972). «Обобщенные линейные модели». JR Стат. Соц. А. 135 (3): 370–384. дои : 10.2307/2344614 . JSTOR 2344614 .
- ^ Хасти, Ти Джей; Тибширани, Р.Дж. (1990). Обобщенные аддитивные модели . Лондон: Чепмен и Холл.
- ^ Стасинопулос, Д. Микис; Ригби, Роберт А. (декабрь 2007 г.). «Обобщенные аддитивные модели масштаба и формы местоположения (GAMLSS) в R» . Журнал статистического программного обеспечения . 23 (7). дои : 10.18637/jss.v023.i07 .
- ^ Дэвид, Банн; Лиам, Райт; Тим Дж, Коул (2022). «Факторы риска связаны с изменчивостью результатов в отношении здоровья, а также со средним значением: руководство GAMLSS» . электронная жизнь . 11 (11). дои : 10.7554/eLife.72357 . ПМЦ 8791632 . ПМИД 34985412 .
- ^ Ригби, Роберт; Стасинопулос, Д. Микис (февраль 2004 г.). «Гладкие центильные кривые для асимметрических и куртотических данных, смоделированные с использованием экспоненциального распределения мощности Бокса-Кокса». Статистика в медицине . 23 (19): 3053–3076. дои : 10.1002/сим.1861 . ПМИД 15351960 .
- ^ Борги, Э.; Де Онис, М.; Гарза, К.; Ван Ден Брук, Дж.; Фронгилло, Э.А.; Груммер-Строун, Л.; Ван Бюрен, С.; Пан, Х.; Молинари, Л.; Марторелл, Р.; Оньянго, AW; Мартинес, Дж. К.; Многоцентровая справочная группа ВОЗ по исследованию экономического роста (2006 г.). «Построение стандартов роста детей Всемирной организации здравоохранения: выбор методов построения кривых роста». Статистика в медицине . 25 (2): 247–265. дои : 10.1002/сим.2227 . ПМИД 16143968 .
- ^ Многоцентровая справочная группа ВОЗ по исследованию роста (2006 г.) Нормы роста детей ВОЗ: длина/рост к возрасту, вес к возрасту, вес к длине, вес к росту и индекс массы тела к возрасту: Методы и развитие. Женева: Всемирная организация здравоохранения.
- ^ Jump up to: а б «Пакеты R | gamlss» . Пакеты R | гамлсс . Проверено 4 мая 2020 г.
Дальнейшее чтение
[ редактировать ]- Байерляйн, А.; Фармейр, Л.; Мансманн, У.; Тошке, AM (2001). «Альтернативные регрессионные модели для оценки увеличения BM у детей» . Методология медицинских исследований BMC . 8:59 . дои : 10.1186/1471-2288-8-59 . ПМК 2543035 . ПМИД 18778466 .
- Коул, Т.Дж., Станоевич, С., Стокс, Дж., Коутс, А.Л., Хэнкинсон, Дж.Л., Уэйд, А.М. (2009), «Референсные диапазоны, связанные с возрастом и размером: тематическое исследование спирометрии в детстве и взрослой жизни», Статистика в медицине , 28 (5), 880–898. Связь
- Фенске Н., Фармейр Л., Ржехак П., Холе М. (25 сентября 2008 г.), «Выявление факторов риска ожирения в раннем детстве с помощью методов квантильной регрессии для продольных данных», Департамент статистики: Технические отчеты. , №38 Ссылка
- Хадсон, Иллинойс, Ким, С.В., Китли, М.Р. (2010), «Климатические влияния на фенологию цветения четырех эвкалиптов: фенологические исследования с использованием подхода GAMLSS». В «Фенологических исследованиях» , Ирен Л. Хадсон и Мари Р. Китли (редакторы), Springer Нидерланды Link
- Хадсон, Иллинойс, Ри, А., Далримпл, М.Л., Эйлерс, PHC (2008), «Влияние климата на синдром внезапной детской смертности: подход GAMLSS», Материалы 23-го международного семинара по статистическому моделированию, стр. 277–280. Связь
- Нотт, Д. (2006). «Полупараметрическая оценка функций среднего и дисперсии для негауссовских данных». Вычислительная статистика . 21 (3–4): 603–620. CiteSeerX 10.1.1.117.6518 . дои : 10.1007/s00180-006-0017-9 . S2CID 16900583 .
- Серинальди, Ф (2011). «Моделирование распределения и краткосрочное прогнозирование цен на электроэнергию с помощью обобщенных аддитивных моделей местоположения, масштаба и формы». Экономика энергетики . 33 (6): 1216–1226. doi : 10.1016/j.eneco.2011.05.001 .
- Серинальди, Ф.; Куомо, Дж. (2011). «Характеристика импульсных волновых нагрузок на прибрежные мосты с помощью вероятностных моделей максимумов воздействия и времени нарастания». Береговая инженерия . 58 (9): 908–926. дои : 10.1016/j.coastaleng.2011.05.010 .
- Серинальди Ф., Вилларини Г., Смит Дж. А., Краевски В. Ф. (2008), «Анализ точек изменений и тенденций в годовом максимальном расходе воды в континентальной части США», Осеннее собрание Американского геофизического союза 2008 г. , аннотация № H21A-0803 *
- ван Огтроп, ФФ; Верворт, RW; Хеллер, Г.З.; Стасинопулос, DM; Ригби, РА (2011). «Долгосрочное прогнозирование прерывистого речного стока» . Дискуссии по гидрологии и наукам о системе Земли . 8 (1): 681–713. doi : 10.5194/hessd-8-681-2011 .
- Вилларини, Дж.; Серинальди, Ф. (2011). «Разработка статистических моделей для натурного вероятностного прогноза сезонных осадков» . Международный журнал климатологии . 32 (14): 2197–2212. дои : 10.1002/joc.3393 .
- Вилларини, Дж.; Серинальди, Ф.; Смит, Дж.А.; Краевский, ВФ (2009). «О стационарности ежегодных пиков паводков в континентальной части США в 20 веке» . Исследования водных ресурсов . 45 (8). Бибкод : 2009WRR....45.8417V . дои : 10.1029/2008wr007645 .
- Вилларини, Дж.; Смит, Дж.А.; Наполитано, Ф. (2010). «Нестационарное моделирование длительного периода осадков и температуры над Римом». Достижения в области водных ресурсов . 33 (10): 1256–1267. Бибкод : 2010AdWR...33.1256V . дои : 10.1016/j.advwatres.2010.03.013 .
Внешние ссылки
[ редактировать ]- Официальный сайт ГАМЛСС gamlss.org
- Руководство по GAMLSS (можно загрузить) [ постоянная мертвая ссылка ]
- Таблицы распределения в GAMLSS [ постоянная мертвая ссылка ]
- Справочная карта пакетов GAMLSS (можно загрузить) [ постоянная мертвая ссылка ]
- Буклет для краткого курса по GAMLSS в Утрехте (можно загрузить) [ постоянная мертвая ссылка ]
- Пакеты R для GAMLSS на CRAN [ постоянная мертвая ссылка ]