Разделение (статистика)

В статистике дихотомических разделение — это явление, связанное с моделями или категориальных результатов, включая логистическую и пробит-регрессию . Разделение происходит, если предиктор (или линейная комбинация некоторого подмножества предикторов) связан только с одним значением результата, когда диапазон предикторов разделяется по определенному значению.

Явление

Например, если предиктор X является непрерывным, а результат y = 1 для всех наблюдаемых x > 2. Если значения результата (по-видимому) идеально определяются предиктором (например, y = 0, когда x ≤ 2), тогда условие Говорят, что происходит «полное разделение». Если вместо этого есть некоторое перекрытие (например, y = 0, когда x < 2, но y имеет значения 0 и 1, когда x = 2), тогда происходит «квазиполное разделение». Таблица 2×2 с пустой (нулевой) ячейкой является примером квазиполного разделения.

Проблема

Эта наблюдаемая форма данных важна, поскольку иногда вызывает проблемы с оценкой коэффициентов регрессии. Например, оценка максимального правдоподобия (ML) основана на максимизации функции правдоподобия, где, например, в случае логистической регрессии с полностью разделенными данными максимум появляется на границе пространства параметров, что приводит к «бесконечным» оценкам, и, наряду с этим, , к проблемам с предоставлением разумных стандартных ошибок . ^[1]^[2] Статистическое программное обеспечение часто выдает сколь угодно большую оценку параметра с очень большой стандартной ошибкой. ^[3]

Возможные средства правовой защиты

Подход к «исправлению» проблем с оценкой ML заключается в использовании регуляризации (или « поправок непрерывности »). ^[4]^[5]В частности, в случае проблемы логистической регрессии вариантом может быть использование точной логистической регрессии или логистической регрессии Ферта , метода уменьшения систематической ошибки, основанного на штрафной вероятности. ^[6]

Альтернативно, можно избежать проблем, связанных с максимизацией правдоподобия, переключившись на байесовский подход к выводу. В рамках байесовской модели патологий, возникающих из-за максимизации правдоподобия, можно избежать за счет использования интеграции , а не максимизации , а также за счет использования разумных априорных распределений вероятностей . ^[7]

Ссылки

^ Цзэн, Гопин; Цзэн, Эмили (2019). «О взаимосвязи между мультиколлинеарностью и разделением в логистической регрессии». Коммуникации в статистике . Моделирование и расчет. 50 (7): 1989–1997. дои : 10.1080/03610918.2019.1589511 . S2CID 132047558 .
^ Альберт, А.; Андерсон, Дж. А. (1984). «О существовании оценок максимального правдоподобия в моделях логистической регрессии». Биометрика . 71 (1–10): 1–10. дои : 10.1093/biomet/71.1.1 .
^ Маккалоу, Б.Д.; Винод, HD (2003). «Проверка решения с помощью нелинейного решателя: практический пример». Американский экономический обзор . 93 (3): 873–892. дои : 10.1257/000282803322157133 . JSTOR 3132121 .
^ Коул, СР; Чу, Х.; Гренландия, С. (2014), «Максимальная вероятность, профильная вероятность и штрафная вероятность: учебник», Американский журнал эпидемиологии , 179 (2): 252–260, doi : 10.1093/aje/kwt245 , PMC 3873110 , PMID 24173548
^ Свитинг, MJ; Саттон, Эй Джей; Ламберт, ПК (2004), «Что к чему добавить? Использование и избежание поправок на непрерывность в метаанализе разреженных данных», Статистика в медицине , 23 (9): 1351–1375, doi : 10.1002/sim.1761 , PMID 15116347 , S2CID 247667708
^ Мансурния, Мохаммед Али; Герольдингер, Анжелика; Гренландия, Сандер ; Хайнце, Георг (2018). «Разделение в логистической регрессии: причины, последствия и контроль» . Американский журнал эпидемиологии . 187 (4): 864–870. дои : 10.1093/aje/kwx299 . ПМИД 29020135 .
^ Гельман, А. ; Якулин А.; Питтау, Миннесота; Су, Ю. (2008), «Слабоинформативное априорное распределение по умолчанию для логистических и других регрессионных моделей», Анналы прикладной статистики , 2 (4): 1360–1383, arXiv : 0901.4011 , doi : 10.1214/08-AOAS191

Дальнейшее чтение

Альберт, А.; Андерсон, Дж. А. (1984), «О существовании оценок максимального правдоподобия в моделях логистической регрессии», Biometrika , 71 (1): 1–10, doi : 10.1093/biomet/71.1.1
Космидис И.; Ферт, Д. (2021), «Априорный штраф Джеффриса, конечность и сокращение в обобщенных линейных моделях с биномиальным откликом», Biometrika , 108 (1): 71–82, arXiv : 1812.01938 , doi : 10.1093/biomet/asaa052
Дэвидсон, Рассел; Маккиннон, Джеймс Г. (2004). Эконометрическая теория и методы . Нью-Йорк: Издательство Оксфордского университета. стр. 458–459. ISBN 978-0-19-512372-2 .

Внешние ссылки

Логистическая регрессия с использованием уменьшения смещения Ферта: решение проблемы разделения в логистической регрессии

[1] Цзэн, Гопин; Цзэн, Эмили (2019). «О взаимосвязи между мультиколлинеарностью и разделением в логистической регрессии». Коммуникации в статистике . Моделирование и расчет. 50 (7): 1989–1997. дои : 10.1080/03610918.2019.1589511 . S2CID 132047558 .

[2] Альберт, А.; Андерсон, Дж. А. (1984). «О существовании оценок максимального правдоподобия в моделях логистической регрессии». Биометрика . 71 (1–10): 1–10. дои : 10.1093/biomet/71.1.1 .

[3] Маккалоу, Б.Д.; Винод, HD (2003). «Проверка решения с помощью нелинейного решателя: практический пример». Американский экономический обзор . 93 (3): 873–892. дои : 10.1257/000282803322157133 . JSTOR 3132121 .

[4] Коул, СР; Чу, Х.; Гренландия, С. (2014), «Максимальная вероятность, профильная вероятность и штрафная вероятность: учебник», Американский журнал эпидемиологии , 179 (2): 252–260, doi : 10.1093/aje/kwt245 , PMC 3873110 , PMID 24173548

[5] Свитинг, MJ; Саттон, Эй Джей; Ламберт, ПК (2004), «Что к чему добавить? Использование и избежание поправок на непрерывность в метаанализе разреженных данных», Статистика в медицине , 23 (9): 1351–1375, doi : 10.1002/sim.1761 , PMID 15116347 , S2CID 247667708

[6] Мансурния, Мохаммед Али; Герольдингер, Анжелика; Гренландия, Сандер ; Хайнце, Георг (2018). «Разделение в логистической регрессии: причины, последствия и контроль» . Американский журнал эпидемиологии . 187 (4): 864–870. дои : 10.1093/aje/kwx299 . ПМИД 29020135 .

[7] Гельман, А. ; Якулин А.; Питтау, Миннесота; Су, Ю. (2008), «Слабоинформативное априорное распределение по умолчанию для логистических и других регрессионных моделей», Анналы прикладной статистики , 2 (4): 1360–1383, arXiv : 0901.4011 , doi : 10.1214/08-AOAS191

[1]

[2]

[3]

[4]

[5]

[6]

[7]