Разделение (статистика)
В статистике дихотомических разделение — это явление, связанное с моделями или категориальных результатов, включая логистическую и пробит-регрессию . Разделение происходит, если предиктор (или линейная комбинация некоторого подмножества предикторов) связан только с одним значением результата, когда диапазон предикторов разделяется по определенному значению.
Явление
[ редактировать ]Например, если предиктор X является непрерывным, а результат y = 1 для всех наблюдаемых x > 2. Если значения результата (по-видимому) идеально определяются предиктором (например, y = 0, когда x ≤ 2), тогда условие Говорят, что происходит «полное разделение». Если вместо этого есть некоторое перекрытие (например, y = 0, когда x < 2, но y имеет значения 0 и 1, когда x = 2), тогда происходит «квазиполное разделение». Таблица 2×2 с пустой (нулевой) ячейкой является примером квазиполного разделения.
Проблема
[ редактировать ]Эта наблюдаемая форма данных важна, поскольку иногда вызывает проблемы с оценкой коэффициентов регрессии. Например, оценка максимального правдоподобия (ML) основана на максимизации функции правдоподобия, где, например, в случае логистической регрессии с полностью разделенными данными максимум появляется на границе пространства параметров, что приводит к «бесконечным» оценкам, и, наряду с этим, , к проблемам с предоставлением разумных стандартных ошибок . [1] [2] Статистическое программное обеспечение часто выдает сколь угодно большую оценку параметра с очень большой стандартной ошибкой. [3]
Возможные средства правовой защиты
[ редактировать ]Подход к «исправлению» проблем с оценкой ML заключается в использовании регуляризации (или « поправок непрерывности »). [4] [5] В частности, в случае проблемы логистической регрессии вариантом может быть использование точной логистической регрессии или логистической регрессии Ферта , метода уменьшения систематической ошибки, основанного на штрафной вероятности. [6]
Альтернативно, можно избежать проблем, связанных с максимизацией правдоподобия, переключившись на байесовский подход к выводу. В рамках байесовской модели патологий, возникающих из-за максимизации правдоподобия, можно избежать за счет использования интеграции , а не максимизации , а также за счет использования разумных априорных распределений вероятностей . [7]
Ссылки
[ редактировать ]- ^ Цзэн, Гопин; Цзэн, Эмили (2019). «О взаимосвязи между мультиколлинеарностью и разделением в логистической регрессии». Коммуникации в статистике . Моделирование и расчет. 50 (7): 1989–1997. дои : 10.1080/03610918.2019.1589511 . S2CID 132047558 .
- ^ Альберт, А.; Андерсон, Дж. А. (1984). «О существовании оценок максимального правдоподобия в моделях логистической регрессии». Биометрика . 71 (1–10): 1–10. дои : 10.1093/biomet/71.1.1 .
- ^ Маккалоу, Б.Д.; Винод, HD (2003). «Проверка решения с помощью нелинейного решателя: практический пример». Американский экономический обзор . 93 (3): 873–892. дои : 10.1257/000282803322157133 . JSTOR 3132121 .
- ^ Коул, СР; Чу, Х.; Гренландия, С. (2014), «Максимальная вероятность, профильная вероятность и штрафная вероятность: учебник», Американский журнал эпидемиологии , 179 (2): 252–260, doi : 10.1093/aje/kwt245 , PMC 3873110 , PMID 24173548
- ^ Свитинг, MJ; Саттон, Эй Джей; Ламберт, ПК (2004), «Что к чему добавить? Использование и избежание поправок на непрерывность в метаанализе разреженных данных», Статистика в медицине , 23 (9): 1351–1375, doi : 10.1002/sim.1761 , PMID 15116347 , S2CID 247667708
- ^ Мансурния, Мохаммед Али; Герольдингер, Анжелика; Гренландия, Сандер ; Хайнце, Георг (2018). «Разделение в логистической регрессии: причины, последствия и контроль» . Американский журнал эпидемиологии . 187 (4): 864–870. дои : 10.1093/aje/kwx299 . ПМИД 29020135 .
- ^ Гельман, А. ; Якулин А.; Питтау, Миннесота; Су, Ю. (2008), «Слабоинформативное априорное распределение по умолчанию для логистических и других регрессионных моделей», Анналы прикладной статистики , 2 (4): 1360–1383, arXiv : 0901.4011 , doi : 10.1214/08-AOAS191
Дальнейшее чтение
[ редактировать ]- Альберт, А.; Андерсон, Дж. А. (1984), «О существовании оценок максимального правдоподобия в моделях логистической регрессии», Biometrika , 71 (1): 1–10, doi : 10.1093/biomet/71.1.1
- Космидис И.; Ферт, Д. (2021), «Априорный штраф Джеффриса, конечность и сокращение в обобщенных линейных моделях с биномиальным откликом», Biometrika , 108 (1): 71–82, arXiv : 1812.01938 , doi : 10.1093/biomet/asaa052
- Дэвидсон, Рассел; Маккиннон, Джеймс Г. (2004). Эконометрическая теория и методы . Нью-Йорк: Издательство Оксфордского университета. стр. 458–459. ISBN 978-0-19-512372-2 .