Jump to content

Разделение (статистика)

В статистике дихотомических разделение — это явление, связанное с моделями или категориальных результатов, включая логистическую и пробит-регрессию . Разделение происходит, если предиктор (или линейная комбинация некоторого подмножества предикторов) связан только с одним значением результата, когда диапазон предикторов разделяется по определенному значению.

Например, если предиктор X является непрерывным, а результат y = 1 для всех наблюдаемых x > 2. Если значения результата (по-видимому) идеально определяются предиктором (например, y = 0, когда x ≤ 2), тогда условие Говорят, что происходит «полное разделение». Если вместо этого есть некоторое перекрытие (например, y = 0, когда x < 2, но y имеет значения 0 и 1, когда x = 2), тогда происходит «квазиполное разделение». Таблица 2×2 с пустой (нулевой) ячейкой является примером квазиполного разделения.

Проблема

[ редактировать ]

Эта наблюдаемая форма данных важна, поскольку иногда вызывает проблемы с оценкой коэффициентов регрессии. Например, оценка максимального правдоподобия (ML) основана на максимизации функции правдоподобия, где, например, в случае логистической регрессии с полностью разделенными данными максимум появляется на границе пространства параметров, что приводит к «бесконечным» оценкам, и, наряду с этим, , к проблемам с предоставлением разумных стандартных ошибок . [1] [2] Статистическое программное обеспечение часто выдает сколь угодно большую оценку параметра с очень большой стандартной ошибкой. [3]

Возможные средства правовой защиты

[ редактировать ]

Подход к «исправлению» проблем с оценкой ML заключается в использовании регуляризации (или « поправок непрерывности »). [4] [5] В частности, в случае проблемы логистической регрессии вариантом может быть использование точной логистической регрессии или логистической регрессии Ферта , метода уменьшения систематической ошибки, основанного на штрафной вероятности. [6]

Альтернативно, можно избежать проблем, связанных с максимизацией правдоподобия, переключившись на байесовский подход к выводу. В рамках байесовской модели патологий, возникающих из-за максимизации правдоподобия, можно избежать за счет использования интеграции , а не максимизации , а также за счет использования разумных априорных распределений вероятностей . [7]

  1. ^ Цзэн, Гопин; Цзэн, Эмили (2019). «О взаимосвязи между мультиколлинеарностью и разделением в логистической регрессии». Коммуникации в статистике . Моделирование и расчет. 50 (7): 1989–1997. дои : 10.1080/03610918.2019.1589511 . S2CID   132047558 ​​.
  2. ^ Альберт, А.; Андерсон, Дж. А. (1984). «О существовании оценок максимального правдоподобия в моделях логистической регрессии». Биометрика . 71 (1–10): 1–10. дои : 10.1093/biomet/71.1.1 .
  3. ^ Маккалоу, Б.Д.; Винод, HD (2003). «Проверка решения с помощью нелинейного решателя: практический пример». Американский экономический обзор . 93 (3): 873–892. дои : 10.1257/000282803322157133 . JSTOR   3132121 .
  4. ^ Коул, СР; Чу, Х.; Гренландия, С. (2014), «Максимальная вероятность, профильная вероятность и штрафная вероятность: учебник», Американский журнал эпидемиологии , 179 (2): 252–260, doi : 10.1093/aje/kwt245 , PMC   3873110 , PMID   24173548
  5. ^ Свитинг, MJ; Саттон, Эй Джей; Ламберт, ПК (2004), «Что к чему добавить? Использование и избежание поправок на непрерывность в метаанализе разреженных данных», Статистика в медицине , 23 (9): 1351–1375, doi : 10.1002/sim.1761 , PMID   15116347 , S2CID   247667708
  6. ^ Мансурния, Мохаммед Али; Герольдингер, Анжелика; Гренландия, Сандер ; Хайнце, Георг (2018). «Разделение в логистической регрессии: причины, последствия и контроль» . Американский журнал эпидемиологии . 187 (4): 864–870. дои : 10.1093/aje/kwx299 . ПМИД   29020135 .
  7. ^ Гельман, А. ; Якулин А.; Питтау, Миннесота; Су, Ю. (2008), «Слабоинформативное априорное распределение по умолчанию для логистических и других регрессионных моделей», Анналы прикладной статистики , 2 (4): 1360–1383, arXiv : 0901.4011 , doi : 10.1214/08-AOAS191

Дальнейшее чтение

[ редактировать ]
  • Альберт, А.; Андерсон, Дж. А. (1984), «О существовании оценок максимального правдоподобия в моделях логистической регрессии», Biometrika , 71 (1): 1–10, doi : 10.1093/biomet/71.1.1
  • Космидис И.; Ферт, Д. (2021), «Априорный штраф Джеффриса, конечность и сокращение в обобщенных линейных моделях с биномиальным откликом», Biometrika , 108 (1): 71–82, arXiv : 1812.01938 , doi : 10.1093/biomet/asaa052
  • Дэвидсон, Рассел; Маккиннон, Джеймс Г. (2004). Эконометрическая теория и методы . Нью-Йорк: Издательство Оксфордского университета. стр. 458–459. ISBN  978-0-19-512372-2 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e06b739ae1edcaf9b1ed48b0da074ad2__1704375540
URL1:https://arc.ask3.ru/arc/aa/e0/d2/e06b739ae1edcaf9b1ed48b0da074ad2.html
Заголовок, (Title) документа по адресу, URL1:
Separation (statistics) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)