Jump to content

Единично-взвешенная регрессия

В статистике анализа , единично-взвешенная регрессия представляет собой упрощенную и надежную версию ( Wainer & Thissen, 1976) множественного регрессионного в которой оценивается только член-член. То есть соответствует модели

где каждый из являются двоичными переменными , возможно, умноженными на произвольный вес.

Сравните это с более распространенной моделью множественной регрессии, где каждый предиктор имеет свой собственный расчетный коэффициент:

В социальных науках единично-взвешенная регрессия иногда используется для бинарной классификации , т.е. для прогнозирования ответа «да-нет» , когда указывает «нет», "да". Его легче интерпретировать, чем множественную линейную регрессию (известную как линейный дискриминантный анализ в случае классификации).

Вес единицы

[ редактировать ]

Единично-взвешенная регрессия — это метод устойчивой регрессии , который выполняется в три этапа. Сначала выбираются предикторы интересующего результата; в идеале для выбора должны быть веские эмпирические или теоретические основания. Во-вторых, предикторы преобразуются к стандартной форме. Наконец, предикторы суммируются, и эта сумма называется переменной, которая используется в качестве предсказателя результата.

Метод Бёрджесса

[ редактировать ]

Метод Бёрджесса был впервые представлен социологом Эрнестом В. Берджессом в исследовании 1928 года, целью которого было определить успех или неудачу условно-досрочно освобожденных заключенных. Во-первых, он выбрал 21 переменную, которая, как полагают, связана с успехом условно-досрочного освобождения. Затем он преобразовал каждый предиктор к стандартной форме нуля или единицы (Берджесс, 1928). Когда у предикторов было два значения, значение, связанное с целевым результатом, кодировалось как одно. Берджесс выбрал успешное условно-досрочное освобождение в качестве целевого результата, поэтому предиктор, такой как история воровства, был закодирован как «да» = 0 и «нет» = 1. Эти закодированные значения затем были добавлены для создания предикторного балла, так что более высокие баллы предсказал больше шансов на успех. Оценки могут варьироваться от нуля (нет предсказателей успеха) до 21 (все 21 предиктор оценены как предсказывающие успех).

Для предикторов с более чем двумя значениями метод Берджесса выбирает пороговый балл на основе субъективного суждения. Например, исследование с использованием метода Берджесса (Gottfredson & Snyder, 2005) выбрало в качестве одного из показателей количество жалоб на правонарушительное поведение. Учитывая неудачу в условно-досрочном освобождении в качестве целевого результата, количество жалоб было кодировано следующим образом: «от нуля до двух жалоб» = 0 и «три или более жалоб» = 1 (Gottfredson & Snyder, 2005. стр. 18).

Метод Керби

[ редактировать ]

Метод Керби аналогичен методу Бёрджесса, но отличается в двух отношениях. Во-первых, в то время как метод Бёрджесса использует субъективное суждение для выбора порогового значения для многозначного предиктора с двоичным результатом, метод Керби использует классификации и регрессионного дерева ( CART анализ ). Таким образом, выбор порогового показателя основан не на субъективном суждении, а на статистическом критерии, таком как точка, в которой значение хи-квадрат является максимальным.

Второе отличие состоит в том, что в то время как метод Берджесса применяется к бинарному результату, метод Керби может применяться к многозначному результату, поскольку анализ CART может определить пороговые значения в таких случаях, используя такой критерий, как точка, в которой t- значение максимальное. Поскольку анализ CART является не только бинарным, но и рекурсивным, в результате переменная-предиктор будет снова разделена, что даст два пороговых значения. Стандартная форма для каждого предиктора заключается в том, что балл, равный единице, добавляется, когда анализ CART создает раздел.

В одном исследовании (Керби, 2003) в качестве предикторов были выбраны пять черт из « Большой пятерки» черт личности , предсказывающих многозначную меру суицидальных мыслей . Затем личностные оценки были преобразованы в стандартную форму с помощью CART-анализа. Когда анализ CART дал одно разделение, результат был похож на метод Бёрджесса в том смысле, что предиктор был закодирован либо как ноль, либо как единица. Но по показателю невротизма результат составил два пороговых балла. Поскольку более высокие показатели невротизма коррелировали с более суицидальным мышлением, два пороговых показателя привели к следующему кодированию: «низкий невротизм» = 0, «умеренный невротизм» = 1, «высокий невротизм» = 2 (Керби, 2003).

z -оценки метод

[ редактировать ]

Другой метод может быть применен, когда предикторы измеряются в непрерывном масштабе. В таком случае каждый предиктор можно преобразовать в стандартную оценку или z -показатель, чтобы все предикторы имели среднее значение, равное нулю, и стандартное отклонение, равное единице. При использовании этого метода единично-взвешенной регрессии переменная представляет собой сумму z -показателей (например, Dawes, 1979; Bobko, Roth & Buster, 2007).

Литературный обзор

[ редактировать ]

Первым эмпирическим исследованием с использованием единично-взвешенной регрессии широко считается исследование социолога Эрнеста В. Берджесса , проведенное в 1928 году . Он использовал 21 переменную, чтобы предсказать успех или неудачу условно-досрочного освобождения, и результаты показывают, что удельные веса являются полезным инструментом при принятии решений о том, кого из заключенных освободить условно-досрочно. Из заключенных с лучшими баллами 98% действительно добились условно-досрочного освобождения; а из тех, кто получил худшие результаты, только 24% действительно добились успеха (Burgess, 1928).

Математические вопросы, связанные с единично-взвешенной регрессией, были впервые обсуждены в 1938 году Сэмюэлем Стэнли Уилксом , ведущим статистиком, который проявлял особый интерес к многомерному анализу . Уилкс описал, как можно использовать единичные веса в практических условиях, когда данные для оценки бета-весов недоступны. Например, небольшой колледж может захотеть отобрать для поступления хороших студентов. Но у школы может не быть денег на сбор данных и проведение стандартного множественного регрессионного анализа. В этом случае школа могла бы использовать несколько предикторов — оценки в средней школе, баллы SAT, рейтинги учителей. Уилкс (1938) математически показал, почему единичные веса должны хорошо работать на практике.

Франк Шмидт (1971) провел моделирование удельного веса. Его результаты показали, что Уилкс действительно был прав и что веса единиц имеют тенденцию хорошо работать при моделировании практических исследований.

Робин Доус (1979) обсуждала использование единичных весов в прикладных исследованиях, ссылаясь на надежную красоту моделей единичных взвешиваний. Джейкоб Коэн также обсудил ценность единиц веса и отметил их практическую полезность. Действительно, он писал: «На практике в большинстве случаев нам лучше использовать единичные веса» (Коэн, 1990, стр. 1306).

Дэйв Керби (2003) показал, что единичные веса хорошо сравниваются со стандартной регрессией, сделав это с помощью исследования перекрестной проверки , то есть он вывел бета-веса в одной выборке и применил их ко второй выборке. Результатом интереса были суицидальные мысли, а предикторскими переменными были общие черты личности. В выборке перекрестной проверки корреляция между личностью и суицидальным мышлением была немного сильнее при использовании единично-взвешенной регрессии ( r = 0,48), чем при стандартной множественной регрессии ( r = 0,47).

Готфредсон и Снайдер (2005) сравнили метод единично-взвешенной регрессии Берджесса с другими методами с выборкой построения N = 1924 и выборкой перекрестной проверки N = 7552. При использовании точечного бисериала Пирсона размер эффекта в выборке перекрестной проверки для модели единичных весов составил r = 0,392, что было несколько больше, чем для логистической регрессии ( r = 0,368) и анализа прогнозных атрибутов ( r = 0,387). ), и меньше множественной регрессии только в третьем десятичном знаке ( r = 0,397).

В обзоре литературы по единичным весам Бобко, Рот и Бастер (2007) отметили, что «единичные веса и веса регрессии действуют одинаково с точки зрения величины перекрестно проверенной множественной корреляции, и эмпирические исследования подтвердили этот результат на нескольких десятилетия» (с. 693).

Андреас Грефе применил подход равного взвешивания к девяти установленным моделям множественной регрессии для прогнозирования президентских выборов в США . На десяти выборах с 1976 по 2012 год предсказатели с одинаковым весом снизили ошибку прогноза исходных регрессионных моделей в среднем на четыре процента. Модель с равными весами, включающая все переменные, предоставила калиброванные прогнозы, которые снизили ошибку самой точной регрессионной модели на 29%. [1]

Пример может прояснить, как единицы веса могут быть полезны на практике.

Бренна Брай и ее коллеги (1982) обратились к вопросу о том, что является причиной употребления наркотиков подростками. Предыдущие исследования использовали множественную регрессию; с помощью этого метода естественно искать лучший предиктор, имеющий самый высокий бета-вес. Брай и его коллеги отметили, что одно из предыдущих исследований показало, что раннее употребление алкоголя является лучшим предиктором. Другое исследование показало, что отчуждение от родителей является лучшим предиктором. Еще одно исследование показало, что низкие оценки в школе являются лучшим предиктором. Неспособность репликации явно была проблемой, проблемой, которая могла быть вызвана отказом от бета-версий.

Брай и его коллеги предложили другой подход: вместо поиска лучшего предсказателя они смотрели на количество предсказателей. Другими словами, они присвоили единичный вес каждому предиктору. В их исследовании было шесть предикторов: 1) низкие оценки в школе, 2) отсутствие принадлежности к религии, 3) раннее употребление алкоголя, 4) психологический стресс, 5) низкая самооценка и 6) отчуждение от родителей. Чтобы преобразовать предикторы в стандартную форму, каждый фактор риска оценивался как отсутствующий (ноль) или присутствующий (единица). Например, низкие оценки в школе кодировались следующим образом: «C или выше» = 0, «D или F» = 1. Результаты показали, что количество факторов риска является хорошим предиктором употребления наркотиков: подростки с более факторы риска чаще склонны к употреблению наркотиков.

Модель, которую использовали Брай и его коллеги, заключалась в том, что потребители наркотиков ничем особым не отличаются от тех, кто не употребляет наркотики. Скорее, они различаются количеством проблем, с которыми им приходится сталкиваться. «Количество факторов, с которыми человек должен справиться, более важно, чем то, что это за факторы» (стр. 277). Учитывая эту модель, подходящим методом анализа является единично-взвешенная регрессия.

Бета-веса

[ редактировать ]

В стандартной множественной регрессии каждый предиктор умножается на число, которое называется бета-весом , весом регрессии или взвешенными коэффициентами регрессии (обозначается β W или BW). [2] Прогноз получается путем сложения этих произведений с константой. Когда веса выбираются так, чтобы дать наилучший прогноз по некоторому критерию, модель называется правильной линейной моделью . Следовательно, множественная регрессия является правильной линейной моделью. Напротив, единично-взвешенная регрессия называется неправильной линейной моделью.

Спецификация модели

[ редактировать ]

Стандартная множественная регрессия основана на предположении, что все соответствующие предикторы результата включены в регрессионную модель. Это предположение называется спецификацией модели. Говорят, что модель определена, когда все релевантные предикторы включены в модель, а все нерелевантные предикторы исключены из модели. В практических условиях исследование редко может определить все соответствующие предикторы априори. В этом случае модели не указываются, а оценки бета-весов страдают от смещения пропущенной переменной. То есть бета-веса могут меняться от одной выборки к другой, и эту ситуацию иногда называют проблемой прыгающих бета-версий. Именно эта проблема с прыгающими бета-версиями делает модульно-взвешенную регрессию полезным методом.

См. также

[ редактировать ]
  1. ^ Грефе, Андреас (2015). «Улучшение прогнозов с использованием предикторов с одинаковым весом» (PDF) . Журнал бизнес-исследований . 68 (8). Эльзевир: 1792–1799. дои : 10.1016/j.jbusres.2015.03.038 .
  2. ^ Зиглари, Лейли (2017). «Интерпретация результатов множественной регрессии: веса β и структурные коэффициенты» (PDF) . Общий журнал линейных моделей . 43 (1). ГЛМД: 13–22. дои : 10.31523/glmj.043002.002 .
  • Бобко П., Рот П.Л. и Бастер Массачусетс (2007). «Полезность единичных весов при создании составных оценок: обзор литературы, применение к достоверности содержания и метаанализ». Методы организационных исследований , том 10, страницы 689-709. дои : 10.1177/1094428106294734
  • Брай, Б.Х.; МакКеон, П.; Пандина, Р.Дж. (1982). «Масштаб употребления наркотиков в зависимости от ряда факторов риска». Журнал аномальной психологии . 91 (4): 273–279. дои : 10.1037/0021-843X.91.4.273 . ПМИД   7130523 .
  • Берджесс, EW (1928). «Факторы, определяющие успех или неудачу условно-досрочного освобождения». В А. А. Брюсе (ред.), «Действие закона о неопределенном приговоре и условно-досрочном освобождении в Иллинойсе» (стр. 205–249). Спрингфилд, Иллинойс: Совет штата Иллинойс по условно-досрочному освобождению. Гугл книги
  • Коэн, Джейкоб. (1990). «Вещи, которые я узнал (на данный момент)». Американский психолог , том 45, страницы 1304–1312. два : 10.1037/0003-066X.45.12.1304
  • Дауэс, Робин М. (1979). «Надежная красота неправильных линейных моделей при принятии решений». Американский психолог , том 34, страницы 571–582. дои : 10.1037/0003-066X.34.7.571 . заархивированный PDF-файл
  • Готфредсон, Д.М., и Снайдер, Х.Н. (июль 2005 г.). Математика классификации рисков: превращение данных в действенные инструменты для судов по делам несовершеннолетних . Питтсбург, Пенсильвания: Национальный центр ювенальной юстиции. NCJ 209158. Eric.ed.gov в формате pdf.
  • Керби, Дэйв С. (2003). «Анализ CART с единично-взвешенной регрессией для прогнозирования суицидальных мыслей на основе черт Большой пятерки». Личность и индивидуальные различия , том 35, страницы 249–261. два : 10.1016/S0191-8869(02)00174-5
  • Шмидт, Фрэнк Л. (1971). «Относительная эффективность регрессии и простых весов предикторов единиц в прикладной дифференциальной психологии». Образовательные и психологические измерения , том 31, страницы 699–714. дои : 10.1177/001316447103100310
  • Вайнер Х. и Тиссен Д. (1976). Три шага к устойчивой регрессии. Психометрика , том 41(1), страницы 9–34. дои : 10.1007/BF02291695
  • Уилкс, СС (1938). «Весовые системы для линейных функций коррелирующих переменных при отсутствии зависимой переменной». Психометрика . 3 : 23–40. дои : 10.1007/BF02287917 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6a8b4a45448bb99f98f31562ba95991c__1709649360
URL1:https://arc.ask3.ru/arc/aa/6a/1c/6a8b4a45448bb99f98f31562ba95991c.html
Заголовок, (Title) документа по адресу, URL1:
Unit-weighted regression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)