Удаление по списку

В статистике — удаление по списку это метод обработки недостающих данных . В этом методе вся запись исключается из анализа, если отсутствует какое-либо одно значение. [1] : 6
Пример
[ редактировать ]Например, рассмотрим следующий вопросник, на который ответили 10 испытуемых:
Предмет | Возраст | Пол | Доход |
---|---|---|---|
1 | 29 | М | $40,000 |
2 | 45 | М | $36,000 |
3 | 81 | М | --отсутствующий-- |
4 | 22 | --отсутствующий-- | $16,000 |
5 | 41 | М | $98,000 |
6 | 33 | Ф | $60,000 |
7 | 22 | Ф | $24,000 |
8 | --отсутствующий-- | Ф | $81,000 |
9 | 33 | Ф | $55,000 |
10 | 45 | Ф | $80,000 |
Исследователь надеется смоделировать доход ( зависимая переменная ) на основе возраста и пола (независимые переменные). Используя удаление по списку, исследователь удалял субъектов 3, 4 и 8 из выборки перед выполнением дальнейшего анализа.
Проблемы с удалением по списку
[ редактировать ]Удаление по списку влияет на статистическую мощность проведенных тестов. [2] [3] Статистическая мощность частично зависит от большого размера выборки. Поскольку удаление по списку исключает данные с пропущенными значениями, оно уменьшает выборку, которая подвергается статистическому анализу.
Удаление по списку также проблематично, если причина отсутствия данных не может быть случайной (например, вопросы в анкетах, направленные на получение конфиденциальной информации). [3] Из-за этого метода большая часть данных испытуемых будет исключена из анализа, что приведет к смещению результатов. Например, анкета может включать вопросы об истории употребления наркотиков респондентами, текущих доходах или сексуальных убеждениях. Многие из испытуемых выборки могут не ответить из-за навязчивого характера вопросов, но могут ответить на все остальные пункты. Удаление по списку исключит этих респондентов из анализа. Это может создать предвзятость, поскольку участники, которые разглашают эту информацию, могут иметь другие характеристики, чем участники, которые этого не делают. Множественное вменение — это альтернативный метод работы с отсутствующими данными, который пытается устранить эту предвзятость.
По сравнению с другими методами
[ редактировать ]Хотя списочное удаление имеет свои проблемы, оно предпочтительнее многих других методов обработки отсутствующих данных. [1] : 7 В некоторых случаях это может быть даже наименее проблематичный метод. [1] : 6 В следующей таблице приведены некоторые сравнения спискового удаления с другими методами:
Метод | Сравнение |
---|---|
Попарное удаление | Неоднозначное определение размера выборки приводит к смещению оценок стандартных ошибок и статистики испытаний. [1] : 9 |
Фиктивная переменная регулировка | Производит смещенные оценки коэффициентов. [4] |
Ссылки
[ редактировать ]- ^ Jump up to: а б с д Эллисон, PD (2001). Отсутствующие данные . Серия статей Университета Сейджа о количественных приложениях в социальных науках. Том. 07–136. Таузенд-Оукс, Калифорния: Сейдж.
- ^ Рот, PL (1994). «Недостающие данные: концептуальный обзор для прикладных психологов». Психология персонала . 47 (3): 537–559. дои : 10.1111/j.1744-6570.1994.tb01736.x .
- ^ Jump up to: а б Олинский А.; Чен, С.; Харлоу, Л. (2003). «Сравнительная эффективность методов вменения недостающих данных при моделировании структурными уравнениями». Европейский журнал операционных исследований . 151 (1): 53–79. дои : 10.1016/S0377-2217(02)00578-7 .
- ^ Джонс, член парламента (1996). «Индикаторные и стратификационные методы для отсутствующих объясняющих переменных в множественной линейной регрессии». Дж. Амер. Статист. доц. 91 (433): 222–230. дои : 10.1080/01621459.1996.10476680 . Цитируется Эллисоном (2001), с. 10.