Отсутствующие данные
В статистике возникают , отсутствующие данные или пропущенные значения когда данных значение не сохраняется для переменной в наблюдении . Отсутствие данных является обычным явлением и может существенно повлиять на выводы, которые можно сделать на основе данных.
Отсутствие данных может произойти из-за отсутствия ответа: не предоставлена информация по одному или нескольким пунктам или по целому блоку («предмету»). Некоторые вопросы с большей вероятностью вызовут отсутствие ответа, чем другие: например, вопросы, касающиеся частных тем, таких как доход. Истощение — это тип пропуска, который может возникнуть в продольных исследованиях, например, при изучении развития, когда измерение повторяется через определенный период времени. Пропуск происходит, когда участники выбывают из участия до окончания теста и отсутствует одно или несколько измерений.
Данные часто отсутствуют в исследованиях в области экономики , социологии и политологии, потому что правительства или частные организации предпочитают не сообщать или не сообщают важную статистику. [1] или потому что информация недоступна. Иногда отсутствие значений вызвано исследователем, например, когда сбор данных выполнен неправильно или допущены ошибки при вводе данных. [2]
Эти формы отсутствия бывают разных типов и по-разному влияют на достоверность выводов исследования: полное отсутствие, случайное отсутствие и неслучайное отсутствие. С недостающими данными можно обращаться так же, как и с цензурированными данными .
Типы
[ редактировать ]Понимание причин отсутствия данных важно для правильной обработки оставшихся данных. Если значения отсутствуют совершенно случайно, выборка данных, скорее всего, все еще будет репрезентативной для генеральной совокупности. Но если значения систематически отсутствуют, анализ может быть необъективным. Например, при исследовании связи между IQ и доходом, если участники с IQ выше среднего склонны пропускать вопрос «Какова ваша зарплата?», проводится анализ, который не учитывает это отсутствие случайным образом (шаблон MAR (паттерн MAR ( см. ниже)) может ошибочно не обнаружить положительную связь между IQ и зарплатой. Из-за этих проблем методологи обычно советуют исследователям планировать исследования так, чтобы свести к минимуму возникновение пропущенных значений. [2] Графические модели можно использовать для подробного описания механизма недостающих данных. [3] [4]
Пропал совершенно случайно
[ редактировать ]Значения в наборе данных отсутствуют полностью случайным образом (MCAR), если события, которые приводят к отсутствию какого-либо конкретного элемента данных, не зависят ни от наблюдаемых переменных, ни от ненаблюдаемых параметров, представляющих интерес, и происходят полностью случайным образом. [5] Когда данные представляют собой MCAR, анализ, выполняемый на основе данных, является объективным; однако данные редко являются MCAR.
В случае MCAR отсутствие данных не связано ни с какой переменной исследования: таким образом, участники с полностью наблюдаемыми данными фактически представляют собой случайную выборку всех участников, которым назначено конкретное вмешательство. Предполагается, что при использовании MCAR случайное распределение методов лечения сохраняется, но на практике это обычно нереалистично сильное предположение. [6]
Пропал случайно
[ редактировать ]Случайное отсутствие (MAR) происходит, когда отсутствие не является случайным, а когда отсутствие может быть полностью объяснено переменными, имеющими полную информацию. [7] Поскольку MAR — это предположение, которое невозможно проверить статистически, мы должны полагаться на его содержательную обоснованность. [8] Примером может служить то, что мужчины с меньшей вероятностью будут участвовать в опросе о депрессии, но это не имеет никакого отношения к их уровню депрессии с учетом мужественности. В зависимости от метода анализа эти данные все же могут вызывать смещение параметров в анализе из-за условной пустоты ячеек (мужчины, очень высокая депрессия может иметь нулевые записи). Однако если параметр оценивается с использованием максимального правдоподобия с полной информацией, MAR предоставит асимптотически несмещенные оценки. [ нужна ссылка ]
Пропал не случайно
[ редактировать ]Отсутствующие неслучайно (MNAR) (также называемые неигнорируемым отсутствием ответа) — это данные, которые не являются ни MAR, ни MCAR (т. е. значение отсутствующей переменной связано с причиной ее отсутствия). [5] Если расширить предыдущий пример, то это произойдет, если мужчины не смогут заполнить опросник по депрессии из-за своего уровня депрессии.
Самуэльсон и Спирер (1992) обсуждали, как отсутствующие и/или искаженные данные о демографии, правоохранительной деятельности и здравоохранении могут быть индикаторами нарушений прав человека. Они привели несколько довольно хорошо документированных примеров. [9]
Структурированное отсутствие
[ редактировать ]Недостающие данные также могут возникать по каким-то тонким причинам, которые не учитываются классической теорией. Возникает все более часто встречающаяся проблема, когда данные могут не соответствовать MAR, но отсутствующие значения демонстрируют ассоциацию или структуру, явно или неявно. Такое отсутствие было описано как «структурированное отсутствие». [10]
Структурированные пропуски обычно возникают при объединении информации из нескольких исследований, каждое из которых может различаться по своему дизайну и набору измерений и, следовательно, содержать только подмножество переменных из объединения методов измерения. В таких ситуациях недостающие значения могут относиться к различным методологиям выборки, используемым для сбора данных, или отражать характеристики более широкой совокупности, представляющей интерес, и таким образом могут нести полезную информацию. Например, в контексте здравоохранения наблюдалось структурированное отсутствие как следствие связывания клинических, геномных и визуализирующих данных. [10]
Наличие структурированных пропусков может стать препятствием для эффективного использования данных в большом масштабе, в том числе с помощью как классических статистических, так и современных методов машинного обучения. Например, причины отсутствия некоторых данных в шаблонах могут быть предвзятыми, что может иметь последствия для прогнозируемой справедливости моделей машинного обучения. Кроме того, общепринятые методы работы с недостающими данными, такие как вменение , обычно не принимают во внимание структуру недостающих данных, и поэтому необходима разработка новых формулировок для надлежащего и эффективного решения проблемы структурированного отсутствия данных. Наконец, работа по характеристике структурированного отсутствия в классических рамках MCAR, MAR и MNAR находится в стадии разработки. [11]
Методы работы с недостающими данными
[ редактировать ]Отсутствие данных снижает репрезентативность выборки и, следовательно, может исказить выводы о совокупности. Вообще говоря, существует три основных подхода к обработке недостающих данных: (1) вменение — когда значения заполняются вместо отсутствующих данных, (2) пропуск — когда образцы с неверными данными исключаются из дальнейшего анализа и (3) анализ — путем непосредственного применения методов, на которые не влияют пропущенные значения. В одном систематическом обзоре, посвященном предотвращению и обработке недостающих данных в исследованиях исходов, ориентированных на пациента, были определены 10 стандартов, необходимых для предотвращения и обработки недостающих данных. К ним относятся стандарты дизайна исследования, его проведения, анализа и отчетности. [12]
В некоторых практических приложениях экспериментаторы могут контролировать уровень пропущенных значений и предотвращать пропущенные значения перед сбором данных. Например, в компьютерных анкетах часто невозможно пропустить вопрос. На вопрос необходимо ответить, иначе невозможно перейти к следующему. Таким образом, пропущенные значения по вине участника устраняются с помощью этого типа анкеты, хотя этот метод может быть не разрешен советом по этике, контролирующим исследование. В опросных исследованиях обычно предпринимаются многочисленные попытки связаться с каждым человеком в выборке, часто рассылая письма, пытаясь убедить тех, кто решил не участвовать, изменить свое мнение. [13] : 161–187 Однако такие методы могут как помочь, так и навредить с точки зрения уменьшения негативных последствий отсутствия данных, поскольку тип людей, которых готовы убедить принять участие после первоначального отказа или отсутствия дома, вероятно, будет значительно отличаться от тех, людей, которые все равно откажутся или останутся недоступными после дополнительных усилий. [13] : 188–198
В ситуациях, когда вероятны пропущенные значения, исследователю часто рекомендуется планировать использование методов анализа данных, устойчивых к пропущенным значениям. Анализ является надежным, когда мы уверены, что легкие или умеренные нарушения ключевых предположений метода приведут к незначительной или нулевой предвзятости или искажению выводов, сделанных о совокупности.
вменение
[ редактировать ]Некоторые методы анализа данных не устойчивы к отсутствию данных и требуют «заполнения» или условного расчета недостающих данных. Рубин (1987) утверждал, что повторение вменения даже несколько раз (5 или меньше) значительно повышает качество оценки. [2] Для многих практических целей 2 или 3 вменения отражают большую часть относительной эффективности, которую можно было бы получить с помощью большего количества вменений. Однако слишком малое количество вменений может привести к существенной потере статистической мощности , и теперь некоторые ученые рекомендуют от 20 до 100 или более. [14] Любой анализ множественных вмененных данных должен повторяться для каждого из наборов вмененных данных, а в некоторых случаях соответствующие статистические данные должны быть объединены относительно сложным способом. [2] Множественное вменение не проводится по конкретным дисциплинам из-за недостаточной подготовки или ошибочных представлений о них. [15] Для вменения данных использовались такие методы, как удаление по спискам, но было обнаружено, что они вносят дополнительную погрешность. [16] Существует руководство для начинающих, в котором представлены пошаговые инструкции по вменению данных. [17]
Алгоритм максимизации ожидания — это подход, при котором значения статистики, которые были бы вычислены, если бы был доступен полный набор данных, оцениваются (вменяются) с учетом структуры недостающих данных. При таком подходе значения отдельных недостающих элементов данных обычно не условно исчисляются.
Интерполяция
[ редактировать ]В математической области численного анализа интерполяция — это метод построения новых точек данных в диапазоне дискретного набора известных точек данных.
При сравнении двух парных выборок с отсутствующими данными тестовая статистика, которая использует все доступные данные без необходимости вменения, представляет собой t-критерий частично перекрывающихся выборок. [18] Это справедливо в условиях нормальности и при условии, что MCAR
Частичное удаление
[ редактировать ]Методы, которые включают сокращение доступных данных до набора данных, не имеющего пропущенных значений, включают:
- Удаление по списку /удаление по регистру
- Попарное удаление
Полный анализ
[ редактировать ]Методы, которые полностью учитывают всю доступную информацию без искажений, возникающих в результате использования вмененных значений, как если бы они действительно наблюдались:
- Генеративные подходы:
- Алгоритм максимизации ожидания
- полная информация, максимального правдоподобия оценка
- Дискриминационные подходы:
частичной идентификации . Также могут быть использованы методы [21]
Методы, основанные на моделях
[ редактировать ]Методы, основанные на моделях, часто использующие графики, предлагаютдополнительные инструменты для тестирования недостающих типов данных (MCAR, MAR, MNAR) и для оценки параметров в условиях отсутствия данных. Например, тест на опровержение MAR/MCAR выглядит следующим образом:
Для любых трех переменных X, Y и Z , где Z наблюдается полностью, а X и Y наблюдаются частично, данные должны удовлетворять: .
Другими словами, наблюдаемая часть X должна быть независимой от статуса отсутствия Y и от каждого значения Z. зависеть Невыполнение этого условия указывает на принадлежность проблемы к категории MNAR. [22]
(Примечание:Эти тесты необходимы для MAR на основе переменных, который представляет собой небольшую разновидность MAR на основе событий. [23] [24] [25] )
Когда данные попадают в категорию MNAR, доступны методы последовательной оценки параметров при выполнении определенных условий в модели. [3] Например, если Y объясняет причину отсутствия в X , а сам Y имеет пропущенные значения, совместное распределение вероятностей X если и Y все равно можно оценить, отсутствие Y является случайным.Оценка в этом случае составит:
где и обозначают наблюдаемые части соответствующих переменных.
Различные структуры модели могут давать разные оценки и разные процедуры оценки, если возможна последовательная оценка. Предыдущая оценка требует сначалаоценка из полных данных и умножив их на когда Y наблюдается независимо от статуса X. оценивается по случаям , Более того, чтобыполучить непротиворечивую оценку, крайне важно, чтобы первый член был в отличие от .
Во многих случаях методы, основанные на моделях, позволяют структуре модели пройти опровержение. [25] Любая модель, которая подразумевает независимость между частично наблюдаемой переменной X и индикатором отсутствия другой переменной Y (т.е. ), условныйна можно подвергнуть следующему тесту на опровержение: .
Наконец, оценки, полученные с помощью этих методов, выводятся в закрытой форме и не требуют итеративных процедур, таких как максимизация ожиданий, котораяподвержены локальному оптимуму. [26]
Особый класс задач возникает, когда вероятность пропуска зависит от времени. Например, в базах данных о травмах вероятность потери данных об исходе травмы зависит от дня после травмы. различные модели нестационарных цепей Маркова В этих случаях применяются . [27]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Месснер С.Ф. (1992). «Изучение последствий ошибочной отчетности по данным для межнациональных исследований убийств». Журнал количественной криминологии . 8 (2): 155–173. дои : 10.1007/bf01066742 . S2CID 133325281 .
- ^ Перейти обратно: а б с д Хэнд, Дэвид Дж.; Адер, Герман Дж.; Мелленберг, Гидеон Дж. (2008). Консультирование по методам исследования: помощник консультанта . Хейзен, Нидерланды: Йоханнес ван Кессель. стр. 305–332. ISBN 978-90-79418-01-5 .
- ^ Перейти обратно: а б Мохан, Картика; Перл, Иудея; Тиан, Джин (2013). «Графические модели для вывода с отсутствующими данными». Достижения в области нейронных систем обработки информации 26 . стр. 1277–1285.
- ^ Карванен, Юха (2015). «Изучение дизайна в причинных моделях». Скандинавский статистический журнал . 42 (2): 361–377. arXiv : 1211.2958 . дои : 10.1111/sjos.12110 . S2CID 53642701 .
- ^ Перейти обратно: а б Полит Д.Ф. Бек CT (2012). Исследования в области сестринского дела: получение и оценка данных для сестринского дела, 9-е изд . Филадельфия, США: Wolters Klower Health, Lippincott Williams & Wilkins.
- ^ Дэн (05 октября 2012 г.). «О биостатистике и клинических исследованиях» . Архивировано из оригинала 15 марта 2016 года . Проверено 13 мая 2016 г.
- ^ "Дом" . Архивировано из оригинала 10 сентября 2015 г. Проверено 1 августа 2015 г.
- ^ Литтл, Родерик Дж.А.; Рубин, Дональд Б. (2002), Статистический анализ с отсутствующими данными (2-е изд.), Wiley .
- ^ Самуэльсон, Дуглас А.; Спирер, Герберт Ф. (1992-12-31), «Глава 3. Использование неполных и искаженных данных в выводах о нарушениях прав человека» , «Права человека и статистика» , University of Pennsylvania Press, стр. 62–78, doi : 10.9783 /9781512802863-006 , ISBN 9781512802863 , получено 18 августа 2022 г.
- ^ Перейти обратно: а б Митра, Робин; Макгоф, Сара Ф.; Чакраборти, Тапабрата; Холмс, Крис; Коппинг, Райан; Хагенбух, Нильс; Бидерманн, Стефани; Нунан, Джек; Леманн, Брюк; Шенви, Адити; Доан, Суан Винь; Лесли, Дэвид; Бьянкони, Джинестра; Санчес-Гарсия, Рубен; Дэвис, Алиша (25 января 2023 г.). «Обучение на данных со структурированным недостатком» . Природный машинный интеллект . 5 (1): 13–23. arXiv : 2304.01429 . дои : 10.1038/s42256-022-00596-z . ISSN 2522-5839 .
- ^ Джексон, Джеймс; Митра, Робин; Хагенбух, Нильс; Макгоф, Сара; Харброн, Крис (05 июля 2023 г.), Полная характеристика структурированного отсутствия , arXiv : 2307.02650
- ^ Ли, Тяньцзин; Хатфлесс, Сьюзен; Шарфштейн, Дэниел О.; Дэниелс, Майкл Дж.; Хоган, Джозеф В.; Литтл, Родерик Дж.А.; Рой, Джейсон А.; Закон, Эндрю Х.; Дикерсин, Кей (2014). «Стандарты должны применяться для предотвращения и обработки недостающих данных в исследованиях исходов, ориентированных на пациента: систематический обзор и консенсус экспертов» . Журнал клинической эпидемиологии . 67 (1): 15–32. дои : 10.1016/j.jclinepi.2013.08.013 . ПМЦ 4631258 . ПМИД 24262770 .
- ^ Перейти обратно: а б Ступ, И .; Биллиет, Дж.; Кох, А.; Фицджеральд, Р. (2010). Сокращение неполучения ответов в опросах: уроки, извлеченные из Европейского социального опроса . Оксфорд: Уайли-Блэквелл. ISBN 978-0-470-51669-0 .
- ^ Грэм Дж.В.; Ольховский А.Е.; Гилрит ТД (2007). «Сколько вменений действительно необходимо? Некоторые практические разъяснения теории множественного вменения». Профилактическая наука . 8 (3): 208–213. CiteSeerX 10.1.1.595.7125 . дои : 10.1007/s11121-007-0070-9 . ПМИД 17549635 . S2CID 24566076 .
- ^ ван Гинкель, Йост Р.; Линтинг, Мариэль; Риппе, Ральф, Калифорния; ван дер Вурт, Аня (03 мая 2020 г.). «Опровержение существующих заблуждений о множественном вменении как методе обработки недостающих данных» . Журнал оценки личности . 102 (3): 297–308. дои : 10.1080/00223891.2018.1530680 . hdl : 1887/138825 . ISSN 0022-3891 . ПМИД 30657714 . S2CID 58580667 .
- ^ ван Бюрен, С. (2018). Гибкое вменение недостающих данных (2-е изд.). ЦРК Пресс.
- ^ Вудс, Эдриен Д.; Герасимова Дарья; Ван Дусен, Бен; Ниссен, Джейсон; Бейнтер, Сьерра; Уздавинес, Алекс; Дэвис-Кин, Памела Э.; Халворсон, Макс; Кинг, Кевин М.; Логан, Джессика А.Р.; Сюй, Мэнлин; Васильев, Мартин Р.; Клэй, Джеймс М.; Моро, Дэвид; Жояль-Демаре, Кевен (23 февраля 2023 г.). «Передовые методы устранения недостающих данных посредством множественного вменения» . Развитие младенцев и детей . 33 . дои : 10.1002/icd.2407 . ISSN 1522-7227 .
- ^ Деррик, Б; Расс, Б; Тохер, Д; Уайт, П. (2017). «Тестовая статистика для сравнения средних значений для двух выборок, включающих как парные, так и независимые наблюдения» . Журнал современных прикладных статистических методов . 16 (1): 137–157. дои : 10.22237/jmasm/1493597280 .
- ^ Чечик, Гал; Хейтц, Джереми; Элидан, Гал; Аббель, Питер ; Коллер, Дафна (1 июня 2008 г.). «Максимально-маржинальная классификация неполных данных» (PDF) . Нейронные системы обработки информации : 233–240.
- ^ Чечик, Гал; Хейтц, Джереми; Элидан, Гал; Аббель, Питер ; Коллер, Дафна (1 июня 2008 г.). «Максимально-маржинальная классификация данных с отсутствующими характеристиками» . Журнал исследований машинного обучения . 9 : 1–21. ISSN 1532-4435 .
- ^ Тамер, Эли (2010). «Частичная идентификация в эконометрике» (PDF) . Ежегодный обзор экономики . 2 (1): 167–195. doi : 10.1146/annurev. Economics.050708.143401 .
- ^ Мохан, Картика; Перл, Иудея (2014). «О тестируемости моделей с недостающими данными». Материалы АИСТАТ-2014, Скоро .
- ^ Дарвич, Аднан (2009). Моделирование и рассуждения с помощью байесовских сетей . Издательство Кембриджского университета.
- ^ Поттофф, РФ; Тюдор, GE; Пипер, Канзас; Хассельблад, В. (2006). «Можно ли оценить, отсутствуют ли случайные недостающие данные в медицинских исследованиях?». Статистические методы в медицинских исследованиях . 15 (3): 213–234. дои : 10.1191/0962280206sm448oa . ПМИД 16768297 . S2CID 12882831 .
- ^ Перейти обратно: а б Перл, Иудея; Мохан, Картика (2013). Возможность восстановления и проверки отсутствующих данных: введение и краткое изложение результатов (PDF) (технический отчет). Департамент компьютерных наук Калифорнийского университета в Лос-Анджелесе, R-417.
- ^ Мохан, К.; Ван ден Брук, Г.; Цой, А.; Перл, Дж. (2014). «Эффективный метод изучения параметров байесовской сети на основе неполных данных». Представлено на семинаре по причинному моделированию и машинному обучению, ICML-2014 .
- ^ Миркес, Э.М.; Коутс, Ти Джей; Левсли, Дж.; Горбань, АН (2016). «Обработка недостающих данных в большом наборе медицинских данных: исследование неизвестных результатов травм» . Компьютеры в биологии и медицине . 75 : 203–216. arXiv : 1604.00627 . Бибкод : 2016arXiv160400627M . doi : 10.1016/j.compbiomed.2016.06.004 . ПМИД 27318570 . S2CID 5874067 . Архивировано из оригинала 5 августа 2016 г.
Дальнейшее чтение
[ редактировать ]- Акок AC (2005), «Работа с недостающими ценностями», Journal of Marriage and Family , 67 (4): 1012–28, doi : 10.1111/j.1741-3737.2005.00191.x
- Эллисон, Пол Д. (2001), Отсутствующие данные , SAGE Publishing
- Буза-Эррера, Карлос Н. (2013), Обработка недостающих данных при ранжированной выборке наборов , Springer
- Эндерс, Крейг К. (2010), Прикладной анализ недостающих данных , Guilford Press
- Грэм, Джон В. (2012), Отсутствующие данные , Спрингер
- Моленбергс, Герт; Фицморис, Гарретт; Кенвард, Майкл Г.; Циатис, Анастасиос; Вербеке, Герт, ред. (2015), Справочник по методологии недостающих данных , Chapman & Hall
- Рагунатан, Тривеллор (2016), Анализ недостающих данных на практике , Чепмен и Холл
- Литтл, Родерик Дж.А.; Рубин, Дональд Б. (2002), Статистический анализ с отсутствующими данными (2-е изд.), Wiley
- Циатис, Анастасиос А. (2006), Полупараметрическая теория и недостающие данные , Springer
- Ван ден Брук Дж., Каннингем С.А., Экелс Р., Хербст К. (2005), «Очистка данных: обнаружение, диагностика и редактирование аномалий данных», PLOS Medicine , 2 (10): e267, doi : 10.1371/journal.pmed.0020267 , PMC 1198040 , PMID 16138788 , S2CID 5667073
- Сарате Л.Е., Ногейра Б.М., Сантос Т.Р., Сонг М.А. (2006). «Методы восстановления пропущенных значений в несбалансированных базах данных: применение в маркетинговой базе данных с огромным количеством недостающих данных». Международная конференция IEEE по системам, человеку и кибернетике, 2006 г. SMC '06 . Том. 3. С. 2658–2664. дои : 10.1109/ICSMC.2006.385265 .
Внешние ссылки
[ редактировать ]Фон
[ редактировать ]- Недостающие данные , Департамент медицинской статистики, Лондонская школа гигиены и тропической медицины
- Анализ пространственных и временных тенденций долгосрочных данных об осадках в водосборах с недостаточным объемом данных и отсутствующими данными, тематическое исследование поймы Нижнего Шира в Малави за период 1953–2010 гг .
- R-miss-tastic . Единая платформа для методов и рабочих процессов пропущенных значений.
- Отсутствующие ценности – представьте