Jump to content

Вменение (статистика)

В статистике вменение это процесс замены отсутствующих данных замененными значениями. При замене точки данных это называется « вменением единицы »; при замене компонента точки данных это называется « вменением элемента ». Существует три основные проблемы, которые вызывают отсутствие данных: отсутствие данных может привести к существенной систематической ошибке обработку и анализ данных , усложнить и привести к снижению эффективности . [1] Поскольку отсутствующие данные могут создать проблемы при анализе данных, вменение рассматривается как способ избежать ошибок, связанных с списковым удалением случаев с пропущенными значениями. То есть, когда для случая отсутствует одно или несколько значений, большинство статистических пакетов по умолчанию отбрасывают любой случай, в котором отсутствует значение, что может привести к систематической ошибке или повлиять на репрезентативность результатов. Вменение сохраняет все случаи, заменяя отсутствующие данные оценочным значением, основанным на другой доступной информации. После того как все пропущенные значения будут вменены, набор данных можно проанализировать с использованием стандартных методов для получения полных данных. [2] Ученые выдвинули множество теорий, объясняющих недостающие данные, но большинство из них вносят предвзятость. Некоторые из хорошо известных попыток справиться с недостающими данными включают в себя: вменение «горячей колоды» и «холодной колоды»; удаление по спискам и попарно; среднее вменение; неотрицательная матричная факторизация; регрессионное вменение; последнее наблюдение перенесено; стохастическое вменение; и множественное вменение.

Удаление по списку (полный регистр)

[ редактировать ]

На сегодняшний день наиболее распространенным способом борьбы с отсутствующими данными является удаление по списку (также известное как полный регистр), при котором удаляются все наблюдения с отсутствующим значением. Если данные отсутствуют полностью случайным образом , то удаление по списку не добавляет никакой систематической ошибки, но снижает эффективность анализа за счет уменьшения эффективного размера выборки. Например, если собрано 1000 случаев, но в 80 из них отсутствуют значения, эффективный размер выборки после удаления по списку составит 920. Если случаи не исчезают полностью случайным образом, то удаление по списку приведет к смещению, поскольку подвыборка случаев, представленная недостающие данные не являются репрезентативными для исходной выборки (и если исходная выборка сама по себе была репрезентативной выборкой популяции, полные случаи также не являются репрезентативными для этой популяции). [3] Хотя списочное удаление является объективным, когда отсутствующие данные отсутствуют совершенно случайно, на самом деле это случается редко. [4]

Попарное удаление (или «доступный анализ случаев») предполагает удаление случая, когда в нем отсутствует переменная, необходимая для конкретного анализа, но включение этого случая в анализы, для которых присутствуют все необходимые переменные. При использовании попарного удаления общее число N для анализа не будет одинаковым для всех оценок параметров. Из-за неполных значений N в некоторые моменты времени при сохранении полного сравнения случаев для других параметров попарное удаление может привести к невозможным математическим ситуациям, таким как корреляции, превышающие 100%. [5]

Одним из преимуществ полного удаления регистров перед другими методами является простота и простота реализации. Это основная причина, по которой полный регистр является наиболее популярным методом обработки недостающих данных, несмотря на множество недостатков.

Единое вменение

[ редактировать ]

Горячая палуба

[ редактировать ]

Когда-то распространенным методом вменения было вменение в горячем режиме, когда недостающее значение вменялось из случайно выбранной аналогичной записи. Термин «горячая колода» восходит к хранению данных на перфокартах и ​​указывает на то, что доноры информации происходят из того же набора данных, что и получатели. Стопка карточек была «горячей», поскольку в данный момент она обрабатывалась.

Одна из форм горячего вменения называется «переносом последнего наблюдения вперед» (или сокращенно LOCF), которая включает в себя сортировку набора данных по любой из нескольких переменных, создавая таким образом упорядоченный набор данных. Затем этот метод находит первое пропущенное значение и использует значение ячейки непосредственно перед отсутствующими данными для вменения пропущенного значения. Процесс повторяется для следующей ячейки с пропущенным значением, пока все пропущенные значения не будут вменены. В обычном сценарии, когда случаи представляют собой повторные измерения переменной для человека или другого объекта, это отражает убеждение в том, что, если измерение отсутствует, лучшим предположением является то, что оно не изменилось с момента последнего измерения. Известно, что этот метод увеличивает риск увеличения предвзятости и потенциально ложных выводов. По этой причине LOCF не рекомендуется использовать. [6]

Холодная палуба

[ редактировать ]

Метод «холодного расчета», напротив, выбирает доноров из другого набора данных. Благодаря развитию компьютерной мощности более сложные методы вменения в целом вытеснили первоначальные методы вменения методом случайной и сортированной «горячей колоды». Это метод замены значениями ответов аналогичных вопросов в прошлых опросах. Он доступен в опросах, измеряющих временные интервалы.

Средняя замена

[ редактировать ]

Другой метод вменения включает замену любого пропущенного значения средним значением этой переменной для всех остальных случаев, преимуществом которого является отсутствие изменения выборочного среднего для этой переменной. Однако вменение среднего значения ослабляет любые корреляции, включающие вменяемую переменную(и). Это связано с тем, что в случаях с вменением гарантировано отсутствие связи между вмененной переменной и любыми другими измеряемыми переменными. Таким образом, вменение среднего имеет некоторые привлекательные свойства для одномерного анализа, но становится проблематичным для многомерного анализа.

Вменение среднего значения может осуществляться внутри классов (т.е. таких категорий, как пол) и может быть выражено как где это вмененное значение для записи и это выборочное среднее данных респондентов внутри некоторого класса . Это частный случай вменения обобщенной регрессии:

Здесь значения оцениваются на основе регрессии на в невмененных данных, — это фиктивная переменная для членства в классе, а данные разбиваются на респондентов ( ) и отсутствует ( ). [7] [8]

Неотрицательная матричная факторизация

[ редактировать ]

Неотрицательная матричная факторизация (NMF) может принимать недостающие данные, минимизируя при этом функцию стоимости, вместо того, чтобы рассматривать эти недостающие данные как нули, которые могут привести к систематической ошибке. [9] Это делает его математически доказанным методом вменения данных. NMF может игнорировать недостающие данные в функции стоимости, а влияние отсутствующих данных может быть столь же малым, как эффект второго порядка.

Регрессия

[ редактировать ]

Вменение регрессии имеет противоположную проблему вменения среднего значения. Предполагается, что регрессионная модель прогнозирует наблюдаемые значения переменной на основе других переменных, и эта модель затем используется для вменения значений в тех случаях, когда значение этой переменной отсутствует. Другими словами, доступная информация для полных и неполных случаев используется для прогнозирования значения конкретной переменной. Затем подобранные значения из регрессионной модели используются для вменения недостающих значений. Проблема в том, что вмененные данные не содержат ошибки, включенной в их оценку, поэтому оценки идеально соответствуют линии регрессии без какой-либо остаточной дисперсии. Это приводит к чрезмерной идентификации связей и предполагает более высокую точность вмененных значений, чем это оправдано. Модель регрессии предсказывает наиболее вероятное значение отсутствующих данных, но не обеспечивает неопределенности в отношении этого значения.

Стохастическая регрессия была довольно успешной попыткой исправить отсутствие ошибки в вменении регрессии путем добавления средней дисперсии регрессии к вменениям регрессии для внесения ошибки. Стохастическая регрессия демонстрирует гораздо меньшую предвзятость, чем вышеупомянутые методы, но она все же упускает одну вещь: если данные вменены, то интуитивно можно подумать, что в проблему следует внести больше шума, чем простое остаточное отклонение. [5]

Множественное вменение

[ редактировать ]

Чтобы решить проблему увеличения шума из-за вменения, Рубин (1987) [10] разработал метод усреднения результатов по нескольким наборам вмененных данных, чтобы учесть это. Все методы множественного вменения состоят из трех этапов. [3]

  1. Вменение. Подобно однократному вменению, вменяются пропущенные значения. Однако вмененные значения извлекаются m из распределения раз, а не только один раз. В конце этого шага должно быть m завершенных наборов данных.
  2. каждый из m Анализ – анализируется наборов данных. В конце этого шага должны быть проведены анализы .
  3. Объединение — m результатов объединяются в один результат путем расчета среднего значения, дисперсии и доверительного интервала рассматриваемой переменной. [11] [12] или путем объединения моделирования каждой отдельной модели. [13]

Множественное вменение может использоваться в случаях, когда данные отсутствуют полностью случайно , отсутствуют случайно или отсутствуют неслучайно , хотя в последнем случае оно может быть необъективным. [14] Одним из подходов является множественное вменение с помощью цепных уравнений (MICE), также известное как «полностью условная спецификация» и «множественное вменение последовательной регрессии». [15] MICE предназначен для пропуска случайных данных, хотя существуют данные моделирования, позволяющие предположить, что при достаточном количестве вспомогательных переменных он также может работать с данными, которые отсутствуют не случайно. Однако MICE может страдать от проблем с производительностью, когда количество наблюдений велико, а данные имеют сложные характеристики, такие как нелинейности и высокая размерность.

Более поздние подходы к множественному вменению используют методы машинного обучения для повышения его производительности. MIDAS (множественное вменение с автоэнкодерами шумоподавления), например, использует автоэнкодеры шумоподавления , тип неконтролируемой нейронной сети, для изучения мелкозернистых скрытых представлений наблюдаемых данных. [16] Было показано, что MIDAS обеспечивает преимущества в точности и эффективности по сравнению с традиционными стратегиями множественного вменения.

Как упоминалось в предыдущем разделе, однократное вменение не учитывает неопределенность в вменениях. После вменения данные обрабатываются так, как если бы они были фактическими реальными значениями при однократном вменении. Пренебрежение неопределенностью в вменении может привести к слишком точным результатам и ошибкам в любых сделанных выводах. [17] При многократном вменении множественное вменение учитывает неопределенность и диапазон значений, которые могло бы принять истинное значение. Как и ожидалось, сочетание оценки неопределенности и глубокого обучения для вменения является одной из лучших стратегий и использовалось для моделирования гетерогенных данных об открытии лекарств. [18] [19]

Кроме того, хотя однократное вменение и полный случай реализовать проще, множественное вменение реализовать не очень сложно. Существует широкий спектр статистических пакетов в различных статистических программах , которые легко выполняют множественное вменение. Например, пакет MICE позволяет пользователям R выполнять множественное вменение с использованием метода MICE. [20] MIDAS можно реализовать в R с помощью пакета rMIDAS и в Python с помощью пакета MIDASpy. [16]

См. также

[ редактировать ]
  1. ^ Барнард, Дж.; Мэн, XL (1 марта 1999 г.). «Применение множественного вменения в медицинских исследованиях: от СПИДа до NHANES». Статистические методы в медицинских исследованиях . 8 (1): 17–36. дои : 10.1177/096228029900800103 . ISSN   0962-2802 . ПМИД   10347858 . S2CID   11453137 .
  2. ^ Гельман, Эндрю и Дженнифер Хилл . Анализ данных с использованием регрессии и многоуровневых/иерархических моделей. Издательство Кембриджского университета, 2006. Глава 25.
  3. ^ Перейти обратно: а б Лалл, Ранджит (2016). «Как множественное вменение имеет значение» . Политический анализ . 24 (4): 414–433. дои : 10.1093/pan/mpw020 .
  4. ^ Кенвард, Майкл Дж. (26 февраля 2013 г.). «Обработка недостающих данных в клинических исследованиях» . Клиническое исследование . 3 (3): 241–250. дои : 10.4155/cli.13.7 . ISSN   2041-6792 .
  5. ^ Перейти обратно: а б Эндерс, СК (2010). Прикладной анализ недостающих данных . Нью-Йорк: Гилфорд Пресс. ISBN  978-1-60623-639-0 .
  6. ^ Молнар, Фрэнк Дж.; Хаттон, Брайан; Фергюссон, Дин (7 октября 2008 г.). «Вносит ли анализ с использованием «последнего наблюдения» предвзятость в исследованиях деменции?» . Журнал Канадской медицинской ассоциации . 179 (8): 751–753. дои : 10.1503/cmaj.080820 . ISSN   0820-3946 . ПМЦ   2553855 . ПМИД   18838445 .
  7. ^ Калтон, Грэм (1986). «Обработка недостающих данных обследования». Методика опроса . 12 : 1–16.
  8. ^ Калтон, Грэм; Каспшик, Дэниел (1982). «Вменение недостающих ответов на опрос» (PDF) . Труды секции обзорных методов исследования . 22 . Американская статистическая ассоциация . S2CID   195855359 . Архивировано из оригинала (PDF) 12 февраля 2020 г.
  9. ^ Рен, Бин; Пуэйо, Лоран; Чен, Кристина; Шоке, Элоди; Дебес, Джон Х; Дюшен, Гаспар; Менар, Франсуа; Перрин, Маршалл Д. (2020). «Использование вменения данных для разделения сигналов в высококонтрастных изображениях» . Астрофизический журнал . 892 (2): 74. arXiv : 2001.00563 . Бибкод : 2020ApJ...892...74R . дои : 10.3847/1538-4357/ab7024 . S2CID   209531731 .
  10. ^ Рубин, Дональд (9 июня 1987 г.). Множественное вменение неполученных ответов в обследованиях . Ряд Уайли по вероятности и статистике. Уайли. дои : 10.1002/9780470316696 . ISBN  9780471087052 .
  11. ^ Юань, Ян К. (2010). «Множественное вменение недостающих данных: концепции и новые разработки» (PDF) . SAS Institute Inc., Роквилл, Мэриленд . 49 : 1–11.
  12. ^ Ван Бюрен, Стеф (29 марта 2012 г.). «2. Множественное вменение». Гибкий расчет недостающих данных . Серия междисциплинарной статистики Чепмена и Холла / CRC. Том. 20125245. Чепмен и Холл/CRC. дои : 10.1201/b11826 . ISBN  9781439868249 . S2CID   60316970 .
  13. ^ Кинг, Гэри ; Хонакер, Джеймс; Джозеф, Энн; Шев, Кеннет (март 2001 г.). «Анализ неполных данных политологии: альтернативный алгоритм множественного вменения» . Американский обзор политической науки . 95 (1): 49–69. дои : 10.1017/S0003055401000235 . ISSN   1537-5943 . S2CID   15484116 .
  14. ^ Пепинский, Томас Б. (3 августа 2018 г.). «Примечание об удалении по спискам и множественном вменении» . Политический анализ . 26 (4). Издательство Кембриджского университета (CUP): 480–488. дои : 10.1017/pan.2018.18 . ISSN   1047-1987 .
  15. ^ Азур, Мелисса Дж.; Стюарт, Элизабет А.; Франгакис, Константин; Лиф, Филип Дж. (01 марта 2011 г.). «Множественное вменение цепными уравнениями: что это такое и как оно работает?» . Международный журнал методов психиатрических исследований . 20 (1): 40–49. дои : 10.1002/mpr.329 . ISSN   1557-0657 . ПМК   3074241 . ПМИД   21499542 .
  16. ^ Перейти обратно: а б Лалл, Ранджит; Робинсон, Томас (2021). «MIDAS Touch: точное и масштабируемое вменение недостающих данных с помощью глубокого обучения» . Политический анализ . 30 (2): 179–196. дои : 10.1017/pan.2020.49 .
  17. ^ Грэм, Джон В. (1 января 2009 г.). «Анализ недостающих данных: как заставить его работать в реальном мире». Ежегодный обзор психологии . 60 : 549–576. doi : 10.1146/annurev.psych.58.110405.085530 . ISSN   0066-4308 . ПМИД   18652544 .
  18. ^ Ирвин, Бенедикт (01 июня 2020 г.). «Практическое применение глубокого обучения для расчета гетерогенных данных об открытии лекарств». Журнал химической информации и моделирования . 60 (6): 2848–2857. doi : 10.1021/acs.jcim.0c00443 . ПМИД   32478517 . S2CID   219171721 .
  19. ^ Уайтхед, Томас (12 февраля 2019 г.). «Вменение данных анализа биоактивности с использованием глубокого обучения». Журнал химической информации и моделирования . 59 (3): 1197–1204. doi : 10.1021/acs.jcim.8b00768 . ПМИД   30753070 . S2CID   73429643 .
  20. ^ Хортон, Николас Дж.; Кляйнман, Кен П. (1 февраля 2007 г.). «Много шума из ничего: сравнение методов и программного обеспечения с недостающими данными для соответствия неполным моделям регрессии данных» . Американский статистик . 61 (1): 79–90. дои : 10.1198/000313007X172556 . ISSN   0003-1305 . ПМЦ   1839993 . ПМИД   17401454 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5c12aee63ed73ebb556e236d51a316da__1710090120
URL1:https://arc.ask3.ru/arc/aa/5c/da/5c12aee63ed73ebb556e236d51a316da.html
Заголовок, (Title) документа по адресу, URL1:
Imputation (statistics) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)