Jump to content

Цензура (статистика)

В статистике ценность цензура это состояние, при котором измерения или известна наблюдения лишь частично.

Например, предположим, что проводится исследование для измерения влияния лекарства на уровень смертности . В таком исследовании может быть известно, что возраст человека на момент смерти составляет не менее 75 лет (но может быть и больше). Такая ситуация может возникнуть, если человек вышел из исследования в возрасте 75 лет или если человек в настоящее время жив в возрасте 75 лет.

Цензурирование также происходит, когда значение выходит за пределы диапазона измерительного прибора . Например, напольные весы могут весить не более 140 кг. Если на весах взвешивают человека массой 160 кг, наблюдатель будет знать только, что вес человека составляет не менее 140 кг.

Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной частично известно, связана с проблемой отсутствия данных , когда наблюдаемое значение некоторой переменной неизвестно.

Цензуру не следует путать с сокращением соответствующей идеи . При цензурировании наблюдения приводят либо к знанию точного применимого значения, либо к знанию того, что это значение находится в пределах интервала . При усечении наблюдения никогда не приводят к значениям, выходящим за пределы заданного диапазона: значения в совокупности за пределами этого диапазона никогда не наблюдаются и никогда не записываются, если они наблюдаются. Обратите внимание, что в статистике усечение — это не то же самое, что округление .

Типы [ править ]

  • Левая цензура – ​​точка данных ниже определенного значения, но неизвестно, насколько.
  • Интервальная цензура – ​​точка данных находится где-то в интервале между двумя значениями.
  • Правая цензура – ​​точка данных превышает определенное значение, но неизвестно, насколько.
  • Цензура типа I происходит, если в эксперименте используется определенное количество субъектов или предметов, и эксперимент останавливается в заранее определенное время, после чего все оставшиеся субъекты подвергаются цензуре справа.
  • Цензура типа II происходит, если в эксперименте участвует определенное количество субъектов или предметов, и эксперимент останавливается, когда заранее определенное количество оказывается неудачным; остальные предметы затем подвергаются правой цензуре.
  • Случайная (или неинформативная ) цензура — это когда у каждого субъекта есть время цензурирования, которое статистически не зависит от времени его неудачи. Наблюдаемое значение представляет собой минимум времени цензурирования и сбоя; субъекты, время неудачи которых превышает время цензуры, подвергаются цензуре справа.

Интервальная цензура может применяться, когда наблюдение за значением требует последующих действий или проверок. Левая и правая цензура — это особые случаи интервальной цензуры, где начало интервала равно нулю, а конец — бесконечности соответственно.

Методы оценки для использования данных с левой цензурой различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных. [1]

Распространенное заблуждение в отношении данных временных интервалов состоит в том, что их классифицируют как интервалы с цензурой слева , время начала которых неизвестно. В этих случаях у нас есть нижняя граница временного интервала , поэтому данные подвергаются цензуре справа (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если рассматривать их как временную шкалу!).

Анализ [ править ]

Для обработки подвергнутых цензуре данных могут использоваться специальные методы. Тесты с определенным временем сбоя кодируются как фактические сбои; цензурированные данные кодируются в соответствии с типом цензуры и известным интервалом или пределом. Специальные программы (часто ориентированные на надежность ) могут выполнять оценку максимального правдоподобия для сводной статистики, доверительных интервалов и т. Д.

Эпидемиология [ править ]

Одной из первых попыток проанализировать статистическую проблему, включающую цензурированные данные, был Даниэлем Бернулли анализ в 1766 году данных о заболеваемости и смертности от оспы , чтобы продемонстрировать эффективность вакцинации . [2] Первой статьей, в которой использовался оценщик Каплана – Мейера для оценки цензурированных затрат, была Quesenberry et al. (1989), [3] однако этот подход был признан Lin et al. недействительным. [4] если все пациенты не накапливали затраты с общей детерминированной функцией скорости с течением времени, они предложили альтернативный метод оценки, известный как оценщик Лина. [5]

Испытание срока службы [ править ]

Пример пяти повторных тестов, которые привели к четырем сбоям и одному приостановке, что привело к цензуре.

Тестирование надежности часто состоит из проведения испытаний объекта (при определенных условиях) для определения времени, необходимого для возникновения отказа.

  • Иногда отказ запланирован и ожидаем, но не происходит: ошибка оператора, неисправность оборудования, аномалия теста и т. д. Результат теста не соответствует желаемому времени до отказа, но его можно (и нужно) использовать в качестве времени до отказа. прекращение. Использование подвергнутых цензуре данных непреднамеренно, но необходимо.
  • Иногда инженеры планируют программу испытаний так, что после определенного срока или количества отказов все остальные тесты будут прекращены. Это время приостановки рассматривается как данные, подвергнутые цензуре справа. Использование цензурированных данных является преднамеренным.

Анализ данных повторных тестов включает в себя как время до сбоя для элементов, которые не сработали, так и время завершения тестирования для тех элементов, которые не дали сбоя.

регрессия Цензурированная

Более ранняя модель цензурированной регрессии , модель тобита , была предложена Джеймсом Тобином в 1958 году. [6]

Вероятность [ править ]

Вероятность — это вероятность или плотность вероятности того, что наблюдалось, рассматриваемая как функция параметров предполагаемой модели. Чтобы включить цензурированные точки данных в вероятность, цензурированные точки данных представлены вероятностью подвергнутых цензуре точек данных как функции параметров модели, заданной моделью, т.е. функцией CDF(ов) вместо плотности или массы вероятности.

Наиболее общим случаем цензурирования является интервальная цензура: , где — CDF распределения вероятностей, и есть два особых случая:

  • левая цензура:
  • правильная цензура:

Для непрерывных распределений вероятностей:

Пример [ править ]

Предположим, нас интересует время выживания, , но мы не наблюдаем для всех . Вместо этого мы наблюдаем

, с и если действительно наблюдается, и
, с и если все, что мы знаем, это то, что длиннее, чем .

Когда называется временем цензурирования . [7]

Если время цензурирования является всем известными константами, то вероятность равна

где = функция плотности вероятности, оцененная при ,

и = вероятность того, что больше, чем , называемая функцией выживания .

Это можно упростить, определив функцию риска , мгновенную силу смертности, как

так

.

Затем

.

Для экспоненциального распределения это становится еще проще, поскольку уровень опасности , является постоянным, и . Затем:

,

где .

Отсюда мы легко вычисляем , максимального правдоподобия (MLE) оценка , следующее:

.

Затем

.

Мы устанавливаем это значение на 0 и находим получить:

.

Аналогично, среднее время до отказа равно:

.

Это отличается от стандартного MLE для экспоненциального распределения тем, что любые цензурированные наблюдения учитываются только в числителе.

См. также [ править ]

Ссылки [ править ]

  1. ^ Хелсель, Д. (2010). «Много шума из-за почти ничего: включение необнаруженных данных в науку» . Анналы гигиены труда . 54 (3): 257–262. дои : 10.1093/annhyg/mep092 . ПМИД   20032004 .
  2. ^ Бернулли, Д. (1766). «Попытка нового анализа смертности, вызванной оспой». Память Математика. Фи. акад. Рой. наук. Пэрис , перепечатано в книгах «Брэдли» (1971) 21 и «Blower» (2004).
  3. ^ Кезенберри, CP младший; и др. (1989). «Анализ выживаемости госпитализаций пациентов с синдромом приобретенного иммунодефицита» . Американский журнал общественного здравоохранения . 79 (12): 1643–1647. дои : 10.2105/AJPH.79.12.1643 . ПМЦ   1349769 . ПМИД   2817192 .
  4. ^ Лин, ДЮ; и др. (1997). «Оценка медицинских затрат на основе неполных данных последующего наблюдения». Биометрия . 53 (2): 419–434. дои : 10.2307/2533947 . JSTOR   2533947 . ПМИД   9192444 .
  5. ^ Виджейсундера, ХК; и др. (2012). «Методы оценки затрат на здравоохранение с использованием цензурированных данных: обзор для исследователя здравоохранения» . Клинико-экономические исследования и результаты исследований . 4 : 145–155. дои : 10.2147/CEOR.S31552 . ПМЦ   3377439 . ПМИД   22719214 .
  6. ^ Тобин, Джеймс (1958). «Оценка взаимосвязей для ограниченных зависимых переменных» (PDF) . Эконометрика . 26 (1): 24–36. дои : 10.2307/1907382 . JSTOR   1907382 .
  7. ^ Лу Тиан, Построение правдоподобия, Вывод для параметрических распределений выживания (PDF) , Викиданные   Q98961801 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

  • «Справочник по инженерной статистике», NIST/SEMATEK, [1]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9c099d1014d2074298ff7565f21fcfce__1716710700
URL1:https://arc.ask3.ru/arc/aa/9c/ce/9c099d1014d2074298ff7565f21fcfce.html
Заголовок, (Title) документа по адресу, URL1:
Censoring (statistics) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)