Цензура (статистика)
В статистике ценность цензура это состояние, при котором измерения или известна наблюдения — лишь частично.
Например, предположим, что проводится исследование для измерения влияния лекарства на уровень смертности . В таком исследовании может быть известно, что возраст человека на момент смерти составляет не менее 75 лет (но может быть и больше). Такая ситуация может возникнуть, если человек вышел из исследования в возрасте 75 лет или если человек в настоящее время жив в возрасте 75 лет.
Цензурирование также происходит, когда значение выходит за пределы диапазона измерительного прибора . Например, напольные весы могут весить не более 140 кг. Если на весах взвешивают человека массой 160 кг, наблюдатель будет знать только, что вес человека составляет не менее 140 кг.
Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной частично известно, связана с проблемой отсутствия данных , когда наблюдаемое значение некоторой переменной неизвестно.
Цензуру не следует путать с сокращением соответствующей идеи . При цензурировании наблюдения приводят либо к знанию точного применимого значения, либо к знанию того, что это значение находится в пределах интервала . При усечении наблюдения никогда не приводят к значениям, выходящим за пределы заданного диапазона: значения в совокупности за пределами этого диапазона никогда не наблюдаются и никогда не записываются, если они наблюдаются. Обратите внимание, что в статистике усечение — это не то же самое, что округление .
Типы [ править ]
- Левая цензура – точка данных ниже определенного значения, но неизвестно, насколько.
- Интервальная цензура – точка данных находится где-то в интервале между двумя значениями.
- Правая цензура – точка данных превышает определенное значение, но неизвестно, насколько.
- Цензура типа I происходит, если в эксперименте используется определенное количество субъектов или предметов, и эксперимент останавливается в заранее определенное время, после чего все оставшиеся субъекты подвергаются цензуре справа.
- Цензура типа II происходит, если в эксперименте участвует определенное количество субъектов или предметов, и эксперимент останавливается, когда заранее определенное количество оказывается неудачным; остальные предметы затем подвергаются правой цензуре.
- Случайная (или неинформативная ) цензура — это когда у каждого субъекта есть время цензурирования, которое статистически не зависит от времени его неудачи. Наблюдаемое значение представляет собой минимум времени цензурирования и сбоя; субъекты, время неудачи которых превышает время цензуры, подвергаются цензуре справа.
Интервальная цензура может применяться, когда наблюдение за значением требует последующих действий или проверок. Левая и правая цензура — это особые случаи интервальной цензуры, где начало интервала равно нулю, а конец — бесконечности соответственно.
Методы оценки для использования данных с левой цензурой различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных. [1]
Распространенное заблуждение в отношении данных временных интервалов состоит в том, что их классифицируют как интервалы с цензурой слева , время начала которых неизвестно. В этих случаях у нас есть нижняя граница временного интервала , поэтому данные подвергаются цензуре справа (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если рассматривать их как временную шкалу!).
Анализ [ править ]
Для обработки подвергнутых цензуре данных могут использоваться специальные методы. Тесты с определенным временем сбоя кодируются как фактические сбои; цензурированные данные кодируются в соответствии с типом цензуры и известным интервалом или пределом. Специальные программы (часто ориентированные на надежность ) могут выполнять оценку максимального правдоподобия для сводной статистики, доверительных интервалов и т. Д.
Эпидемиология [ править ]
Одной из первых попыток проанализировать статистическую проблему, включающую цензурированные данные, был Даниэлем Бернулли анализ в 1766 году данных о заболеваемости и смертности от оспы , чтобы продемонстрировать эффективность вакцинации . [2] Первой статьей, в которой использовался оценщик Каплана – Мейера для оценки цензурированных затрат, была Quesenberry et al. (1989), [3] однако этот подход был признан Lin et al. недействительным. [4] если все пациенты не накапливали затраты с общей детерминированной функцией скорости с течением времени, они предложили альтернативный метод оценки, известный как оценщик Лина. [5]
Испытание срока службы [ править ]

Тестирование надежности часто состоит из проведения испытаний объекта (при определенных условиях) для определения времени, необходимого для возникновения отказа.
- Иногда отказ запланирован и ожидаем, но не происходит: ошибка оператора, неисправность оборудования, аномалия теста и т. д. Результат теста не соответствует желаемому времени до отказа, но его можно (и нужно) использовать в качестве времени до отказа. прекращение. Использование подвергнутых цензуре данных непреднамеренно, но необходимо.
- Иногда инженеры планируют программу испытаний так, что после определенного срока или количества отказов все остальные тесты будут прекращены. Это время приостановки рассматривается как данные, подвергнутые цензуре справа. Использование цензурированных данных является преднамеренным.
Анализ данных повторных тестов включает в себя как время до сбоя для элементов, которые не сработали, так и время завершения тестирования для тех элементов, которые не дали сбоя.
регрессия Цензурированная
Более ранняя модель цензурированной регрессии , модель тобита , была предложена Джеймсом Тобином в 1958 году. [6]
Вероятность [ править ]
Вероятность — это вероятность или плотность вероятности того, что наблюдалось, рассматриваемая как функция параметров предполагаемой модели. Чтобы включить цензурированные точки данных в вероятность, цензурированные точки данных представлены вероятностью подвергнутых цензуре точек данных как функции параметров модели, заданной моделью, т.е. функцией CDF(ов) вместо плотности или массы вероятности.
Наиболее общим случаем цензурирования является интервальная цензура: , где — CDF распределения вероятностей, и есть два особых случая:
- левая цензура:
- правильная цензура:
Для непрерывных распределений вероятностей:
Пример [ править ]
Предположим, нас интересует время выживания, , но мы не наблюдаем для всех . Вместо этого мы наблюдаем
- , с и если действительно наблюдается, и
- , с и если все, что мы знаем, это то, что длиннее, чем .
Когда называется временем цензурирования . [7]
Если время цензурирования является всем известными константами, то вероятность равна
где = функция плотности вероятности, оцененная при ,
и = вероятность того, что больше, чем , называемая функцией выживания .
Это можно упростить, определив функцию риска , мгновенную силу смертности, как
так
- .
Затем
- .
Для экспоненциального распределения это становится еще проще, поскольку уровень опасности , является постоянным, и . Затем:
- ,
где .
Отсюда мы легко вычисляем , максимального правдоподобия (MLE) оценка , следующее:
- .
Затем
- .
Мы устанавливаем это значение на 0 и находим получить:
- .
Аналогично, среднее время до отказа равно:
- .
Это отличается от стандартного MLE для экспоненциального распределения тем, что любые цензурированные наблюдения учитываются только в числителе.
См. также [ править ]
Ссылки [ править ]
- ^ Хелсель, Д. (2010). «Много шума из-за почти ничего: включение необнаруженных данных в науку» . Анналы гигиены труда . 54 (3): 257–262. дои : 10.1093/annhyg/mep092 . ПМИД 20032004 .
- ^ Бернулли, Д. (1766). «Попытка нового анализа смертности, вызванной оспой». Память Математика. Фи. акад. Рой. наук. Пэрис , перепечатано в книгах «Брэдли» (1971) 21 и «Blower» (2004).
- ^ Кезенберри, CP младший; и др. (1989). «Анализ выживаемости госпитализаций пациентов с синдромом приобретенного иммунодефицита» . Американский журнал общественного здравоохранения . 79 (12): 1643–1647. дои : 10.2105/AJPH.79.12.1643 . ПМЦ 1349769 . ПМИД 2817192 .
- ^ Лин, ДЮ; и др. (1997). «Оценка медицинских затрат на основе неполных данных последующего наблюдения». Биометрия . 53 (2): 419–434. дои : 10.2307/2533947 . JSTOR 2533947 . ПМИД 9192444 .
- ^ Виджейсундера, ХК; и др. (2012). «Методы оценки затрат на здравоохранение с использованием цензурированных данных: обзор для исследователя здравоохранения» . Клинико-экономические исследования и результаты исследований . 4 : 145–155. дои : 10.2147/CEOR.S31552 . ПМЦ 3377439 . ПМИД 22719214 .
- ^ Тобин, Джеймс (1958). «Оценка взаимосвязей для ограниченных зависимых переменных» (PDF) . Эконометрика . 26 (1): 24–36. дои : 10.2307/1907382 . JSTOR 1907382 .
- ^ Лу Тиан, Построение правдоподобия, Вывод для параметрических распределений выживания (PDF) , Викиданные Q98961801 .
Дальнейшее чтение [ править ]
- Блоуэр, С. (2004), Д., Бернулли» «Попытка нового анализа смертности от оспы и преимуществ прививки для ее предотвращения» (PDF) . Архивировано из оригинала (PDF) 8 августа 2017 г. Проверено 25 июня 2019 г. (146 КиБ ) », «Обзоры медицинской вирусологии» , 14 : 275–288.
- Брэдли, Л. (1971). Прививка от оспы: математическая полемика восемнадцатого века . Ноттингем. ISBN 0-902031-23-6 .
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - Манн, Северная Каролина ; и др. (1975). Методы статистического анализа данных о надежности и сроке службы . Нью-Йорк: Уайли. ISBN 047156737X .
- Багдонавичус В., Круопис Дж., Никулин М.С. (2011), «Непараметрические тесты для цензурированных данных», Лондон, ISTE/WILEY, ISBN 9781848212893 .
Внешние ссылки [ править ]
- «Справочник по инженерной статистике», NIST/SEMATEK, [1]