Анализ выживания
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Анализ выживания — это раздел статистики , предназначенный для анализа ожидаемой продолжительности времени до тех пор, пока не произойдет одно событие, такое как смерть биологических организмов и отказ механических систем. Эта тема называется теорией надежности , анализом надежности или инженерией надежности в технике , анализом продолжительности или моделированием продолжительности в экономике и анализом истории событий в социологии . Анализ выживания пытается ответить на определенные вопросы, например, какова доля населения, которая выживет после определенного времени? Из тех, кто выживет, с какой скоростью они умрут или потерпят неудачу? Можно ли принять во внимание множественные причины смерти или неудачи? Как определенные обстоятельства или характеристики увеличивают или уменьшают вероятность выживания ?
Чтобы ответить на такие вопросы, необходимо дать определение «сроку жизни». В случае биологического выживания смерть однозначна, но с точки зрения механической надежности отказ не может быть четко определен, поскольку вполне могут существовать механические системы, в которых отказ является частичным, зависит от степени или не локализован иным образом во времени . Даже в биологических проблемах некоторые события (например, сердечный приступ или отказ другого органа) могут иметь такую же двусмысленность. Теория , изложенная ниже, предполагает четко определенные события в определенное время; другие случаи лучше рассматривать с помощью моделей, которые явно учитывают неоднозначные события.
В более общем смысле анализ выживаемости включает моделирование данных о времени до события; в этом контексте смерть или неудача считаются «событием» в литературе по анализу выживания - традиционно для каждого субъекта происходит только одно событие, после которого организм или механизм погибают или ломаются. Модели повторяющихся событий или повторяющихся событий ослабляют это предположение. Изучение повторяющихся событий актуально для обеспечения надежности систем , а также для многих областей социальных наук и медицинских исследований.
Введение в анализ выживания
[ редактировать ]Анализ выживания используется несколькими способами:
- Описать время выживания членов группы.
- Сравнить время выживания двух или более групп.
- Описать влияние категориальных или количественных переменных на выживаемость.
- Регрессия пропорциональных рисков Кокса
- Параметрические модели выживания
- Деревья выживания
- Случайные леса выживания
Определения общих терминов в анализе выживания
[ редактировать ]В анализе выживаемости обычно используются следующие термины:
- Событие: смерть, возникновение заболевания, рецидив заболевания, выздоровление или другой представляющий интерес опыт.
- Время: время от начала периода наблюдения (например, операции или начала лечения) до (i) события, или (ii) окончания исследования, или (iii) потери контакта или выхода из исследования.
- Цензура / цензурированное наблюдение: цензура происходит, когда у нас есть некоторая информация об индивидуальном времени выживания, но мы не знаем точное время выживания. Объект подвергается цензуре в том смысле, что после цензуры о нем ничего не наблюдается и ничего не известно. У подвергнутого цензуре субъекта может произойти событие после окончания времени наблюдения, а может и не быть.
- Функция выживания S(t): вероятность того, что субъект выживет дольше, чем время t.
Пример: данные о выживаемости при остром миелогенном лейкозе.
[ редактировать ]В этом примере используется набор данных о выживаемости при остром миелолейкозе «aml» из пакета «survival» в R. Набор данных взят из Miller (1997). [ 1 ] и вопрос в том, следует ли продлить («поддерживать») стандартный курс химиотерапии на дополнительные циклы.
В рамке показан набор данных AML, отсортированный по времени выживания.
наблюдение | время
(недели) |
статус | х |
---|---|---|---|
12 | 5 | 1 | Необслуживаемый |
13 | 5 | 1 | Необслуживаемый |
14 | 8 | 1 | Необслуживаемый |
15 | 8 | 1 | Необслуживаемый |
1 | 9 | 1 | Поддерживается |
16 | 12 | 1 | Необслуживаемый |
2 | 13 | 1 | Поддерживается |
3 | 13 | 0 | Поддерживается |
17 | 16 | 0 | Необслуживаемый |
4 | 18 | 1 | Поддерживается |
5 | 23 | 1 | Поддерживается |
18 | 23 | 1 | Необслуживаемый |
19 | 27 | 1 | Необслуживаемый |
6 | 28 | 0 | Поддерживается |
20 | 30 | 1 | Необслуживаемый |
7 | 31 | 1 | Поддерживается |
21 | 33 | 1 | Необслуживаемый |
8 | 34 | 1 | Поддерживается |
22 | 43 | 1 | Необслуживаемый |
9 | 45 | 0 | Поддерживается |
23 | 45 | 1 | Необслуживаемый |
10 | 48 | 1 | Поддерживается |
11 | 161 | 0 | Поддерживается |
- Время указывается переменной «время», которая представляет собой время выживания или цензурирования.
- Событие (рецидив рака АМЛ) обозначается переменной «статус». 0 = нет события (цензура), 1 = событие (повторение)
- Группа лечения: переменная «x» указывает, проводилась ли поддерживающая химиотерапия.
Последнее наблюдение (11) на сроке 161 неделя подвергается цензуре. Цензурирование указывает на то, что у пациента не было события (нет рецидива рака ОМЛ). Другой субъект, наблюдение 3, был подвергнут цензуре через 13 недель (обозначается статусом=0). Этот субъект находился в исследовании всего 13 недель, и рак ОМЛ не рецидивировал в течение этих 13 недель. Возможно, что этот пациент был включен ближе к концу исследования, так что его можно было наблюдать только 13 недель. Также возможно, что пациент был включен в исследование на ранней стадии, но был потерян для последующего наблюдения или выбыл из исследования. В таблице показано, что другие субъекты подвергались цензуре на 16, 28 и 45 неделях (наблюдения 17, 6 и 9 со статусом=0). У всех остальных субъектов во время исследования наблюдались явления (рецидив рака ОМЛ). Интересный вопрос заключается в том, возникает ли рецидив позже у пациентов, получающих поддерживающее лечение, чем у пациентов, не получающих поддерживающее лечение.
График Каплана-Мейера для данных AML
[ редактировать ]Функция выживания S ( t ) — это вероятность того, что субъект выживет дольше, чем время t . S ( t ) теоретически представляет собой гладкую кривую, но обычно ее оценивают с помощью кривой Каплана – Мейера (КМ). На графике показан график КМ для данных AML, который можно интерпретировать следующим образом:
- Ось x — время от нуля (когда началось наблюдение) до последней наблюдаемой точки времени.
- Ось Y представляет собой долю выживших субъектов. В нулевой момент времени 100% субъектов живы без каких-либо событий.
- Сплошная линия (похожая на лестницу) показывает развитие событий.
- Вертикальная капля указывает на событие. В таблице AML, показанной выше, у двух субъектов явления произошли через пять недель, у двух — через восемь недель, у одного — через девять недель и так далее. Эти события через пять недель, восемь недель и т. д. обозначаются вертикальными падениями на графике КМ в эти моменты времени.
- В крайнем правом конце графика КМ имеется отметка на отметке 161 неделя. Вертикальная галочка указывает на то, что в это время пациент был подвергнут цензуре. В таблице данных АМЛ пять субъектов были подвергнуты цензуре на 13, 16, 28, 45 и 161 неделе. На графике КМ отмечено пять отметок, соответствующих этим цензурированным наблюдениям.
Таблица выживания для данных AML
[ редактировать ]Таблица смертности обобщает данные о выживаемости с точки зрения количества событий и доли выживших в каждый момент времени события. таблица смертности для данных АМЛ, созданная с помощью программного обеспечения R. Показана

Таблица смертности суммирует события и долю выживших в каждый момент времени события. Столбцы таблицы дожития имеют следующую интерпретацию:
- время дает моменты времени, в которые происходят события.
- n.risk — количество субъектов, подвергающихся риску непосредственно перед моментом времени, t. Нахождение «под угрозой» означает, что у субъекта не было событий до момента t и он не подвергался цензуре до или в момент t.
- n.event — количество субъектов, у которых произошли события в момент времени t.
- выживание — это доля выживших, определяемая с использованием оценки предела продукта Каплана-Мейера.
- std.err — стандартная ошибка предполагаемой выживаемости. Стандартная ошибка оценки предела продукта Каплана-Мейера рассчитывается по формуле Гринвуда и зависит от числа людей, подвергающихся риску (n.risk в таблице), количества смертей (n.event в таблице) и доли выжившие (выживаемость в таблице).
- нижний 95% ДИ и верхний 95% ДИ представляют собой нижнюю и верхнюю 95% доверительную границу для доли выживших.
Логранговый тест: проверка различий в выживаемости в данных ОМЛ.
[ редактировать ]Логранговый тест сравнивает время выживания двух или более групп. В этом примере используется лог-ранговый тест для определения разницы в выживаемости в группах, получающих и не получающих поддерживающее лечение, в данных АМЛ. На графике показаны графики KM для данных АМЛ с разбивкой по группам лечения, что обозначается переменной «x» в данных.

Нулевая гипотеза логарифмического теста заключается в том, что группы имеют одинаковую выживаемость. Ожидаемое количество выживших субъектов в каждый момент времени в каждом случае корректируется с учетом количества субъектов, подвергающихся риску в группах в каждый момент времени. Лог-ранговый тест определяет, значительно ли отличается наблюдаемое количество событий в каждой группе от ожидаемого. Формальный тест основан на статистике хи-квадрат. Когда логарифмическая статистика велика, это свидетельствует о разнице во времени выживания между группами. Логранговая статистика приблизительно имеет распределение Хи-квадрат с одной степенью свободы, а значение p рассчитывается с использованием критерия Хи-квадрат .
Для данных примера лог-ранговый тест на разницу в выживаемости дает значение p = 0,0653, что указывает на то, что группы лечения существенно не различаются по выживаемости, при условии, что уровень альфа равен 0,05. Размер выборки из 23 человек невелик, поэтому мало возможностей обнаружить различия между группами лечения. Критерий хи-квадрат основан на асимптотической аппроксимации, поэтому к значению p следует относиться с осторожностью при небольших размерах выборки .
Регрессионный анализ пропорциональных рисков Кокса (PH)
[ редактировать ]Кривые Каплана-Мейера и лог-ранговые тесты наиболее полезны, когда переменная-предиктор является категориальной (например, препарат против плацебо) или принимает небольшое количество значений (например, дозы препарата 0, 20, 50 и 100 мг/день). ), которые можно рассматривать как категориальные. Логранговый тест и кривые КМ нелегко использовать с количественными показателями, такими как экспрессия генов, количество лейкоцитов или возраст. Для количественных переменных-предикторов альтернативным методом является пропорциональных рисков Кокса регрессионный анализ . Модели Cox PH также работают с категориальными переменными-предикторами, которые кодируются как индикаторные или фиктивные переменные {0,1}. Лог-ранговый тест является частным случаем анализа Cox PH и может быть выполнен с использованием программного обеспечения Cox PH.
Пример. Регрессионный анализ пропорциональных рисков Кокса для меланомы.
[ редактировать ]В этом примере используется набор данных о меланоме из главы 14 Далгаарда. [ 2 ]
Данные находятся в пакете R ISwR. Регрессия пропорциональных рисков Кокса с использованием R дает результаты, показанные в рамке.

Результаты регрессии Кокса интерпретируются следующим образом.
- Пол кодируется числовым вектором (1: женский, 2: мужской). Сводка R для модели Кокса дает отношение рисков (HR) для второй группы по отношению к первой группе, то есть мужчины по сравнению с женщинами.
- coef = 0,662 — расчетный логарифм отношения рисков для мужчин и женщин.
- exp(coef) = 1,94 = exp(0,662) — логарифм отношения рисков (coef= 0,662) преобразуется в отношение рисков с помощью exp(coef). В сводке модели Кокса указано соотношение рисков для второй группы по отношению к первой группе, то есть мужчины и женщины. Согласно этим данным, расчетный коэффициент риска 1,94 указывает на то, что мужчины имеют более высокий риск смерти (более низкие показатели выживаемости), чем женщины.
- se(coef) = 0,265 — стандартная ошибка логарифмического отношения рисков.
- z = 2,5 = коэффициент/se(коэф) = 0,662/0,265. Разделение коэффициента на его стандартную ошибку дает оценку z.
- р=0,013. Значение p, соответствующее z=2,5 для пола, составляет p=0,013, что указывает на значительную разницу в выживаемости в зависимости от пола.
Сводные выходные данные также дают верхний и нижний 95% доверительные интервалы для отношения рисков: нижняя 95% граница = 1,15; верхняя граница 95% = 3,26.
Наконец, выходные данные дают значения p для трех альтернативных тестов общей значимости модели:
- Тест отношения правдоподобия = 6,15 на 1 df, p = 0,0131
- Тест Вальда = 6,24 на 1 df, p=0,0125
- Оценка (логарифмический) тест = 6,47 на 1 df, p = 0,0110
Эти три теста асимптотически эквивалентны. Для достаточно большого N они дадут аналогичные результаты. Для малых N они могут несколько отличаться. Последняя строка, «Тест на балл (логранг)», представляет собой результат лог-рангового теста с p = 0,011, тот же результат, что и лог-ранговый тест, поскольку лог-ранговый тест является особым случаем PH Кокса. регресс. Тест отношения правдоподобия лучше работает при небольших размерах выборки, поэтому обычно он предпочтителен.
Модель Кокса с использованием ковариаты в данных меланомы
[ редактировать ]Модель Кокса расширяет лог-ранговый тест, позволяя включать дополнительные ковариаты. [ 3 ] В этом примере используется набор данных о меланоме, где переменные-предсказатели включают непрерывную ковариату, толщину опухоли (имя переменной = «толстая»).

На гистограммах значения толщины имеют положительный сдвиг и не имеют гауссовского симметричного распределения вероятностей . Модели регрессии, включая модель Кокса, обычно дают более надежные результаты с нормально распределенными переменными. [ нужна ссылка ] В этом примере мы можем использовать логарифмическое преобразование. Логарифм толщины опухоли выглядит более нормально распределенным, поэтому в моделях Кокса будет использоваться логарифм толщины. Анализ Кокса PH дает результаты в рамке.

Значение p для всех трех общих критериев (вероятность, Вальда и оценка) являются значимыми, что указывает на значимость модели. Значение p для log(толстый) составляет 6,9e-07, с отношением рисков HR = exp(coef) = 2,18, что указывает на сильную связь между толщиной опухоли и повышенным риском смерти.
Напротив, значение p для пола теперь составляет p = 0,088. Отношение рисков HR = exp(coef) = 1,58 с 95% доверительным интервалом от 0,934 до 2,68. Поскольку доверительный интервал для ЧСС включает 1, эти результаты показывают, что пол вносит меньший вклад в разницу в ЧСС после контроля толщины опухоли и имеет тенденцию только к значимости. Изучение графиков log (толщины) в зависимости от пола и t-тест log (толщины) в зависимости от пола показывают, что существует значительная разница между мужчинами и женщинами в толщине опухоли, когда они впервые обращаются к врачу.
Модель Кокса предполагает, что опасности пропорциональны. Предположение о пропорциональном риске можно проверить с помощью функции R cox.zph(). Значение p меньше 0,05 указывает на то, что опасности непропорциональны. Для данных о меланоме мы получаем p=0,222. Следовательно, мы не можем отвергнуть нулевую гипотезу о пропорциональности рисков. Дополнительные тесты и графики для исследования модели Кокса описаны в цитируемых учебниках.
Расширения моделей Кокса
[ редактировать ]Модели Кокса можно расширить, чтобы учесть варианты простого анализа.
- Стратификация. Субъекты могут быть разделены на слои, где ожидается, что субъекты внутри слоя будут относительно более похожи друг на друга, чем на случайно выбранных субъектов из других слоев. Предполагается, что параметры регрессии одинаковы для всех слоев, но для каждой страты могут существовать разные базовые опасности. Стратификация полезна для анализа с использованием подобранных субъектов, для работы с подгруппами пациентов, например, из разных клиник, а также для устранения нарушений предположения о пропорциональном риске.
- Изменяющиеся во времени ковариаты. Некоторые переменные, такие как пол и группа лечения, в ходе клинического исследования обычно остаются неизменными. Другие клинические переменные, такие как уровень белка в сыворотке или дозы сопутствующих препаратов, могут меняться в ходе исследования. Модели Кокса могут быть расширены для таких изменяющихся во времени ковариат.
Древовидные модели выживания
[ редактировать ]Регрессионная модель Кокса PH представляет собой линейную модель. Это похоже на линейную регрессию и логистическую регрессию. В частности, эти методы предполагают, что одной линии, кривой, плоскости или поверхности достаточно для разделения групп (живых и мертвых) или для оценки количественного ответа (времени выживания).
В некоторых случаях альтернативные разделения дают более точную классификацию или количественные оценки. Одним из наборов альтернативных методов являются древовидные модели выживания. [ 4 ] [ 5 ] [ 6 ] включая выживание в случайных лесах. [ 7 ] Модели выживания с древовидной структурой могут давать более точные прогнозы, чем модели Кокса. Изучение обоих типов моделей для данного набора данных является разумной стратегией.
Пример анализа дерева выживания
[ редактировать ]В этом примере анализа дерева выживания используется пакет R «rpart». [ 8 ] Пример основан на 146 пациентах с раком простаты стадии C в наборе данных stagec in rpart. Rpart и пример stagec описаны у Аткинсона и Терно (1997): [ 9 ] который также распространяется как часть пакета rpart. [ 8 ]
Переменные на этапах:
- pgtime : время до прогрессирования или последнее наблюдение без прогрессирования.
- pgstat : статус последнего наблюдения (1 = выполнено, 0 = подвергнуто цензуре)
- возраст : возраст на момент постановки диагноза
- eet : ранняя эндокринная терапия (1=нет, 0=да)
- плоидность : диплоидный/тетраплоидный/анеуплоидный образец ДНК.
- g2 : % клеток в фазе G2.
- степень : степень опухоли (1-4)
- Глисон : Оценка Глисона (3-10)
Дерево выживания, полученное в результате анализа, показано на рисунке.

Каждая ветвь в дереве указывает на разделение значения переменной. Например, корень дерева разделяет предметы с оценкой < 2,5 и предметы с оценкой 2,5 или выше. Конечные узлы указывают количество субъектов в узле, количество субъектов, у которых есть события, и относительную частоту событий по сравнению с корнем. В крайнем левом узле значения 1/33 указывают на то, что у одного из 33 субъектов в узле произошло событие и что относительная частота событий равна 0,122. В узле в крайнем правом нижнем углу значения 11/15 указывают на то, что у 11 из 15 субъектов в узле произошло событие, а относительная частота событий равна 2,7.
Случайные леса выживания
[ редактировать ]Альтернативой построению одного дерева выживания является построение множества деревьев выживания, где каждое дерево строится с использованием выборки данных и усредняет деревья для прогнозирования выживания. [ 7 ] Этот метод лежит в основе моделей случайного леса выживания. Анализ случайного леса выживания доступен в пакете R «randomForestSRC». [ 10 ]
Пакет randomForestSRC включает пример анализа случайного леса выживания с использованием набора данных pbc. Эти данные взяты из исследования печени по первичному билиарному циррозу (ПБЦ) клиники Мэйо, проведенного в период с 1974 по 1984 год. В этом примере модель выживания случайного леса дает более точные прогнозы выживаемости, чем модель Кокса PH. Ошибки прогнозирования оцениваются путем повторной выборки начальной загрузки .
Модели выживания глубокого обучения
[ редактировать ]Последние достижения в области глубокого обучения представлениям были распространены на оценку выживания. ДипСурв [ 11 ] модель предлагает заменить лог-линейную параметризацию модели CoxPH многослойным персептроном. Дальнейшие расширения, такие как Deep Survival Machines. [ 12 ] и смеси Дип Кокса [ 13 ] предполагают использование моделей смеси скрытых переменных для моделирования распределения времени до события как смеси параметрических или полупараметрических распределений при совместном изучении представлений входных ковариат. Подходы глубокого обучения показали превосходную эффективность, особенно при работе со сложными модальностями входных данных, такими как изображения и клинические временные ряды.
Общая формулировка
[ редактировать ]Функция выживания
[ редактировать ]Объектом основного интереса является функция выживания , условно обозначаемая S , которая определяется как
где t — некоторое время, T — случайная величина, обозначающая время смерти, а «Pr» означает вероятность . То есть функция выживания — это вероятность того, что время смерти наступит позднее некоторого заданного времени t . Функция выживания также называется функцией выживания или функцией выживания в задачах биологического выживания и функцией надежности в задачах механического выживания. В последнем случае функция надежности обозначается R ( t ).
Обычно предполагается, что S (0) = 1, хотя оно может быть и меньше 1, если существует вероятность немедленной смерти или неудачи.
Функция выживания должна быть невозрастающей: S ( u ) ≤ S ( t ), если u ≥ t . Это свойство следует напрямую, поскольку из T > u следует T > t . Это отражает представление о том, что дожить до более позднего возраста возможно только в том случае, если будут достигнуты все более молодые возрасты. Учитывая это свойство, функция распределения времени жизни и плотность событий ( F и f ниже) четко определены.
Обычно предполагается, что функция выживания приближается к нулю по мере неограниченного увеличения возраста (т. е. S ( t ) → 0 при t → ∞), хотя предел может быть больше нуля, если вечная жизнь возможна. Например, мы могли бы применить анализ выживания к смеси стабильных и нестабильных изотопов углерода ; нестабильные изотопы рано или поздно распадутся, но стабильные изотопы будут существовать бесконечно.
Функция распределения времени жизни и плотность событий
[ редактировать ]Связанные величины определяются через функцию выживания.
Функция распределения времени жизни , условно обозначаемая F , определяется как дополнение к функции выживания,
Если F дифференцируемо , то производная, которая представляет собой функцию плотности распределения времени жизни, обычно обозначается f ,
Функцию f иногда называют плотностью событий ; это частота смертельных случаев или отказов в единицу времени.
Функцию выживания можно выразить через распределение вероятностей и функции плотности вероятности.
Аналогично, функцию плотности событий выживания можно определить как
В других областях, таких как статистическая физика, функция плотности событий выживания известна как плотность времени первого прохождения .
Функция опасности и функция совокупной опасности
[ редактировать ]Функция опасности , условно обозначаемая или , определяется как частота событий в момент времени при условии выживания до времени или позже (т. ). Предположим, что предмет сохранился какое-то время. и нам нужна вероятность того, что он не проживет еще какое-то время. :
Сила смертности является синонимом функции риска , которая используется, в частности, в демографии и актуарной науке , где она обозначается . Термин «степень опасности» является еще одним синонимом.
Сила смертности функции выживания определяется как
Силу смертности еще называют силой неудачи. Это функция плотности вероятности распределения смертности.
В актуарной науке уровень опасности – это уровень смертности среди людей в возрасте . Для жизни в возрасте , сила смертности годы спустя является силой смертности для -годовалый. Уровень опасности также называют уровнем отказов. Уровень опасности и интенсивность отказов — это названия, используемые в теории надежности.
Любая функция является функцией риска тогда и только тогда, когда она удовлетворяет следующим свойствам:
- ,
- .
Фактически, уровень опасности обычно более информативен относительно основного механизма отказа, чем другие представления распределения срока службы.
Функция опасности должна быть неотрицательной, , и его интеграл по должно быть бесконечным, но не ограничено иным образом; он может быть возрастающим или убывающим, немонотонным или прерывистым. Примером может служить функция риска кривой ванны , которая велика при малых значениях , уменьшаясь до некоторого минимума, а затем снова увеличиваясь; это может моделировать свойство некоторых механических систем выходить из строя либо вскоре после работы, либо намного позже, по мере старения системы.
В качестве альтернативы функцию риска можно представить в виде кумулятивной функции риска , условно обозначаемой или :
так переставляя знаки и возводя в степень
или дифференцирование (с помощью правила цепочки)
Название «кумулятивная функция риска» происходит от того факта, что
что представляет собой «накопление» опасности с течением времени.
Из определения , мы видим, что оно неограниченно возрастает при стремлении t к бесконечности (полагая, что стремится к нулю). Это означает, что не должен уменьшаться слишком быстро, поскольку по определению совокупная опасность должна расходиться. Например, не является функцией риска любого распределения выживания, поскольку ее интеграл сходится к 1.
Функция выживания , кумулятивная функция опасности , плотность , функция опасности , а функция распределения времени жизни связаны через
Количества, полученные из распределения выживаемости
[ редактировать ]Будущая жизнь в данный момент времени это время, оставшееся до смерти, с учетом выживания с возрастом . Таким образом, это в настоящих обозначениях. Ожидаемый будущий срок службы — это ожидаемая ценность будущего срока службы. Вероятность смерти в возрасте или раньше , учитывая доживаемость до возраста , это просто
Следовательно, плотность вероятности будущей жизни равна
и ожидаемое будущее время жизни равно
где второе выражение получено интегрированием по частям .
Для , то есть при рождении это сводится к ожидаемой продолжительности жизни.
В задачах надежности ожидаемый срок службы называется средним временем до отказа , а ожидаемый будущий срок службы называется средним остаточным сроком службы .
Поскольку вероятность того, что человек доживет до возраста t или позже, равна S ( t ), по определению ожидаемое число выживших в возрасте t из исходной популяции из n новорожденных составляет n × S ( t ), предполагая ту же функцию выживания для всех людей. Таким образом, ожидаемая доля выживших равна S ( t ). Если выживаемость разных особей независима, то число выживших в возрасте t имеет биномиальное распределение с параметрами n и S ( t ), а дисперсия доли выживших равна S ( t )×(1- S ( t ) )/ н .
Возраст, в котором остается определенная доля выживших, можно найти, решив уравнение S ( t ) = q для t , где q — квантиль рассматриваемый . Обычно нас интересует медианное время жизни , для которого q = 1/2, или другие квантили, такие как q = 0,90 или q = 0,99.
Цензура
[ редактировать ]Цензура — это форма проблемы отсутствия данных, при которой время до события не соблюдается по таким причинам, как прекращение исследования до того, как все набранные субъекты продемонстрировали интересующее событие, или субъект покинул исследование до того, как произошло событие. Цензура широко распространена в анализе выживания.
только нижний предел l для истинного времени события T Если известен , такой что T > l , это называется цензурой справа . Правовая цензура будет применяться, например, к тем субъектам, чья дата рождения известна, но которые все еще живы, когда они теряются для последующего наблюдения или когда исследование заканчивается. Обычно мы сталкиваемся с данными, подвергнутыми цензуре справа.
Если интересующее событие уже произошло до того, как субъект был включен в исследование, но неизвестно, когда оно произошло, говорят, что данные подвергнуты левой цензуре . [ 14 ] Когда можно только сказать, что событие произошло между двумя наблюдениями или исследованиями, это интервальная цензура .
Левая цензура происходит, например, когда постоянный зуб уже появился до начала стоматологического исследования, целью которого является оценка распределения его появления. В том же исследовании время появления подвергается цензуре по интервалам, когда постоянный зуб присутствует во рту при текущем осмотре, но еще не присутствует при предыдущем осмотре. Интервальная цензура часто применяется в исследованиях ВИЧ/СПИДа. Действительно, время до сероконверсии ВИЧ можно определить только путем лабораторной оценки, которую обычно начинают после визита к врачу. Тогда можно только заключить, что сероконверсия ВИЧ произошла между двумя исследованиями. То же самое относится и к диагнозу СПИД, который основывается на клинических симптомах и требует подтверждения медицинским обследованием.
Также может случиться так, что субъекты с продолжительностью жизни меньше некоторого порога могут вообще не наблюдаться: это называется усечением . Обратите внимание, что усечение отличается от цензуры слева, поскольку для данных с левой цензурой мы знаем, что субъект существует, но для усеченных данных мы можем совершенно не знать о субъекте. Усечение также распространено. В так называемом исследовании с отсроченным входом субъектов вообще не наблюдают до тех пор, пока они не достигнут определенного возраста. Например, за людьми могут не наблюдать до тех пор, пока они не достигнут возраста поступления в школу. Любые умершие субъекты дошкольного возраста будут неизвестны. Данные, усеченные слева, часто встречаются в актуарной работе по страхованию жизни и пенсиям . [ 15 ]
Данные с левой цензурой могут возникать, когда время выживания человека становится неполным в левой части периода наблюдения за этим человеком. Например, в эпидемиологическом примере мы можем наблюдать за пациентом на предмет инфекционного заболевания, начиная с того момента, когда у него или нее получен положительный результат теста на инфекцию. Хотя мы можем знать правую часть интересующей нас продолжительности, мы никогда не сможем узнать точное время воздействия инфекционного агента. [ 16 ]
Подгонка параметров к данным
[ редактировать ]Модели выживания можно рассматривать как обычные регрессионные модели, в которых переменной отклика является время. Однако вычисление функции правдоподобия (необходимой для подбора параметров или других выводов) осложняется цензурированием. Функция правдоподобия для модели выживания при наличии цензурированных данных формулируется следующим образом. По определению функция правдоподобия — это условная вероятность данных с учетом параметров модели. Принято считать, что данные независимы с заданными параметрами. Тогда функция правдоподобия является произведением правдоподобия каждого элемента данных. Данные удобно разделить на четыре категории: без цензуры, с цензурой слева, с цензурой справа и с интервальной цензурой. В приведенном ниже уравнении они обозначены «unc.», «lc», «rc» и «ic».
Для нецензурированных данных, с равен возрасту на момент смерти, мы имеем
Для данных, подвергнутых левой цензуре, например, когда известно, что возраст смерти меньше , у нас есть
Для данных, подвергнутых цензуре справа, например, когда известно, что возраст смерти превышает , у нас есть
Для данных с интервальной цензурой, таких, что возраст смерти, как известно, меньше и больше, чем , у нас есть
Важным приложением, в котором возникают данные с интервальной цензурой, являются данные о текущем состоянии, где событие известно, что оно не произошло до времени наблюдения и произошло до следующего времени наблюдения.
Непараметрическая оценка
[ редактировать ]Оценщик Каплана – Мейера можно использовать для оценки функции выживания. Оценщик Нельсона-Аалена можно использовать для получения непараметрической оценки кумулятивной функции уровня опасности. Этим оценкам требуются данные за весь срок службы. Периодический подсчет случаев (когорт) и смертей (и выздоровлений) статистически достаточен для получения непараметрических оценок функций выживания по методу максимального правдоподобия и наименьших квадратов без данных о времени жизни.
Модели выживания в дискретном времени
[ редактировать ]Хотя многие параметрические модели предполагают существование непрерывного времени, модели выживания с дискретным временем могут быть сопоставлены с проблемой двоичной классификации. В модели выживания с дискретным временем период выживания искусственно пересчитывается в интервалы, где для каждого интервала записывается двоичный целевой индикатор, если событие происходит в определенном временном горизонте. [ 17 ] Если двоичный классификатор (потенциально расширенный с другой вероятностью для учета большей структуры проблемы) калибруется , то оценка классификатора представляет собой функцию риска (т. е. условную вероятность отказа). [ 17 ]

Модели выживания в дискретном времени связаны с эмпирической вероятностью . [ 18 ] [ 19 ]
Хорошая посадка
[ редактировать ]Степень соответствия моделей выживания можно оценить с помощью правил оценки . [ 20 ]
Компьютерное программное обеспечение для анализа выживаемости
[ редактировать ]В учебнике Кляйнбаума есть примеры анализа выживания с использованием SAS, R и других пакетов. [ 21 ] Учебники Брострома, [ 22 ] Далгаард [ 2 ] и Тейблмен и Ким [ 23 ] приведите примеры анализа выживаемости с использованием R (или с использованием S, который выполняется в R).
Распределения, используемые в анализе выживаемости
[ редактировать ]- Экспоненциальное распределение
- Распределение Вейбулла
- Лог-логистическая дистрибуция
- Гамма-распределение
- Экспоненциально-логарифмическое распределение
- Обобщенное гамма-распределение
- Гипертабастическое распределение
Приложения
[ редактировать ]- Кредитный риск [ 24 ] [ 25 ]
- Уровень ложных осуждений заключенных, приговоренных к смертной казни [ 26 ]
- Сроки поставки металлических компонентов в аэрокосмической промышленности [ 27 ]
- Предикторы криминального рецидива [ 28 ]
- Распределение по выживанию животных с радиоактивными метками [ 29 ]
- Время до насильственной смерти римских императоров [ 30 ]
- Время ожидания между сделками для акций, торгуемых электронным способом, на фондовой бирже [ 31 ]
См. также
[ редактировать ]- Модель ускоренного времени отказа
- Байесовский анализ выживания
- Кривая выживания клеток
- Цензура (статистика)
- Выбор портфеля с учетом шансов
- Частота отказов
- Частота превышения
- Оценщик Каплана – Мейера
- Логранковый тест
- Максимальная вероятность
- Уровень смертности
- среднее время безотказной работы
- Модели пропорциональных рисков
- Теория надежности
- Время пребывания (статистика)
- Анализ последовательности в социальных науках
- Функция выживания
- Выживаемость
- Пропорциональные опасности в дискретном времени
Ссылки
[ редактировать ]- ^ Миллер, Руперт Г. (1997), Анализ выживания , John Wiley & Sons, ISBN 0-471-25218-2
- ^ Перейти обратно: а б Далгаард, Питер (2008), Вводная статистика с R (второе изд.), Springer, ISBN 978-0387790534
- ^ Саэгуса, Такуми; Ди, Чунчжи; Чен, Ин Цин (сентябрь 2014 г.). «Проверка гипотезы для расширенной модели Кокса с изменяющимися во времени коэффициентами» . Биометрия . 70 (3): 619–628. дои : 10.1111/biom.12185 . ISSN 0006-341X . ПМК 4247822 .
- ^ Сигал, Марк Роберт (1988). «Деревья регрессии для цензурированных данных» . Биометрия . 44 (1): 35–47. дои : 10.2307/2531894 . JSTOR 2531894 . S2CID 60974957 .
- ^ Леблан, Майкл; Кроули, Джон (1993). «Деревья выживания по доброте Сплита» . Журнал Американской статистической ассоциации . 88 (422): 457–467. дои : 10.1080/01621459.1993.10476296 . ISSN 0162-1459 .
- ^ Ритчард, Гилберт; Габадиньо, Алексис; Мюллер, Николас С.; Студер, Матиас (2008). «История событий в горнодобывающей промышленности: взгляд на социальные науки» . Международный журнал интеллектуального анализа данных, моделирования и управления . 1 (1): 68. doi : 10.1504/IJDMMM.2008.022538 . ISSN 1759-1163 .
- ^ Перейти обратно: а б Ишваран, Хемант; Когалур, Удая Б.; Блэкстоун, Юджин Х.; Лауэр, Майкл С. (1 сентября 2008 г.). «Случайные леса выживания» . Анналы прикладной статистики . 2 (3). arXiv : 0811.1645 . дои : 10.1214/08-AOAS169 . ISSN 1932-6157 . S2CID 2003897 .
- ^ Перейти обратно: а б Терно, Терри Дж.; Аткинсон, Элизабет Дж. «rpart: рекурсивное разбиение и деревья регрессии» . КРАН . Проверено 12 ноября 2021 г.
- ^ Аткинсон, Элизабет Дж.; Терно, Терри Дж. (1997). Введение в рекурсивное секционирование с использованием подпрограмм RPART . Фонд Мэйо.
- ^ Ишваран, Хемант; Когалур, Удая Б. «randomForestSRC: быстрые унифицированные случайные леса для выживания, регрессии и классификации (RF-SRC)» . КРАН . Проверено 12 ноября 2021 г.
- ^ Сингх, Джаред; Кацман, Л. (2018). «DeepSurv: персонализированная система рекомендаций по лечению с использованием глубокой нейронной сети Кокса с пропорциональными рисками». Методология медицинских исследований BMC .
- ^ Нагпал, Чираг (2021). «Машины глубокого выживания: полностью параметрическая регрессия выживания и обучение представлению подвергнутых цензуре данных с конкурирующими рисками». Журнал IEEE по биомедицинской и медицинской информатике . 25 (8): 3163–3175. arXiv : 2003.01176 . дои : 10.1109/JBHI.2021.3052441 . ПМИД 33460387 . S2CID 211817982 .
- ^ Нагпал, Чираг (2021). «Смеси Дипа Кокса для регрессии выживания». Конференция «Машинное обучение в здравоохранении» . arXiv : 2101.06536 .
- ^ Дарити, Уильям А. младший, изд. (2008). «Цензура, левая и правая» . Международная энциклопедия социальных наук . Том. 1 (2-е изд.). Макмиллан. стр. 473–474 . Проверено 6 ноября 2016 г. .
- ^ Ричардс, С.Дж. (2012). «Справочник по параметрическим моделям выживания для актуарных целей». Скандинавский актуарный журнал . 2012 (4): 233–257. дои : 10.1080/03461238.2010.506688 . S2CID 119577304 .
- ^ Сингх, Р.; Мухопадьяй, К. (2011). «Анализ выживаемости в клинических исследованиях: основы и области, которые необходимо знать» . Перспектива Клин Рес . 2 (4): 145–148. дои : 10.4103/2229-3485.86872 . ПМК 3227332 . ПМИД 22145125 .
- ^ Перейти обратно: а б Суреш К., Северн К. и Гош Д. Модели прогнозирования выживания: введение в моделирование в дискретном времени. BMC Med Res Methodol 22, 207 (2022). https://doi.org/10.1186/s12874-022-01679-6 , https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-022-01679-6
- ^ Эмпирическое правдоподобие в анализе выживания, Ган Ли (США), Рунзе Ли (США) и Май Чжоу (США), Современный многомерный анализ и планирование экспериментов. Март 2005 г., 337–349, https://www.ms.uky.edu/~mai/research/llz.pdf.
- ^ Эмпирическая функция распределения с произвольно сгруппированными, цензурированными и усеченными данными, Брюс В. Тернбулл, Журнал Королевского статистического общества. Серия Б (Методическая) Том. 38, № 3 (1976), стр. 290-295 (6 страниц), https://apps.dtic.mil/sti/tr/pdf/ADA030940.pdf.
- ^ Правильные правила подсчета очков для анализа выживания, Хироки Янагисава, https://arxiv.org/abs/2305.00621v3
- ^ Кляйнбаум, Дэвид Г.; Кляйн, Митчел (2012), Анализ выживания: текст для самообучения (Третье изд.), Springer, ISBN 978-1441966452
- ^ Бростром, Йоран (2012), Анализ истории событий с помощью R (первое издание), Chapman & Hall/CRC, ISBN 978-1439831649
- ^ Таблеймен, Мара; Ким, Чон Сун (2003), Анализ выживания с использованием S (первое издание), Чепмен и Холл / CRC, ISBN 978-1584884088
- ^ Степанова, Мария; Томас, Лин (1 апреля 2002 г.). «Методы анализа выживания для данных о личных кредитах». Исследование операций . 50 (2): 277–289. дои : 10.1287/опре.50.2.277.426 . ISSN 0030-364X .
- ^ Гленнон, Деннис; Нигро, Питер (2005). «Измерение риска дефолта по кредитам малому бизнесу: подход к анализу выживания». Журнал денег, кредита и банковского дела . 37 (5): 923–947. дои : 10.1353/mcb.2005.0051 . ISSN 0022-2879 . JSTOR 3839153 . S2CID 154615623 .
- ^ Кеннеди, Эдвард Х.; Ху, Чен; О'Брайен, Барбара; Гросс, Сэмюэл Р. (20 мая 2014 г.). «Показатель ложного осуждения обвиняемых по уголовным делам, приговоренных к смертной казни» . Труды Национальной академии наук . 111 (20): 7230–7235. Бибкод : 2014PNAS..111.7230G . дои : 10.1073/pnas.1306417111 . ISSN 0027-8424 . ПМК 4034186 . ПМИД 24778209 .
- ^ де Кос-Хуэс, Ф.Дж.; Гарсиа Ньето, ПиДжей; Мартинес Торрес, Дж.; Табоада Кастро, Дж. (01 октября 2010 г.). «Анализ сроков изготовления металлических компонентов в аэрокосмической промышленности с помощью поддерживаемой векторной машинной модели» . Математическое и компьютерное моделирование . Математические модели в медицине, бизнесе и технике, 2009. 52 (7): 1177–1184. дои : 10.1016/j.mcm.2010.03.017 . ISSN 0895-7177 .
- ^ Спивак, Эндрю Л.; Дампус, Келли Р. (2006). «Кто возвращается в тюрьму? Анализ выживания в случае рецидивизма среди взрослых правонарушителей, освобожденных в Оклахоме, 1985–2004 годы». Юридические исследования и политика . 8 (2): 57–88. дои : 10.3818/jrp.8.2.2006.57 . ISSN 1525-1071 . S2CID 144566819 .
- ^ Поллок, Кеннет Х.; Винтерштейн, Скотт Р.; Банк, Кристин М.; Кертис, Пол Д. (1989). «Анализ выживаемости в телеметрических исследованиях: поэтапный подход к входу» . Журнал управления дикой природой . 53 (1): 7–15. дои : 10.2307/3801296 . ISSN 0022-541X . JSTOR 3801296 .
- ^ Салех, Джозеф Гомер (23 декабря 2019 г.). «Анализ статистической достоверности самой опасной профессии: римский император» . Пэлгрейв Коммуникейшнс . 5 (1): 1–7. дои : 10.1057/s41599-019-0366-y . ISSN 2055-1045 .
- ^ Крир, Маркус; Кизилерсу, Айше; Томас, Энтони В. (2022). «Алгоритм максимизации цензурированного ожидания для смесей: применение ко времени ожидания между сделками» . Физика А: Статистическая механика и ее приложения . 587 (1): 126456. Бибкод : 2022PhyA..58726456K . дои : 10.1016/j.physa.2021.126456 . ISSN 0378-4371 . S2CID 244198364 .
Дальнейшее чтение
[ редактировать ]- Коллетт, Дэвид (2003). Моделирование данных о выживаемости в медицинских исследованиях (второе изд.). Бока-Ратон: Чепмен и Холл/CRC. ISBN 1584883251 .
- Эландт-Джонсон, Регина; Джонсон, Норман (1999). Модели выживания и анализ данных . Нью-Йорк: Джон Уайли и сыновья. ISBN 0471349925 .
- Калбфляйш, доктор медицинских наук; Прентис, Росс Л. (2002). Статистический анализ данных о времени отказа . Нью-Йорк: Джон Уайли и сыновья. ISBN 047136357X .
- Лоулесс, Джеральд Ф. (2003). Статистические модели и методы для анализа данных за весь срок службы (2-е изд.). Хобокен: Джон Уайли и сыновья. ISBN 0471372153 .
- Раусанд, М.; Хойланд, А. (2004). Теория надежности систем: модели, статистические методы и приложения . Хобокен: Джон Уайли и сыновья. ISBN 047147133X .
Внешние ссылки
[ редактировать ]- Терно, Терри. «Пакет для анализа выживания в S» . Архивировано из оригинала 7 сентября 2006 г. через страницу доктора Терно на сайте клиники Майо.
- «Справочник по инженерной статистике» . НИСТ/СЕМАТЕК.
- SOCR , апплет анализа выживания и интерактивное обучение .
- Анализ времени выживания/отказа @ статистике по Страница учебника
- Анализ выживания в R
- Lifelines, пакет Python для анализа выживания
- Анализ выживания в библиотеке NAG Fortran