Оценщик Каплана – Мейера
Оценка Каплана – Мейера [1] [2] также известный как оценщик предела продукта , представляет собой непараметрическую статистику, используемую для оценки функции выживания на основе данных о сроке службы. В медицинских исследованиях его часто используют для измерения доли пациентов, живущих определенное время после лечения. В других областях оценщики Каплана-Мейера могут использоваться для измерения продолжительности времени, в течение которого люди остаются безработными после потери работы. [3] время до выхода из строя деталей машин или как долго мясистые плоды остаются на растениях, прежде чем их уничтожат плодоядные животные . Оценщик , каждый из назван в честь Эдварда Л. Каплана и Пола Мейера которых представил аналогичные рукописи в Журнал Американской статистической ассоциации . [4] Редактор журнала Джон Тьюки убедил их объединить свои работы в одну статью, которая с момента ее публикации в 1958 году цитировалась более 34 000 раз. [5] [6]
Оценка выживания функции (вероятность того, что жизнь продлится дольше, чем ) дается:
с время, когда произошло хотя бы одно событие, d i количество событий (например, смертей), произошедших за данный момент , и люди , о которых известно, что они выжили (еще не пережили событие или не подверглись цензуре) на данный момент .
Основные понятия
[ редактировать ]График оценщика Каплана – Мейера представляет собой серию нисходящих горизонтальных шагов, которые при достаточно большом размере выборки приближаются к истинной функции выживания для этой популяции. Значение функции выживания между последовательными отдельными выборочными наблюдениями («щелчками») предполагается постоянным.
Важным преимуществом кривой Каплана-Мейера является то, что метод может учитывать некоторые типы цензурированных данных , в частности правоцензурирование , которое происходит, если пациент выходит из исследования, теряется для последующего наблюдения или жив без каких-либо событий. возникновение при последнем наблюдении. На графике маленькими вертикальными делениями отмечены отдельные пациенты, время выживания которых было цензурировано справа. Когда не происходит усечения или цензурирования, кривая Каплана-Мейера является дополнением эмпирической функции распределения .
В медицинской статистике типичное приложение может включать группировку пациентов по категориям, например, пациентов с профилем гена А и пациентов с профилем гена B. На графике пациенты с геном B умирают гораздо быстрее, чем пациенты с геном A. Через два года выживают около 80% пациентов с геном A, но менее половины пациентов с геном B.
Чтобы создать оценщик Каплана-Мейера, для каждого пациента (или каждого субъекта) требуются как минимум две части данных: статус при последнем наблюдении (проявление события или цензура справа) и время до события (или время до цензурирования). . Если необходимо сравнить функции выживания между двумя или более группами, то требуется третья часть данных: групповое назначение каждого субъекта. [7]
Определение проблемы
[ редактировать ]Позволять быть случайной величиной, которую мы считаем временем, которое проходит между началом возможного периода воздействия, и время, когда происходит интересующее событие, . Как указано выше, цель состоит в том, чтобы оценить функцию выживания лежащий в основе . Напомним, что эта функция определяется как
- , где это время.
Позволять быть независимыми, одинаково распределенными случайными величинами, общее распределение которых такое же, как у : это случайное время, когда какое-то событие случилось. Доступные данные для оценки не , но список пар где для , фиксированное детерминированное целое число, время цензурирования события и . В частности, имеющаяся информация о сроках проведения мероприятия произошло ли событие до установленного времени и если да, то также доступно фактическое время события. Задача состоит в том, чтобы оценить учитывая эти данные.
Вывод оценки Каплана – Мейера.
[ редактировать ]Здесь мы показываем два вывода оценки Каплана – Мейера. Оба основаны на переписывании функции выживания с точки зрения того, что иногда называют риском или уровнем смертности . Однако прежде чем сделать это, стоит рассмотреть наивную оценку.
Наивный оценщик
[ редактировать ]Чтобы понять возможности оценки Каплана–Мейера, стоит сначала описать наивную оценку функции выживания.
Исправить и пусть . Основной аргумент показывает, что справедливо следующее предложение:
- Предложение 1: Если время цензурирования события превышает ( ), затем тогда и только тогда, когда .
Позволять быть таким, что . Из приведенного выше предложения следует, что
Позволять и рассматривать только те , то есть события, результат которых не подвергался цензуре раньше времени . Позволять быть числом элементов в . Обратите внимание, что набор не случайно и поэтому не является . Более того, представляет собой последовательность независимых, одинаково распределенных случайных величин Бернулли с общим параметром . Предполагая, что , это предполагает оценить с использованием
где второе равенство следует, поскольку подразумевает , а последнее равенство — это просто замена обозначений.
Качество этой оценки определяется размером . Это может быть проблематично, когда невелик, что происходит по определению, когда многие события подвергаются цензуре. Особенно неприятное свойство этой оценки, которое позволяет предположить, что, возможно, это не «лучшая» оценка, состоит в том, что она игнорирует все наблюдения, время цензурирования которых предшествует . Интуитивно понятно, что эти наблюдения все еще содержат информацию о : Например, когда для многих событий с , также верно, мы можем сделать вывод, что события часто происходят раньше, а это означает, что является большим, что, благодаря означает, что должен быть небольшим. Однако эта информация игнорируется этим наивным оценщиком. Тогда возникает вопрос, существует ли оценщик, который лучше использует все данные. Это то, что выполняет оценщик Каплана – Мейера. Обратите внимание, что наивную оценку невозможно улучшить, если не проводится цензура; поэтому возможность улучшения во многом зависит от наличия цензуры.
Плагиновый подход
[ редактировать ]По элементарным расчетам,
где предпоследнее равенство использовало это имеет целочисленное значение, и для последней строки мы ввели
Рекурсивным расширением равенства , мы получаем
Обратите внимание, что здесь .
Оценщик Каплана – Мейера можно рассматривать как «подключаемый модуль оценки», в котором каждый оценивается на основе данных и оценщика получается как произведение этих оценок.
Осталось уточнить, как предстоит оценить. По предложению 1 для любого такой, что , и оба держат. Следовательно, для любого такой, что ,
Следуя аналогичным рассуждениям, которые привели к построению наивной оценки выше, мы приходим к оценке
(подумайте об оценке числителя и знаменателя отдельно в определении «уровня риска» ). Тогда оценка Каплана – Мейера определяется выражением
Форма оценки, изложенная в начале статьи, может быть получена с помощью дополнительной алгебры. Для этого напишите где, используя терминологию актуарной науки, количество известных смертей на данный момент , пока количество тех людей, которые живы (и не подвергаются цензуре) в данный момент .
Обратите внимание, что если , . Это означает, что мы можем исключить из определения продукта все те термины, где . Затем, позволив будь в то время когда , и , придем к виду оценки Каплана–Мейера, приведенному в начале статьи:
В отличие от наивной оценки, эта оценка использует доступную информацию более эффективно: в специальном случае, упомянутом ранее, когда записано много ранних событий, оценка умножит множество членов со значением ниже единицы и, таким образом, примет Примите во внимание, что вероятность выживания не может быть большой.
Вывод как оценка максимального правдоподобия
[ редактировать ]Оценщик Каплана-Мейера может быть получен из оценки максимального правдоподобия дискретной функции риска . [8] [ самостоятельно опубликованный источник? ] Более конкретно дано как количество событий и общее количество лиц, подвергающихся риску в данный момент , дискретная степень опасности можно определить как вероятность того, что индивидуум наступит событие в определенный момент времени. . Тогда выживаемость можно определить как:
и функция правдоподобия для функции опасности с точностью до времени является:
поэтому вероятность журнала будет:
нахождение максимального логарифмического правдоподобия относительно дает:
где шляпа используется для обозначения оценки максимального правдоподобия. Учитывая этот результат, мы можем написать:
В более общем смысле (как для непрерывных, так и для дискретных распределений выживаемости) оценку Каплана-Мейера можно интерпретировать как непараметрическую оценку максимального правдоподобия. [9]
Преимущества и ограничения
[ редактировать ]Оценка Каплана-Мейера является одним из наиболее часто используемых методов анализа выживаемости. Оценка может быть полезна для изучения показателей выздоровления, вероятности смерти и эффективности лечения. ограничена Его способность оценивать выживаемость с поправкой на ковариаты ; параметрические модели выживания и модель пропорциональных рисков Кокса могут быть полезны для оценки выживаемости с поправкой на ковариаты.
Оценка Каплана-Мейера напрямую связана с оценкой Нельсона-Аалена , и обе они максимизируют эмпирическую вероятность . [10]
Статистические соображения
[ редактировать ]Оценка Каплана-Мейера представляет собой статистику , используются несколько оценок и для аппроксимации ее дисперсии . Одной из наиболее распространенных оценок является формула Гринвуда: [11]
где это количество случаев и общее количество наблюдений, для .
В некоторых случаях может возникнуть желание сравнить разные кривые Каплана–Мейера. Это можно сделать с помощью логарифмического теста и теста пропорциональных рисков Кокса .
Другие статистические данные, которые могут быть полезны для этой оценки, — это точечные доверительные интервалы. [13] группа Холла-Веллнера [14] и полоса равной точности. [15]
Программное обеспечение
[ редактировать ]- Mathematica : встроенная функция
SurvivalModelFit
создает модели выживания. [16] - SAS : Оценка Каплана-Мейера реализована в
proc lifetest
процедура. [17] - R : оценка Каплана–Мейера доступна как часть
survival
упаковка. [18] [19] [20] - Стата : команда
sts
возвращает оценку Каплана – Мейера. [21] [22] - Питон :
lifelines
иscikit-survival
Каждый пакет включает в себя оценщик Каплана – Мейера. [23] [24] - МАТЛАБ :
ecdf
функционировать с'function','survivor'
аргументы могут вычислить или построить оценщик Каплана – Мейера. [25] - StatsDirect : оценщик Каплана-Мейера реализован в
Survival Analysis
меню. [26] - SPSS : Оценка Каплана – Мейера реализована в
Analyze > Survival > Kaplan-Meier...
меню. [27] - Юля :
Survival.jl
пакет включает в себя оценщик Каплана – Мейера. [28] - Epi Info : Кривые выживаемости оценщика Каплана – Мейера и результаты для теста логарифмического ранга получены с помощью
KMSURVIVAL
команда. [29]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Каплан, EL; Мейер, П. (1958). «Непараметрическая оценка по неполным наблюдениям». Дж. Амер. Статист. доц. 53 (282): 457–481. дои : 10.2307/2281868 . JSTOR 2281868 .
- ^ Каплан, Э.Л., в ретроспективе основополагающей статьи в «Классике цитирования на этой неделе». Текущее содержание 24 , 14 (1983). Доступно в UPenn в формате PDF.
- ^ Мейер, Брюс Д. (1990). «Страхование по безработице и периоды безработицы» (PDF) . Эконометрика . 58 (4): 757–782. дои : 10.2307/2938349 . JSTOR 2938349 . S2CID 154632727 .
- ^ Сталперс, Лукас Дж.А.; Каплан, Эдвард Л. (4 мая 2018 г.). «Эдвард Л. Каплан и кривая выживания Каплана-Мейера» . Бюллетень BSHM: Журнал Британского общества истории математики . 33 (2): 109–135. дои : 10.1080/17498430.2018.1450055 . S2CID 125941631 .
- ^ Каплан, EL; Мейер, Пол (1958). «Непараметрическая оценка по неполным наблюдениям» . Журнал Американской статистической ассоциации . 53 (282): 457–481. дои : 10.1080/01621459.1958.10501452 . Проверено 27 февраля 2023 г.
- ^ «Пол Мейер, 1924–2011» . Чикаго Трибьюн . 18 августа 2011 г.
- ^ Рич, Джейсон Т.; Нили, Дж. Гейл; Паниелло, Рэндал С.; Фолкер, Кортни Си Джей; Нуссенбаум, Брайан; Ван, Эрик В. (сентябрь 2010 г.). «Практическое руководство по пониманию кривых Каплана-Мейера» . Отоларингология – хирургия головы и шеи . 143 (3): 331–336. дои : 10.1016/j.otohns.2010.05.007 . ПМЦ 3932959 . ПМИД 20723767 .
- ^ «STAT331 Блок 3» (PDF) . Проверено 12 мая 2023 г.
- ^ Андерсен, Пер Краг; Борган, Орнульф; Гилл, Ричард Д.; Кейдинг, Нильс (1993). Статистические модели, основанные на процессах подсчета . Нью-Йорк: Springer-Verlag. ISBN 0-387-97872-0 .
- ^ Чжоу, М. (2015). Эмпирический метод правдоподобия в анализе выживания (1-е изд.). Чепмен и Холл/CRC. https://doi.org/10.1201/b18598 , https://books.google.com/books?id=9-b5CQAAQBAJ&dq=Does+the+Nelson%E2%80%93Aalen+estimator+construct+an+empiric+ вероятность%3F&pg=PA7
- ^ Гринвуд, майор (1926). Отчет о естественной продолжительности рака . Выпуск 33 Отчетов по общественному здравоохранению и медицинской тематике. ХМСО . OCLC 14713088 .
- ^ Перейти обратно: а б «Гринвудский и экспоненциальный доверительные интервалы Гринвуда в анализе выживания» (PDF) . Проверено 12 мая 2023 г.
- ^ Фэй, Майкл П.; Бриттен, Эрика Х .; Прощан, Майкл А. (1 сентября 2013 г.). «Поточечные доверительные интервалы для распределения выживаемости с небольшими выборками или жесткой цензурой» . Биостатистика . 14 (4): 723–736. doi : 10.1093/biostatistics/kxt016 . ПМК 3769999 . ПМИД 23632624 .
- ^ Холл, Вашингтон; Веллнер, Джон А. (1980). «Доверительные интервалы для кривой выживания на основе подвергнутых цензуре данных». Биометрика . 67 (1): 133–143. дои : 10.1093/biomet/67.1.133 .
- ^ Наир, Виджаян Н. (август 1984 г.). «Доверительные интервалы для функций выживания с цензурированными данными: сравнительное исследование». Технометрика . 26 (3): 265–275. дои : 10.1080/00401706.1984.10487964 .
- ^ «Анализ выживания – Mathematica SurvivalModelFit» . www.wolfram.com . Проверено 14 августа 2017 г.
- ^ «Руководство пользователя SAS/STAT(R) 14.1» . support.sas.com . Проверено 12 мая 2023 г.
- ^ Терно, Терри М. (9 августа 2022 г.). «Выживание: Анализ выживания» . Комплексная сеть архивов R. Проверено 30 ноября 2022 г.
- ^ Виллекенс, Франс (2014). «Статистические пакеты для анализа истории жизни с несколькими состояниями» . Анализ жизненных историй с несколькими состояниями с помощью R . Пользователь!. Спрингер. стр. 135–153. дои : 10.1007/978-3-319-08383-4_6 . ISBN 978-3-319-08383-4 .
- ^ Чен, Дин-Гэн; Мир, Карл Э. (2014). Анализ данных клинических испытаний с использованием R. ЦРК Пресс. стр. 99–108. ISBN 9781439840214 .
- ^ «sts — Создайте, нарисуйте график, составьте список и протестируйте функции выживания и совокупной опасности» (PDF) . Руководство по Стате .
- ^ Клевес, Марио (2008). Введение в анализ выживания с использованием Stata (второе изд.). Колледж-Стейшн: Stata Press. стр. 93–107. ISBN 978-1-59718-041-2 .
- ^ «линии жизни — документация линий жизни 0.27.7» . lifelines.readthedocs.io . Проверено 12 мая 2023 г.
- ^ "sksurv.nonparametric.kaplan_meier_estimator — scikit-survival 0.20.0" . scikit-survival.readthedocs.io . Проверено 12 мая 2023 г.
- ^ «Эмпирическая кумулятивная функция распределения – MATLAB ecdf» . mathworks.com . Проверено 16 июня 2016 г.
- ^ «Оценки выживания Каплана-Мейера» . statsdirect.co.uk . Проверено 12 мая 2023 г.
- ^ «Метод Каплана-Мейера в статистике SPSS | Статистика Лаэрда» .
- ^ «Каплан-Мейер · Survival.jl» .
- ^ «Руководство пользователя Epi Info™ — Справочник команд — Команды анализа: KMSURVIVAL» . Проверено 30 октября 2023 г.
Дальнейшее чтение
[ редактировать ]- Аален, Одд; Борган, Орнульф; Йессинг, Хакон (2008). Анализ выживаемости и истории событий: процессуальная точка зрения . Спрингер. стр. 90–104. ISBN 978-0-387-68560-1 .
- Грин, Уильям Х. (2012). «Непараметрические и полупараметрические подходы» . Эконометрический анализ (Седьмое изд.). Прентис-Холл. стр. 909–912. ISBN 978-0-273-75356-8 .
- Джонс, Эндрю М.; Райс, Найджел; Д'Ува, Тереза Баго; Балия, Сильвия (2013). «Данные о продолжительности» . Прикладная экономика здравоохранения . Лондон: Рутледж. стр. 139–181. ISBN 978-0-415-67682-3 .
- Певица Джудит Б.; Уиллетт, Джон Б. (2003). Прикладной продольный анализ данных: моделирование изменений и возникновения событий . Нью-Йорк: Издательство Оксфордского университета. стр. 483–487. ISBN 0-19-515296-4 .
Внешние ссылки
[ редактировать ]- Данн, Стив (2002). «Кривые выживания: начисление и оценка Каплана-Мейера» . Руководство по раку . Статистика.
- Три развивающиеся кривые Каплана – Мейера на YouTube