Правило одного из десяти
В статистике правило « один из десяти» — это практическое правило, определяющее, сколько параметров предикторов можно оценить на основе данных при выполнении регрессионного анализа (в частности, моделей пропорциональных рисков в анализе выживаемости и логистической регрессии ), сохраняя при этом риск переобучения и обнаружения ложных корреляций. низкий. Правило гласит, что для каждых десяти событий можно изучать одну прогностическую переменную. [1] [2] [3] [4] Для логистической регрессии количество событий определяется размером наименьшей из категорий результатов, а для анализа выживаемости — количеством нецензурированных событий. [3]
Например, если изучается выборка из 200 пациентов и 20 пациентов умирают во время исследования (так что 180 пациентов выживают), правило одного из десяти подразумевает, что два заранее определенных предиктора могут быть надежно сопоставлены с общими данными. Аналогичным образом, если 100 пациентов умрут во время исследования (так что 100 пациентов выживут), можно будет надежно подобрать десять заранее определенных предикторов. Если подбирается больше, правило подразумевает, что переоснащение вероятно, и результаты не будут хорошо прогнозироваться за пределами обучающих данных . Нередко правило 1:10 нарушается в областях со многими переменными (например, исследования экспрессии генов при раке), что снижает достоверность сообщаемых результатов. [5]
Улучшения
[ редактировать ]Было предложено «правило одного из 20», указывающее на необходимость сокращения коэффициентов регрессии, и «правило одного из 50» для пошагового выбора со значением p по умолчанию , равным 5%. [4] [6] Другие исследования, однако, показывают, что правило «один из десяти» может быть слишком консервативным в качестве общей рекомендации и что от пяти до девяти событий на один предиктор может быть достаточно, в зависимости от вопроса исследования. [7]
Совсем недавно исследование показало, что соотношение событий на прогностическую переменную не является надежной статистикой для оценки минимального количества событий для оценки модели логистического прогнозирования. [8] Вместо этого для расчета ожидаемой ошибки прогнозирования модели, которую необходимо разработать, можно использовать количество переменных-предикторов, общий размер выборки (события + несобытия) и долю событий (события / общий размер выборки). [9] Затем можно оценить необходимый размер выборки для достижения ожидаемой ошибки прогнозирования, которая меньше заранее определенного допустимого значения ошибки прогнозирования. [9]
модели. В качестве альтернативы были предложены три требования для оценки модели прогнозирования: модель должна иметь глобальный коэффициент сжатия ≥ 0,9, абсолютную разницу ≤ 0,05 в кажущемся и скорректированном R Нагелькерке 2 и точную оценку общего риска или уровня заболеваемости среди целевой группы населения. [10] Необходимый размер выборки и количество событий для разработки модели затем определяются значениями, отвечающими этим требованиям. [10]
Литература
[ редактировать ]- Дэвид А. Фридман (1983) Примечание об уравнениях экранирующей регрессии, Американский статистик, 37:2, 152-155, дои : 10.1080/00031305.1983.10482729
Ссылки
[ редактировать ]- ^ Харрелл, Ф. Е. младший; Ли, КЛ; Калифф, РМ; Прайор, Д.Б.; Розати, РА (1984). «Стратегии регрессионного моделирования для улучшения прогностического прогнозирования». Стат Мед . 3 (2): 143–52. дои : 10.1002/сим.4780030207 . ПМИД 6463451 .
- ^ Харрелл, Ф. Е. младший; Ли, КЛ; Марк, Д.Б. (1996). «Многомерные прогностические модели: проблемы разработки моделей, оценки допущений и адекватности, а также измерения и уменьшения ошибок» (PDF) . Стат Мед . 15 (4): 361–87. doi : 10.1002/(sici)1097-0258(19960229)15:4<361::aid-sim168>3.0.co;2-4 . ПМИД 8668867 .
- ^ Перейти обратно: а б Педуцци, Питер; Конкато, Джон; Кемпер, Элизабет; Холфорд, Теодор Р.; Файнштейн, Алван Р. (1996). «Моделирующее исследование количества событий на переменную в логистическом регрессионном анализе» . Журнал клинической эпидемиологии . 49 (12): 1373–1379. дои : 10.1016/s0895-4356(96)00236-3 . ПМИД 8970487 .
- ^ Перейти обратно: а б «Глава 8: Статистические модели для прогнозирования: проблемы с моделями регрессии» . Архивировано из оригинала 31 октября 2004 года . Проверено 11 октября 2013 г.
{{cite web}}
: CS1 maint: bot: исходный статус URL неизвестен ( ссылка ) - ^ Эрнест С. Штатланд, Кен Кляйнман, Эмили М. Кейн. Построение модели в Proc PHREG с автоматическим выбором переменных и информационными критериями. Статья 206–30 в SUGI 30 Proceedings, Филадельфия, Пенсильвания, 10–13 апреля 2005 г. http://www2.sas.com/proceedings/sugi30/206-30.pdf
- ^ Штайерберг, EW; Эйкеманс, MJ; Харрелл, Ф. Е. младший; Хаббема, JD (2000). «Прогностическое моделирование с использованием логистического регрессионного анализа: сравнение методов выбора и оценки в небольших наборах данных». Стат Мед . 19 (8): 1059–1079. doi : 10.1002/(sici)1097-0258(20000430)19:8<1059::aid-sim412>3.0.co;2-0 . ПМИД 10790680 .
- ^ Виттингофф, Э.; Маккалок, CE (2007). «Ослабление правила десяти событий на переменную в логистической регрессии и регрессии Кокса» . Американский журнал эпидемиологии . 165 (6): 710–718. дои : 10.1093/aje/kwk052 . ПМИД 17182981 .
- ^ ван Смеден, Мартен; де Гроот, Йорис А.Х.; Лунс, Карел ГМ; Коллинз, Гэри С.; Альтман, Дуглас Г.; Эйкеманс, Маринус Дж. К.; Рейтсма, Йоханнес Б. (24 ноября 2016 г.). «Нет обоснования критерия 1 переменная на 10 событий для анализа бинарной логистической регрессии» . Методология медицинских исследований BMC . 16 (1): 163. дои : 10.1186/s12874-016-0267-3 . ISSN 1471-2288 . ПМК 5122171 . ПМИД 27881078 .
- ^ Перейти обратно: а б ван Смеден, Мартен; Лунс, Карел Гм; де Гроот, Йорис Ах; Коллинз, Гэри С.; Альтман, Дуглас Г.; Эйкеманс, Маринус Дж.С.; Рейтсма, Йоханнес Б. (01 января 2018 г.). «Размер выборки для бинарных моделей логистического прогнозирования: помимо событий по переменным критериям» . Статистические методы в медицинских исследованиях . 28 (8): 2455–2474. дои : 10.1177/0962280218784726 . ISSN 1477-0334 . ПМК 6710621 . ПМИД 29966490 .
- ^ Перейти обратно: а б Райли, Ричард Д.; Снелл, Ким И.Е.; Энсор, Джои; Берк, Даниэль Л.; младший, Фрэнк Э. Харрелл; Лунс, Карел ГМ; Коллинз, Гэри С. (2018). «Минимальный размер выборки для разработки модели многовариантного прогнозирования: ЧАСТЬ II — двоичные результаты и результаты по времени до события» . Статистика в медицине . 38 (7): 1276–1296. дои : 10.1002/сим.7992 . ISSN 1097-0258 . ПМК 6519266 . ПМИД 30357870 .