Перекрестная проверка (статистика)

Перекрестная проверка , ^[2]^[3]^[4] иногда называется оценкой вращения ^[5]^[6]^[7] или тестирование вне выборки — это любой из различных аналогичных методов проверки модели , позволяющий оценить, как результаты статистического анализа будут обобщены на независимый набор данных. Перекрестная проверка включает методы повторной выборки и разделения выборки, которые используют разные части данных для тестирования и обучения модели на разных итерациях. Его часто используют в ситуациях, когда целью является прогнозирование и требуется оценить, насколько точно будет прогнозирующая модель работать на практике. Его также можно использовать для оценки качества подобранной модели и стабильности ее параметров.

В задаче прогнозирования модели обычно предоставляется набор известных данных, на которых выполняется обучение ( набор обучающих данных ), и набор данных неизвестных данных (или впервые увиденных данных), на основе которых тестируется модель (называемый набором данных проверки или тестированием). набор ). ^[8]^[9] Цель перекрестной проверки — проверить способность модели прогнозировать новые данные, которые не использовались при ее оценке, чтобы отметить такие проблемы, как переобучение или систематическая ошибка выбора. ^[10] и дать представление о том, как модель будет обобщаться на независимый набор данных (т. е. неизвестный набор данных, например, из реальной проблемы).

Один раунд перекрестной проверки включает в себя разделение выборки данных ) и проверку обучающим на дополнительные подмножества, выполнение анализа в одном подмножестве (называемом набором анализа на другом подмножестве (называемом набором проверки или набором тестирования ). Чтобы уменьшить изменчивость , в большинстве методов выполняется несколько раундов перекрестной проверки с использованием разных разделов, а результаты проверки объединяются (например, усредняются) по раундам, чтобы дать оценку прогнозирующей эффективности модели.

Таким образом, перекрестная проверка объединяет (усредняет) показатели пригодности прогнозирования для получения более точной оценки эффективности прогнозирования модели. ^[11]

Мотивация [ править ]

Предположим, что модель имеет один или несколько неизвестных параметров и набор данных, которому модель может соответствовать (набор обучающих данных). Процесс подгонки оптимизирует параметры модели, чтобы модель максимально соответствовала обучающим данным. Если независимая выборка данных проверки берется из той же совокупности , что и данные обучения, обычно оказывается, что модель не соответствует данным проверки так же хорошо, как и данным обучения. Размер этой разницы, вероятно, будет большим, особенно если размер набора обучающих данных невелик или когда количество параметров в модели велико. Перекрестная проверка — это способ оценить величину этого эффекта.

Пример: линейная регрессия [ править ]

В линейной регрессии существуют реальные значения ответа. ${\textstyle y_{1},\ldots ,y_{n}}$ , и n p -мерные векторные ковариаты x ₁ , ..., x _n . Компоненты вектора x _i обозначаются x _{i 1} , ..., x _ip . Если метод наименьших квадратов используется для аппроксимации функции в виде гиперплоскости ŷ = a + β ^Тx к данным ( x _i , y _i ) _{1 ≤ i ≤ n} , то соответствие можно оценить с помощью среднеквадратичной ошибки (MSE). MSE для заданных оценочных значений параметров a и β на обучающем наборе ( x _i , y _i ) _{1 ≤ i ≤ n} определяется как:

{\begin{aligned}{\text{MSE}}&={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-a-{\boldsymbol {\beta }}^{T}\mathbf {x} _{i})^{2}\\&={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-a-\beta _{1}x_{i1}-\dots -\beta _{p}x_{ip})^{2}\end{aligned}}

Если модель задана правильно, при мягких предположениях можно показать, что ожидаемое значение MSE для обучающего набора составляет ( n - p - 1)/( n + p + 1) < 1 раза больше ожидаемого значения MSE. для набора проверки ^[12]^{[ неуместная цитата ]} (ожидаемое значение берется за распределение обучающих наборов). Таким образом, подобранная модель и вычисленная MSE на обучающем наборе приведут к оптимистически смещенной оценке того, насколько хорошо модель будет соответствовать независимому набору данных. Эта смещенная оценка называется оценкой соответствия внутри выборки , тогда как оценка перекрестной проверки является оценкой вне выборки .

Поскольку в линейной регрессии можно напрямую вычислить коэффициент ( n - p - 1)/( n + p + 1), с помощью которого обучающая MSE занижает проверочную MSE в предположении, что спецификация модели действительна, перекрестная проверка может использоваться для проверки того, была ли модель переоснащена , и в этом случае MSE в наборе проверки существенно превысит ожидаемое значение. (Перекрестная проверка в контексте линейной регрессии также полезна тем, что ее можно использовать для выбора оптимально регуляризованной функции стоимости .)

Общий случай [ править ]

В большинстве других процедур регрессии (например, логистической регрессии ) не существует простой формулы для расчета ожидаемого соответствия вне выборки. Таким образом, перекрестная проверка является общеприменимым способом прогнозирования эффективности модели на недоступных данных с использованием численных вычислений вместо теоретического анализа.

Типы [ править ]

Можно выделить два типа перекрестной проверки: исчерпывающую и неисчерпывающую перекрестную проверку.

Исчерпывающая перекрестная проверка [ править ]

Исчерпывающие методы перекрестной проверки — это методы перекрестной проверки, которые изучают и проверяют все возможные способы разделения исходной выборки на обучающую и проверочную выборку.

Перекрестная проверка с пропуском [ править ]

с исключением p Перекрестная проверка -out ( LpO CV ) предполагает использование p наблюдений в качестве набора проверки, а остальных наблюдений в качестве обучающего набора. Это повторяется для всех способов разрезать исходную выборку на проверочный набор из p наблюдений и обучающий набор. ^[13]

Перекрестная проверка LpO требует обучения и проверки модели. $C_{p}^{n}$ раз, где n — количество наблюдений в исходной выборке, и где $C_{p}^{n}$ – биномиальный коэффициент . Для p > 1 и даже для умеренно больших n LpO CV может стать вычислительно неосуществимым. Например, при n = 100 и p = 30, $C_{30}^{100}\approx 3\times 10^{25}.$

Вариант перекрестной проверки LpO с p = 2, известный как перекрестная проверка с исключением пар, был рекомендован как почти беспристрастный метод оценки площади под кривой ROC бинарных классификаторов. ^[14]

Перекрестная проверка с исключением одного [ править ]

Иллюстрация перекрестной проверки с исключением одного (LOOCV) при n = 8 наблюдениях. Всего будет обучено и протестировано 8 моделей.

исключением одного Перекрестная проверка с ( LOOCV ) — это частный случай с исключением p перекрестной проверки с p = 1. Этот процесс похож на складной нож ; однако при перекрестной проверке статистика вычисляется по оставленным образцам, а при использовании складного ножа статистика вычисляется только по сохраненным выборкам.

Перекрестная проверка LOO требует меньше времени вычислений, чем перекрестная проверка LpO, поскольку существует только $C_{1}^{n}=n$ проходит, а не $C_{p}^{n}$ . Однако, $n$ проходы могут по-прежнему требовать довольно большого времени вычислений, и в этом случае более подходящими могут быть другие подходы, такие как k-кратная перекрестная проверка. ^[15]

Алгоритм псевдокода:

Вход:

x, {вектор длины N со значениями x входящих точек}

y, {вектор длины N со значениями y ожидаемого результата}

interpolate( x_in, y_in, x_out ), { возвращает оценку точки x_out после того, как модель обучена с помощью x_in- y_in пары}

Выход:

err, {оценка ошибки прогнозирования}

Шаги:

 err ← 0
 for i ← 1, ..., N do
   // define the cross-validation subsets
   x_in ← (x[1], ..., x[i − 1], x[i + 1], ..., x[N])
   y_in ← (y[1], ..., y[i − 1], y[i + 1], ..., y[N])
   x_out ← x[i]
   y_out ← interpolate(x_in, y_in, x_out)
   err ← err + (y[i] − y_out)^2
 end for
 err ← err/N

Неисчерпывающая перекрестная проверка [ править ]

Неисчерпывающие методы перекрестной проверки не вычисляют все способы разделения исходной выборки. Эти методы являются аппроксимацией исключением перекрестной проверки с .

k- кратная перекрестная проверка [ править ]

Иллюстрация k-кратной перекрестной проверки при n = 12 наблюдениях и k = 3. После перетасовки данных всего 3 модели будут обучены и протестированы.

При k -кратной перекрестной проверке исходная выборка случайным образом делится на k подвыборок одинакового размера, часто называемых «свертками». Из k подвыборок одна подвыборка сохраняется в качестве данных проверки для тестирования модели, а остальные k - 1 подвыборки используются в качестве обучающих данных. Затем процесс перекрестной проверки повторяется k раз, при этом каждая из k подвыборок используется ровно один раз в качестве данных проверки. Затем k результатов можно усреднить для получения единой оценки. Преимущество этого метода перед повторяющейся случайной подвыборкой (см. ниже) заключается в том, что все наблюдения используются как для обучения, так и для проверки, и каждое наблюдение используется для проверки ровно один раз. Обычно используется 10-кратная перекрестная проверка, ^[16] но в целом k остается незафиксированным параметром.

Например, установка k = 2 приводит к 2-кратной перекрестной проверке. При двукратной перекрестной проверке мы случайным образом перемешиваем набор данных на два набора d ₀ и d ₁ , так что оба набора имеют одинаковый размер (обычно это реализуется путем перетасовки массива данных и последующего разделения его на две части). Затем мы тренируемся в d ₀ и проверяем в d ₁ , после чего следует обучение в d ₁ и проверка в d ₀ .

Когда k = n (количество наблюдений), k -кратная перекрестная проверка эквивалентна перекрестной проверке с исключением одного. ^[17]

При стратифицированной k -кратной перекрестной проверке разделы выбираются так, чтобы среднее значение ответа было примерно одинаковым во всех разделах. В случае двоичной классификации это означает, что каждый раздел содержит примерно одинаковые пропорции двух типов меток классов.

При повторной перекрестной проверке данные случайным образом разбиваются на k разделов несколько раз. Таким образом, производительность модели можно усреднить по нескольким прогонам, но на практике это редко бывает желательно. ^[18]

множество различных статистических моделей или моделей машинного обучения Когда рассматривается , можно использовать жадную k -кратную перекрестную проверку для быстрого выявления наиболее перспективных моделей-кандидатов. ^[19]

Метод удержания [ править ]

В методе удержания мы случайным образом присваиваем точки данных двум наборам d ₀ и d ₁ , обычно называемым обучающим набором и тестовым набором соответственно. Размер каждого из наборов произволен, хотя обычно тестовый набор меньше обучающего. Затем мы обучаем (строим модель) на d ₀ и тестируем (оцениваем ее производительность) на d ₁ .

При типичной перекрестной проверке результаты нескольких запусков тестирования модели усредняются; напротив, изолированный метод удержания включает в себя один прогон. Его следует использовать с осторожностью, поскольку без такого усреднения нескольких прогонов можно получить весьма ошибочные результаты. Показатель точности прогнозирования ( F ^*) будет иметь тенденцию быть нестабильным, поскольку его не сгладят за несколько итераций (см. ниже). Аналогичным образом, индикаторы конкретной роли, которую играют различные переменные-предикторы (например, значения коэффициентов регрессии), будут иметь тенденцию быть нестабильными.

Хотя метод удержания можно назвать «самым простым видом перекрестной проверки», ^[20] вместо этого многие источники классифицируют отказ как тип простой проверки, а не как простую или вырожденную форму перекрестной проверки. ^[6]^[21]

Повторная проверка случайной выборки [ править ]

Этот метод, также известный как Монте-Карло , перекрестная проверка ^[22] создает несколько случайных разбиений набора данных на данные обучения и проверки. ^[23] Для каждого такого разделения модель адаптируется к данным обучения, а точность прогнозирования оценивается с использованием данных проверки. Затем результаты усредняются по разделениям. Преимущество этого метода (по сравнению с k -кратной перекрестной проверкой) заключается в том, что доля разделения обучения/проверки не зависит от количества итераций (т. е. количества разделов). Недостатком этого метода является то, что некоторые наблюдения никогда не могут быть выбраны в подвыборке для проверки, тогда как другие могут быть выбраны более одного раза. Другими словами, подмножества проверки могут перекрываться. Этот метод также демонстрирует вариацию Монте-Карло , а это означает, что результаты будут различаться, если анализ повторяется с разными случайными разбиениями.

Поскольку количество случайных разделений приближается к бесконечности, результат повторной проверки случайной подвыборки стремится к результату перекрестной проверки с исключением p-out.

В стратифицированном варианте этого подхода случайные выборки генерируются таким образом, чтобы среднее значение ответа (т. е. зависимая переменная в регрессии) было равным в обучающем и проверочном наборах. Это особенно полезно, если ответы дихотомичны с несбалансированным представлением двух значений ответа в данных.

Метод, который применяет повторяющуюся случайную подвыборку, — это RANSAC . ^[24]

Вложенная перекрестная проверка [ править ]

Когда перекрестная проверка используется одновременно для выбора наилучшего набора гиперпараметров и для оценки ошибок (и оценки способности к обобщению), требуется вложенная перекрестная проверка. Существует множество вариантов. Можно выделить как минимум два варианта:

k*l-кратная перекрестная проверка [ править ]

Это действительно вложенный вариант, который содержит внешний цикл из k наборов и внутренний цикл из l наборов. Общий набор данных разделен на k наборов. Один за другим набор выбирается в качестве (внешнего) тестового набора, а k - 1 других наборов объединяются в соответствующий внешний обучающий набор. Это повторяется для каждого из k наборов. Каждый внешний обучающий набор далее подразделяется на l наборов. Один за другим набор выбирается в качестве внутреннего тестового (проверочного) набора, а l - 1 других наборов объединяются в соответствующий внутренний обучающий набор. Это повторяется для каждого из l наборов. Внутренние обучающие наборы используются для подбора параметров модели, а внешний тестовый набор используется в качестве проверочного набора для обеспечения объективной оценки соответствия модели. Обычно это повторяется для множества различных гиперпараметров (или даже разных типов моделей), и набор проверки используется для определения лучшего набора гиперпараметров (и типа модели) для этого внутреннего обучающего набора. После этого новая модель подгоняется ко всему внешнему обучающему набору, используя лучший набор гиперпараметров из внутренней перекрестной проверки. Затем производительность этой модели оценивается с использованием внешнего тестового набора.

k-кратная перекрестная проверка с проверкой и набором тестов [ править ]

Это тип k*l-кратной перекрестной проверки, когда l = k - 1. Одна k-кратная перекрестная проверка используется как для проверочного, так и для тестового набора . Общий набор данных разделен на k наборов. Один за другим набор выбирается в качестве тестового набора. Затем один за другим один из оставшихся наборов используется в качестве набора для проверки, а остальные k - 2 набора используются в качестве обучающих наборов, пока не будут оценены все возможные комбинации. Подобно перекрестной проверке в k*l-кратном порядке, обучающий набор используется для подбора модели, а проверочный набор используется для оценки модели для каждого из наборов гиперпараметров. Наконец, для выбранного набора параметров тестовый набор используется для оценки модели с лучшим набором параметров. Здесь возможны два варианта: либо оценка модели, обученной на обучающем наборе, либо оценка новой модели, подходящей для комбинации обучающего и проверочного набора.

Меры соответствия [ править ]

Цель перекрестной проверки — оценить ожидаемый уровень соответствия модели набору данных, который не зависит от данных, которые использовались для обучения модели. Его можно использовать для оценки любой количественной меры соответствия, подходящей для данных и модели. Например, для задач двоичной классификации каждый случай в наборе проверки либо прогнозируется правильно, либо неправильно. В этой ситуации для обобщения соответствия можно использовать коэффициент ошибочной классификации, хотя другие меры, полученные на основе информации (например, количества, частоты), содержащейся в таблице непредвиденных обстоятельств или матрице неточностей можно также использовать . Когда прогнозируемое значение непрерывно распределяется, среднеквадратическую ошибку , среднеквадратическую ошибку или медианное абсолютное отклонение для суммирования ошибок можно использовать .

Использование предварительной информации [ править ]

Когда пользователи применяют перекрестную проверку для выбора хорошей конфигурации $\lambda$ , то они могут захотеть сбалансировать перекрестно проверенный выбор со своей собственной оценкой конфигурации. Таким образом, они могут попытаться противостоять нестабильности перекрестной проверки, когда размер выборки невелик, и включить соответствующую информацию из предыдущих исследований. Например, в комбинированном прогнозировании можно применить перекрестную проверку для оценки весов, присвоенных каждому прогнозу. Поскольку простой прогноз с равным весом трудно превзойти, за отклонение от равного веса может быть добавлен штраф. ^[25] Или, если перекрестная проверка применяется для присвоения отдельных весов наблюдениям, тогда можно наказывать отклонения от равных весов, чтобы избежать потери потенциально значимой информации. ^[25] Хорнвег (2018) показывает, как параметр настройки $\gamma$ может быть определен так, чтобы пользователь мог интуитивно балансировать между точностью перекрестной проверки и простотой соблюдения эталонного параметра. $\lambda _{R}$ который определяется пользователем.

Если $\lambda _{i}$ обозначает $i^{th}$ кандидатская конфигурация, которая может быть выбрана, то функцию потерь , которую необходимо минимизировать, можно определить как

L_{\lambda _{i}}=(1-\gamma ){\mbox{ Relative Accuracy}}_{i}+\gamma {\mbox{ Relative Simplicity}}_{i}.

Относительную точность можно определить количественно как ${\mbox{MSE}}(\lambda _{i})/{\mbox{MSE}}(\lambda _{R})$ , так что среднеквадратическая ошибка кандидата $\lambda _{i}$ производится относительно заданного пользователем $\lambda _{R}$ . Термин относительной простоты измеряет количество, которое $\lambda _{i}$ отклоняется от $\lambda _{R}$ относительно максимальной величины отклонения от $\lambda _{R}$ . Соответственно, относительную простоту можно определить как ${\frac {(\lambda _{i}-\lambda _{R})^{2}}{(\lambda _{\max }-\lambda _{R})^{2}}}$ , где $\lambda _{\max }$ соответствует $\lambda$ значение с наибольшим допустимым отклонением от $\lambda _{R}$ . С $\gamma \in [0,1]$ , пользователь определяет, насколько велико влияние эталонного параметра относительно перекрестной проверки.

Можно добавить условия относительной простоты для нескольких конфигураций. $c=1,2,...,C$ задав функцию потерь как

L_{\lambda _{i}}={\mbox{ Relative Accuracy}}_{i}+\sum _{c=1}^{C}{\frac {\gamma _{c}}{1-\gamma _{c}}}{\mbox{ Relative Simplicity}}_{i,c}.

Хорнвег (2018) показывает, что функция потерь с таким компромиссом между точностью и простотой также может использоваться для интуитивного определения средств оценки усадки, таких как (адаптивное) лассо и байесовская / гребневая регрессия . ^[25] Нажмите на лассо , чтобы увидеть пример.

Статистические свойства [ править ]

Предположим, мы выбираем меру соответствия F и используем перекрестную проверку для получения оценки F ^* ожидаемого соответствия EF модели независимому набору данных, взятому из той же совокупности, что и обучающие данные. Если мы представим, что выборка из нескольких независимых обучающих наборов соответствует одному и тому же распределению, результирующие значения F ^* будет варьироваться. Статистические свойства F ^* результат этого изменения.

Дисперсия F ^* может быть большим. ^[26]^[27] По этой причине, если две статистические процедуры сравниваются на основе результатов перекрестной проверки, процедура с более высокой оценочной эффективностью на самом деле может не быть лучшей из двух процедур (т. е. она может не иметь лучшего значения EF ). Некоторый прогресс был достигнут в построении доверительных интервалов вокруг оценок перекрестной проверки. ^[26] но это считается сложной проблемой.

Вычислительные проблемы [ править ]

Большинство форм перекрестной проверки легко реализовать, если доступна реализация изучаемого метода прогнозирования. В частности, метод прогнозирования может представлять собой «черный ящик» — нет необходимости иметь доступ к внутренностям его реализации. Если обучение метода прогнозирования дорогое, перекрестная проверка может быть очень медленной, поскольку обучение необходимо проводить неоднократно. В некоторых случаях, таких как метод наименьших квадратов и регрессия ядра , перекрестную проверку можно значительно ускорить за счет предварительного вычисления определенных значений, которые необходимы повторно в процессе обучения, или за счет использования быстрых «правил обновления», таких как формула Шермана-Моррисона . Однако необходимо быть осторожным, чтобы сохранить «полное закрытие» набора проверки от процедуры обучения, в противном случае может возникнуть систематическая ошибка. Ярким примером ускорения перекрестной проверки является линейная регрессия , где результаты перекрестной проверки имеют выражение в закрытой форме, известное как сумма квадратов остаточной ошибки прогнозирования. ( НАЖИМАТЬ ).

Ограничения и неправильное использование [ править ]

Перекрестная проверка дает значимые результаты только в том случае, если набор проверки и набор обучающих данных взяты из одной и той же совокупности и только если контролируются человеческие предубеждения.

Во многих приложениях прогнозного моделирования структура изучаемой системы развивается со временем (т.е. она является «нестационарной»). Оба из них могут привести к систематическим различиям между обучающим и проверочным наборами. Например, если модель прогнозирования стоимости акций обучена на данных за определенный пятилетний период, нереально рассматривать последующий пятилетний период как выборку из той же совокупности. В качестве другого примера предположим, что разработана модель для прогнозирования риска того, что у человека будет диагностировано определенное заболевание в течение следующего года. Если модель обучается с использованием данных исследования, включающего только определенную группу населения (например, молодых людей или мужчин), а затем применяется к общей популяции, результаты перекрестной проверки из обучающего набора могут сильно отличаться от фактической прогнозируемой эффективности. .

Во многих приложениях модели также могут быть неправильно определены и варьироваться в зависимости от предубеждений разработчиков моделей и/или произвольного выбора. Когда это происходит, может возникнуть иллюзия, что система меняется во внешних выборках, тогда как причина в том, что модель пропустила критический предиктор и/или включила ошибочный предиктор. Новые данные заключаются в том, что перекрестная проверка сама по себе не очень хорошо прогнозирует внешнюю валидность, тогда как форма экспериментальной проверки, известная как выборка подмены, которая контролирует человеческую предвзятость, может быть гораздо более прогнозирующей внешнюю валидность. ^[28] Как определено в этом крупном исследовании MAQC-II с участием 30 000 моделей, выборка подкачки включает перекрестную проверку в том смысле, что прогнозы проверяются на независимых обучающих и проверочных выборках. Тем не менее, модели также разрабатываются на основе этих независимых выборок и разработчиками моделей, которые не видят друг друга. Когда в этих моделях, разработанных на основе этих замененных обучающих и проверочных выборок, возникает несоответствие, что случается довольно часто, MAQC-II показывает, что это будет гораздо лучше прогнозировать плохую внешнюю прогностическую достоверность, чем традиционная перекрестная проверка.

Причиной успеха замененной выборки является встроенный контроль человеческих предубеждений при построении модели. Помимо слишком большой веры в прогнозы, которые могут различаться у разных разработчиков моделей и приводить к плохой внешней валидности из-за этих мешающих эффектов разработчика моделей, есть еще несколько способов неправильного использования перекрестной проверки:

Выполняя первоначальный анализ для выявления наиболее информативных функций с использованием всего набора данных — если для процедуры моделирования требуется выбор функций или настройка модели, это необходимо повторять на каждом обучающем наборе. В противном случае прогнозы наверняка будут смещены в сторону повышения. ^[29] Если для принятия решения о том, какие функции использовать, используется перекрестная проверка, внутреннюю перекрестную проверку для выбора функций на каждом обучающем наборе. необходимо выполнить ^[30]
Выполнение среднего значения, изменение масштаба, уменьшение размерности, удаление выбросов или любая другая предварительная обработка, зависящая от данных, с использованием всего набора данных. Хотя это очень распространено на практике, было показано, что это вносит погрешности в оценки перекрестной проверки. ^[31]
Позволяя также включать некоторые обучающие данные в тестовый набор — это может произойти из-за «двойников» в наборе данных, когда в наборе данных присутствуют некоторые точно идентичные или почти идентичные образцы. В некоторой степени твиннинг всегда имеет место даже в совершенно независимых обучающих и проверочных выборках. Это связано с тем, что некоторые наблюдения обучающей выборки будут иметь почти идентичные значения предикторов, что и наблюдения проверочной выборки. И некоторые из них будут коррелировать с целью на уровнях выше шансов в одном и том же направлении как при обучении, так и при проверке, хотя на самом деле они управляются смешанными предикторами с плохой внешней достоверностью. Если такая перекрестно проверенная модель выбрана из k -кратного набора, сработает человеческая предвзятость подтверждения и будет определяться, что такая модель проверена. Вот почему традиционную перекрестную проверку необходимо дополнять средствами контроля человеческой предвзятости и запутанной спецификации модели, такой как выборка подмены и проспективные исследования.

временных моделей Перекрестная проверка рядов

Поскольку порядок данных важен, перекрестная проверка ^{[ указать ]} может быть проблематичным для моделей временных рядов . Более подходящим подходом может быть использование скользящей перекрестной проверки. ^[32]

Однако, если производительность описывается одной сводной статистикой , возможно, что подход, описанный Политисом и Романо как стационарный бутстреп, ^[33] будет работать. Статистика начальной загрузки должна принимать интервал временного ряда и возвращать по нему сводную статистику. При вызове стационарного бутстрапа необходимо указать соответствующую среднюю длину интервала.

Приложения [ править ]

Перекрестная проверка может использоваться для сравнения производительности различных процедур прогнозного моделирования. Например, предположим, что нас интересует оптическое распознавание символов , и мы рассматриваем возможность использования либо машины опорных векторов (SVM), либо k -ближайших соседей (KNN) для предсказания истинного символа по изображению рукописного символа. Используя перекрестную проверку, мы можем получить эмпирические оценки, сравнивая эти два метода с точки зрения их соответствующих долей неправильно классифицированных символов. Напротив, внутривыборочная оценка не будет отражать интересующую величину (т. е. ошибку обобщения). ^[34]

Перекрестная проверка также может использоваться при выборе переменных . ^[35] Предположим, мы используем уровни экспрессии 20 белков, чтобы предсказать, будет ли раковый больной реагировать на лекарство . Практической целью было бы определить, какое подмножество из 20 функций следует использовать для создания лучшей прогнозной модели. Для большинства процедур моделирования, если мы сравниваем подмножества признаков, используя коэффициенты ошибок в выборке, наилучшая производительность будет достигнута при использовании всех 20 признаков. Однако при перекрестной проверке модель, наиболее подходящая, как правило, будет включать только подмножество функций, которые считаются действительно информативными.

Недавним достижением в медицинской статистике стало ее использование в метаанализе. Он формирует основу статистики проверки Vn, которая используется для проверки статистической достоверности сводных оценок метаанализа. ^[36] Он также использовался в более традиционном смысле в метаанализе для оценки вероятной ошибки прогнозирования результатов метаанализа. ^[37]

См. также [ править ]

Примечания и ссылки [ править ]

^ Пирионеси С. Маде; Эль-Дираби Тамер Э. (01 марта 2020 г.). «Анализ данных в управлении активами: экономически эффективное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061/(ASCE)IS.1943-555X.0000512 . S2CID 213782055 .
^ Аллен, Дэвид М. (1974). «Связь между выбором переменных и агументацией данных и методом прогнозирования». Технометрика . 16 (1): 125–127. дои : 10.2307/1267500 . JSTOR 1267500 .
^ Стоун, М. (1974). «Перекрестный выбор и оценка статистических прогнозов». Журнал Королевского статистического общества, серия B (методологический) . 36 (2): 111–147. дои : 10.1111/j.2517-6161.1974.tb00994.x . S2CID 62698647 .
^ Стоун, М. (1977). «Асимптотическая эквивалентность выбора модели путем перекрестной проверки и критерий Акаике». Журнал Королевского статистического общества, серия B (методологический) . 39 (1): 44–47. дои : 10.1111/j.2517-6161.1977.tb01603.x . JSTOR 2984877 .
^ Гейссер, Сеймур (1993). Прогнозирующий вывод . Нью-Йорк, штат Нью-Йорк: Чепмен и Холл. ISBN 978-0-412-03471-8 .
↑ Перейти обратно: Перейти обратно: ^а ^б Кохави, Рон (1995). «Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели». Материалы четырнадцатой международной совместной конференции по искусственному интеллекту . 2 (12). Сан-Матео, Калифорния: Морган Кауфманн: 1137–1143. CiteSeerX 10.1.1.48.529 .
^ Девийвер, Пьер А.; Киттлер, Йозеф (1982). Распознавание образов: статистический подход . Лондон, Великобритания: Прентис-Холл. ISBN 0-13-654236-0 .
^ Галкин Александр (28 ноября 2011 г.). «В чем разница между набором тестов и набором проверки?» . Крест проверен . Обмен стеками . Проверено 10 октября 2018 г.
^ «Вопрос новичка: непонятно, что такое обучение, проверка и тестовые данные!» . Хитон Исследования . Декабрь 2010 г. Архивировано из оригинала 14 марта 2015 г. Проверено 14 ноября 2013 г.
^ Коули, Гэвин С.; Талбот, Никола LC (2010). «О чрезмерном подборе модели и последующей ошибке выбора при оценке эффективности» (PDF) . Журнал исследований машинного обучения . 11 : 2079–2107. Архивировано (PDF) из оригинала 4 февраля 2024 г.
^ Гроссман, Роберт; Сени, Джованни; Старейшина, Джон; Агарвал, Нитин; Лю, Хуан (2010). «Ансамблевые методы интеллектуального анализа данных: повышение точности за счет объединения прогнозов». Обобщающие лекции по интеллектуальному анализу данных и обнаружению знаний . 2 . Морган и Клейпул: 1–126. дои : 10.2200/S00240ED1V01Y200912DMK002 .
^ Триппа, Лоренцо; Уолдрон, Леви; Хаттенхауэр, Кертис; Пармиджани, Джованни (март 2015 г.). «Байесовское непараметрическое перекрестное исследование методов прогнозирования». Анналы прикладной статистики . 9 (1): 402–428. arXiv : 1506.00474 . Бибкод : 2015arXiv150600474T . дои : 10.1214/14-AOAS798 . ISSN 1932-6157 . S2CID 51943497 .
^ Селисс, Ален (1 октября 2014 г.). «Оптимальная перекрестная проверка при оценке плотности с $L^{2}$-потерей». Анналы статистики . 42 (5): 1879–1910. arXiv : 0811.0802 . дои : 10.1214/14-AOS1240 . ISSN 0090-5364 . S2CID 17833620 .
^ Айрола, А.; Пахиккала, Т.; Вагеман, В.; Де Баетс, Бернар; Салакоски, Т. (1 апреля 2011 г.). «Экспериментальное сравнение методов перекрестной проверки для оценки площади под кривой ROC». Вычислительная статистика и анализ данных . 55 (4): 1828–1844. дои : 10.1016/j.csda.2010.11.018 .
^ Молинаро, AM; Саймон, Р.; Пфайффер, РМ (1 августа 2005 г.). «Оценка ошибки прогнозирования: сравнение методов повторной выборки» . Биоинформатика . 21 (15): 3301–3307. doi : 10.1093/биоинформатика/bti499 . ISSN 1367-4803 . ПМИД 15905277 .
^ Маклахлан, Джеффри Дж.; До, Ким-Ань ; Амбруаз, Кристоф (2004). Анализ данных об экспрессии генов на микрочипах . Уайли.
^ «Элементы статистического обучения: интеллектуальный анализ данных, выводы и прогнозирование. 2-е издание» . веб-сайт Stanford.edu . Проверено 4 апреля 2019 г.
^ Ванвинкелен, Гитте (2 октября 2019 г.). Об оценке точности модели с помощью повторной перекрестной проверки . стр. 39–44. ISBN 9789461970442 .
^ Сопер, Дэниел С. (2021). «Жадность — это хорошо: быстрая оптимизация гиперпараметров и выбор модели с использованием жадной k-кратной перекрестной проверки» (PDF) . Электроника . 10 (16): 1973. doi : 10.3390/electronics10161973 .
^ «Перекрестная проверка» . Проверено 11 ноября 2012 г.
^ Арлот, Сильвен; Селисс, Ален (2010). «Обзор процедур перекрестной проверки для выбора модели». Статистические опросы . 4 : 40–79. arXiv : 0907.4728 . дои : 10.1214/09-SS054 . S2CID 14332192 . Короче говоря, CV заключается в усреднении нескольких удерживаемых оценок риска, соответствующих различным разбиениям данных.
^ Дубицкий, Вернер; Гранцов, Мартин; Беррар, Дэниел (2007). Основы интеллектуального анализа данных в геномике и протеомике . Springer Science & Business Media. п. 178.
^ Кун, Макс; Джонсон, Кьелл (2013). Прикладное прогнозное моделирование . Нью-Йорк, штат Нью-Йорк: Springer New York. дои : 10.1007/978-1-4614-6849-3 . ISBN 9781461468486 .
^ Канцлер, Х. «Консенсус случайной выборки (RANSAC)» . Институт восприятия, действия и поведения, отделение информатики, Эдинбургский университет. CiteSeerX 10.1.1.106.3035 . Архивировано из оригинала 04 февраля 2023 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Хорнвег, Виктор (2018). Наука: Подчинение . Хорнвег Пресс. ISBN 978-90-829188-0-9 .
↑ Перейти обратно: Перейти обратно: ^а ^б Эфрон, Брэдли; Тибширани, Роберт (1997). «Усовершенствования перекрестной проверки: метод .632 + Bootstrap». Журнал Американской статистической ассоциации . 92 (438): 548–560. дои : 10.2307/2965703 . JSTOR 2965703 . МР 1467848 .
^ Стоун, Мервин (1977). «Асимптотика за и против перекрестной проверки». Биометрика . 64 (1): 29–35. дои : 10.1093/biomet/64.1.29 . JSTOR 2335766 . МР 0474601 .
^ Консорциум, MAQC (2010). «Исследование общих практик разработки и проверки прогностических моделей на основе микрочипов в рамках исследования контроля качества микрочипов (MAQC)-II» . Природная биотехнология . 28 (8). Лондон: Издательская группа Nature: 827–838. дои : 10.1038/nbt.1665 . ПМК 3315840 . ПМИД 20676074 .
^ Бермингем, Мейрид Л.; Понг-Вонг, Рикардо; Спилиопулу, Афина; Хейворд, Кэролайн; Рудан, Игорь; Кэмпбелл, Гарри; Райт, Алан Ф.; Уилсон, Джеймс Ф.; Агаков, Феликс; Наварро, Пау; Хейли, Крис С. (2015). «Применение многомерного отбора признаков: оценка для прогнозирования генома человека» . наук. Реп.5 Бибкод : 10312. : 2015NatSR ...510312B . дои : 10.1038/srep10312 . ПМЦ 4437376 . ПМИД 25988841 .
^ Варма, Судхир; Саймон, Ричард (2006). «Смещение в оценке ошибок при использовании перекрестной проверки для выбора модели» . БМК Биоинформатика . 7:91 . дои : 10.1186/1471-2105-7-91 . ПМЦ 1397873 . ПМИД 16504092 .
^ Москович, Амит; Россе, Сахарон (1 сентября 2022 г.). «О смещении перекрестной проверки из-за неконтролируемой предварительной обработки». Журнал Королевского статистического общества, серия B: Статистическая методология . 84 (4): 1474–1502. arXiv : 1901.08974 . дои : 10.1111/rssb.12537 . S2CID 215745385 .
^ Бергмейр, Кристофер; Бенитес, Хосе (2012). «Об использовании перекрестной проверки для оценки предикторов временных рядов». Информационные науки . 191 : 192–213. doi : 10.1016/j.ins.2011.12.028 – через Elsevier Science Direct.
^ Политис, Димитрис Н.; Романо, Джозеф П. (1994). «Стационарный бутстрап». Журнал Американской статистической ассоциации . 89 (428): 1303–1313. дои : 10.1080/01621459.1994.10476870 . hdl : 10983/25607 .
^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование . Спрингер. ISBN 978-0-387-84884-6 .
^ Пикард, Ричард; Кук, Деннис (1984). «Перекрестная проверка регрессионных моделей». Журнал Американской статистической ассоциации . 79 (387): 575–583. дои : 10.2307/2288403 . JSTOR 2288403 .
^ Уиллис Б.Х., Райли Р.Д. (2017). «Измерение статистической достоверности итоговых результатов метаанализа и метарегрессии для использования в клинической практике» . Статистика в медицине . 36 (21): 3283–3301. дои : 10.1002/сим.7372 . ПМЦ 5575530 . ПМИД 28620945 .
^ Райли Р.Д., Ахмед И., Дебрэ Т.П., Уиллис Б.Х., Ноордзидж П., Хиггинс Дж.П., Дикс Дж.Дж. (2015). «Обобщение и проверка точности результатов нескольких исследований для использования в клинической практике» . Статистика в медицине . 34 (13): 2081–2103. дои : 10.1002/сим.6471 . ПМЦ 4973708 . ПМИД 25800943 .

[:1-1] Пирионеси С. Маде; Эль-Дираби Тамер Э. (01 марта 2020 г.). «Анализ данных в управлении активами: экономически эффективное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061/(ASCE)IS.1943-555X.0000512 . S2CID 213782055 .

[2] Аллен, Дэвид М. (1974). «Связь между выбором переменных и агументацией данных и методом прогнозирования». Технометрика . 16 (1): 125–127. дои : 10.2307/1267500 . JSTOR 1267500 .

[3] Стоун, М. (1974). «Перекрестный выбор и оценка статистических прогнозов». Журнал Королевского статистического общества, серия B (методологический) . 36 (2): 111–147. дои : 10.1111/j.2517-6161.1974.tb00994.x . S2CID 62698647 .

[4] Стоун, М. (1977). «Асимптотическая эквивалентность выбора модели путем перекрестной проверки и критерий Акаике». Журнал Королевского статистического общества, серия B (методологический) . 39 (1): 44–47. дои : 10.1111/j.2517-6161.1977.tb01603.x . JSTOR 2984877 .

[5] Гейссер, Сеймур (1993). Прогнозирующий вывод . Нью-Йорк, штат Нью-Йорк: Чепмен и Холл. ISBN 978-0-412-03471-8 .

[Kohavi95-6] Перейти обратно: Перейти обратно: ^а ^б Кохави, Рон (1995). «Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели». Материалы четырнадцатой международной совместной конференции по искусственному интеллекту . 2 (12). Сан-Матео, Калифорния: Морган Кауфманн: 1137–1143. CiteSeerX 10.1.1.48.529 .

[Devijver82-7] Девийвер, Пьер А.; Киттлер, Йозеф (1982). Распознавание образов: статистический подход . Лондон, Великобритания: Прентис-Холл. ISBN 0-13-654236-0 .

[8] Галкин Александр (28 ноября 2011 г.). «В чем разница между набором тестов и набором проверки?» . Крест проверен . Обмен стеками . Проверено 10 октября 2018 г.

[Newbie_question:_Confused_about_train,_validation_and_test_data!-9] «Вопрос новичка: непонятно, что такое обучение, проверка и тестовые данные!» . Хитон Исследования . Декабрь 2010 г. Архивировано из оригинала 14 марта 2015 г. Проверено 14 ноября 2013 г.

[10] Коули, Гэвин С.; Талбот, Никола LC (2010). «О чрезмерном подборе модели и последующей ошибке выбора при оценке эффективности» (PDF) . Журнал исследований машинного обучения . 11 : 2079–2107. Архивировано (PDF) из оригинала 4 февраля 2024 г.

[:0-11] Гроссман, Роберт; Сени, Джованни; Старейшина, Джон; Агарвал, Нитин; Лю, Хуан (2010). «Ансамблевые методы интеллектуального анализа данных: повышение точности за счет объединения прогнозов». Обобщающие лекции по интеллектуальному анализу данных и обнаружению знаний . 2 . Морган и Клейпул: 1–126. дои : 10.2200/S00240ED1V01Y200912DMK002 .

[12] Триппа, Лоренцо; Уолдрон, Леви; Хаттенхауэр, Кертис; Пармиджани, Джованни (март 2015 г.). «Байесовское непараметрическое перекрестное исследование методов прогнозирования». Анналы прикладной статистики . 9 (1): 402–428. arXiv : 1506.00474 . Бибкод : 2015arXiv150600474T . дои : 10.1214/14-AOAS798 . ISSN 1932-6157 . S2CID 51943497 .

[13] Селисс, Ален (1 октября 2014 г.). «Оптимальная перекрестная проверка при оценке плотности с $L^{2}$-потерей». Анналы статистики . 42 (5): 1879–1910. arXiv : 0811.0802 . дои : 10.1214/14-AOS1240 . ISSN 0090-5364 . S2CID 17833620 .

[14] Айрола, А.; Пахиккала, Т.; Вагеман, В.; Де Баетс, Бернар; Салакоски, Т. (1 апреля 2011 г.). «Экспериментальное сравнение методов перекрестной проверки для оценки площади под кривой ROC». Вычислительная статистика и анализ данных . 55 (4): 1828–1844. дои : 10.1016/j.csda.2010.11.018 .

[15] Молинаро, AM; Саймон, Р.; Пфайффер, РМ (1 августа 2005 г.). «Оценка ошибки прогнозирования: сравнение методов повторной выборки» . Биоинформатика . 21 (15): 3301–3307. doi : 10.1093/биоинформатика/bti499 . ISSN 1367-4803 . ПМИД 15905277 .

[McLachlan-16] Маклахлан, Джеффри Дж.; До, Ким-Ань ; Амбруаз, Кристоф (2004). Анализ данных об экспрессии генов на микрочипах . Уайли.

[17] «Элементы статистического обучения: интеллектуальный анализ данных, выводы и прогнозирование. 2-е издание» . веб-сайт Stanford.edu . Проверено 4 апреля 2019 г.

[18] Ванвинкелен, Гитте (2 октября 2019 г.). Об оценке точности модели с помощью повторной перекрестной проверки . стр. 39–44. ISBN 9789461970442 .

[soper-19] Сопер, Дэниел С. (2021). «Жадность — это хорошо: быстрая оптимизация гиперпараметров и выбор модели с использованием жадной k-кратной перекрестной проверки» (PDF) . Электроника . 10 (16): 1973. doi : 10.3390/electronics10161973 .

[20] «Перекрестная проверка» . Проверено 11 ноября 2012 г.

[21] Арлот, Сильвен; Селисс, Ален (2010). «Обзор процедур перекрестной проверки для выбора модели». Статистические опросы . 4 : 40–79. arXiv : 0907.4728 . дои : 10.1214/09-SS054 . S2CID 14332192 . Короче говоря, CV заключается в усреднении нескольких удерживаемых оценок риска, соответствующих различным разбиениям данных.

[mccv-22] Дубицкий, Вернер; Гранцов, Мартин; Беррар, Дэниел (2007). Основы интеллектуального анализа данных в геномике и протеомике . Springer Science & Business Media. п. 178.

[23] Кун, Макс; Джонсон, Кьелл (2013). Прикладное прогнозное моделирование . Нью-Йорк, штат Нью-Йорк: Springer New York. дои : 10.1007/978-1-4614-6849-3 . ISBN 9781461468486 .

[24] Канцлер, Х. «Консенсус случайной выборки (RANSAC)» . Институт восприятия, действия и поведения, отделение информатики, Эдинбургский университет. CiteSeerX 10.1.1.106.3035 . Архивировано из оригинала 04 февраля 2023 г.

[Hoornweg2018SUS-25] Перейти обратно: Перейти обратно: ^а ^б ^с Хорнвег, Виктор (2018). Наука: Подчинение . Хорнвег Пресс. ISBN 978-90-829188-0-9 .

[Efron97-26] Перейти обратно: Перейти обратно: ^а ^б Эфрон, Брэдли; Тибширани, Роберт (1997). «Усовершенствования перекрестной проверки: метод .632 + Bootstrap». Журнал Американской статистической ассоциации . 92 (438): 548–560. дои : 10.2307/2965703 . JSTOR 2965703 . МР 1467848 .

[Stone77-27] Стоун, Мервин (1977). «Асимптотика за и против перекрестной проверки». Биометрика . 64 (1): 29–35. дои : 10.1093/biomet/64.1.29 . JSTOR 2335766 . МР 0474601 .

[28] Консорциум, MAQC (2010). «Исследование общих практик разработки и проверки прогностических моделей на основе микрочипов в рамках исследования контроля качества микрочипов (MAQC)-II» . Природная биотехнология . 28 (8). Лондон: Издательская группа Nature: 827–838. дои : 10.1038/nbt.1665 . ПМК 3315840 . ПМИД 20676074 .

[Bermingham-intro-29] Бермингем, Мейрид Л.; Понг-Вонг, Рикардо; Спилиопулу, Афина; Хейворд, Кэролайн; Рудан, Игорь; Кэмпбелл, Гарри; Райт, Алан Ф.; Уилсон, Джеймс Ф.; Агаков, Феликс; Наварро, Пау; Хейли, Крис С. (2015). «Применение многомерного отбора признаков: оценка для прогнозирования генома человека» . наук. Реп.5 Бибкод : 10312. : 2015NatSR ...510312B . дои : 10.1038/srep10312 . ПМЦ 4437376 . ПМИД 25988841 .

[30] Варма, Судхир; Саймон, Ричард (2006). «Смещение в оценке ошибок при использовании перекрестной проверки для выбора модели» . БМК Биоинформатика . 7:91 . дои : 10.1186/1471-2105-7-91 . ПМЦ 1397873 . ПМИД 16504092 .

[31] Москович, Амит; Россе, Сахарон (1 сентября 2022 г.). «О смещении перекрестной проверки из-за неконтролируемой предварительной обработки». Журнал Королевского статистического общества, серия B: Статистическая методология . 84 (4): 1474–1502. arXiv : 1901.08974 . дои : 10.1111/rssb.12537 . S2CID 215745385 .

[32] Бергмейр, Кристофер; Бенитес, Хосе (2012). «Об использовании перекрестной проверки для оценки предикторов временных рядов». Информационные науки . 191 : 192–213. doi : 10.1016/j.ins.2011.12.028 – через Elsevier Science Direct.

[33] Политис, Димитрис Н.; Романо, Джозеф П. (1994). «Стационарный бутстрап». Журнал Американской статистической ассоциации . 89 (428): 1303–1313. дои : 10.1080/01621459.1994.10476870 . hdl : 10983/25607 .

[34] Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование . Спрингер. ISBN 978-0-387-84884-6 .

[Picard84-35] Пикард, Ричард; Кук, Деннис (1984). «Перекрестная проверка регрессионных моделей». Журнал Американской статистической ассоциации . 79 (387): 575–583. дои : 10.2307/2288403 . JSTOR 2288403 .

[36] Уиллис Б.Х., Райли Р.Д. (2017). «Измерение статистической достоверности итоговых результатов метаанализа и метарегрессии для использования в клинической практике» . Статистика в медицине . 36 (21): 3283–3301. дои : 10.1002/сим.7372 . ПМЦ 5575530 . ПМИД 28620945 .

[37] Райли Р.Д., Ахмед И., Дебрэ Т.П., Уиллис Б.Х., Ноордзидж П., Хиггинс Дж.П., Дикс Дж.Дж. (2015). «Обобщение и проверка точности результатов нескольких исследований для использования в клинической практике» . Статистика в медицине . 34 (13): 2081–2103. дои : 10.1002/сим.6471 . ПМЦ 4973708 . ПМИД 25800943 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]