Компромисс смещения и дисперсии

Функции и зашумленные данные

Спред=5

Спред=1

Спред = 0,1

Функция (красный) аппроксимируется с использованием радиальных базисных функций (синий). На каждом графике показано несколько испытаний. Для каждого испытания в качестве обучающего набора предоставляются несколько зашумленных точек данных (вверху). Для широкого разброса (изображение 2) смещение велико: RBF не могут полностью аппроксимировать функцию (особенно центральный провал), но дисперсия между различными исследованиями низкая. По мере уменьшения разброса (изображения 3 и 4) смещение уменьшается: синие кривые более точно приближаются к красным. Однако в зависимости от шума в разных испытаниях дисперсия между испытаниями увеличивается. На самом нижнем изображении аппроксимированные значения x=0 сильно различаются в зависимости от того, где были расположены точки данных.

В статистике и машинном обучении компромисс между смещением и дисперсией описывает взаимосвязь между сложностью модели, точностью ее прогнозов и тем, насколько хорошо она может делать прогнозы на основе ранее невидимых данных, которые не использовались для обучения модели. В целом, когда мы увеличиваем количество настраиваемых параметров в модели, она становится более гибкой и может лучше соответствовать набору обучающих данных. Говорят, что он имеет меньшую ошибку или предвзятость . Однако для более гибких моделей будет иметь место большая дисперсия модели каждый раз, когда мы берем набор выборок для создания нового набора обучающих данных. Говорят, что существует большая дисперсия модели в расчетных параметрах .

Дилемма смещения-дисперсии или проблема смещения-дисперсии представляет собой конфликт в попытках одновременно минимизировать эти два источника ошибок , которые не позволяют алгоритмам обучения с учителем обобщать результаты за пределами их обучающего набора : ^[1]^[2]

Ошибка смещения — это ошибка, вызванная ошибочными предположениями в алгоритме обучения . Высокая погрешность может привести к тому, что алгоритм упустит соответствующие связи между функциями и целевыми результатами (недостаточное оснащение).
Дисперсия — это ошибка из-за чувствительности к небольшим колебаниям обучающего набора. Высокая дисперсия может быть результатом алгоритма, моделирующего случайный шум в обучающих данных ( переоснащение ).

Разложение смещения -дисперсии — это способ анализа ожидаемой ошибки обобщения алгоритма обучения относительно конкретной проблемы как суммы трех слагаемых: смещения, дисперсии и величины, называемой неуменьшаемой ошибкой , возникающей в результате шума в самой задаче.

Мотивация

Высокая предвзятость, низкая дисперсия
Высокая предвзятость, высокая дисперсия
Низкое смещение, низкая дисперсия
Низкая предвзятость, высокая дисперсия

Компромисс систематической ошибки и дисперсии является центральной проблемой контролируемого обучения. В идеале нужно выбрать модель , которая не только точно отражает закономерности обучающих данных, но и обобщает хорошо невидимые данные. К сожалению, обычно невозможно сделать и то, и другое одновременно. Методы обучения с высокой дисперсией могут хорошо представлять свой обучающий набор, но подвержены риску переобучения зашумленным или нерепрезентативным обучающим данным. Напротив, алгоритмы с высоким смещением обычно создают более простые модели, которые могут не уловить важные закономерности (т. е. недостаточное соответствие) данных.

Это часто допускаемое заблуждение ^[3]^[4] предположить, что сложные модели должны иметь высокую дисперсию. Модели с высокой дисперсией в некотором смысле «сложны», но обратное не обязательно верно. ^[5] Кроме того, нужно быть осторожным при определении сложности. В частности, количество параметров, используемых для описания модели, не является плохим показателем сложности. Это иллюстрируется примером, адаптированным из: ^[6] Модель $f_{a,b}(x)=a\sin(bx)$ имеет только два параметра ( $a,b$ ), но он может интерполировать любое количество точек, колеблясь с достаточно высокой частотой, что приводит как к высокому смещению, так и к высокой дисперсии.

Можно провести аналогию с соотношением точности и прецизионности . Точность представляет собой описание предвзятости, и ее можно интуитивно повысить, выбирая только локальную информацию. Следовательно, выборка будет выглядеть точной (т.е. иметь низкую систематическую ошибку) при вышеупомянутых условиях отбора, но может привести к недостаточному подгонке. Другими словами, тестовые данные могут не так точно совпадать с данными обучения, что будет указывать на неточность и, следовательно, на завышенную дисперсию. Графическим примером может служить прямая линия, соответствующая данным, демонстрирующим в целом квадратичное поведение. Точность — это описание дисперсии, и ее обычно можно повысить только путем отбора информации из сравнительно большего пространства. Возможность выбрать множество точек данных в широком пространстве выборки является идеальным условием для любого анализа. Однако внутренние ограничения (физические, теоретические, вычислительные и т. д.) всегда будут играть ограничивающую роль. Предельный случай, когда в широком пространстве выборки выбирается только конечное число точек данных, может привести к повышению точности и снижению дисперсии в целом, но также может привести к чрезмерной зависимости от обучающих данных (переобучение). Это означает, что тестовые данные также не будут так близко согласовываться с данными обучения, но в данном случае причиной является неточность или высокая систематическая погрешность. Если позаимствовать из предыдущего примера, графическое представление будет выглядеть как полином высокого порядка, соответствующий тем же данным, демонстрирующий квадратичное поведение. Обратите внимание, что ошибка в каждом случае измеряется одним и тем же способом, но причина, объясняющая ошибку, различна в зависимости от баланса между смещением и дисперсией. Чтобы уменьшить объем использования информации из соседних наблюдений, модель можно сглаживается посредством явной регуляризации , например сжатия .

Разложение среднеквадратической ошибки по смещению и дисперсии

Предположим, что у нас есть обучающий набор, состоящий из набора точек $x_{1},\dots ,x_{n}$ и реальные ценности $y_{i}$ связанный с каждой точкой $x_{i}$ . Мы предполагаем, что данные генерируются функцией $f(x)$ такой как $y=f(x)+\varepsilon$ , где шум, $\varepsilon$ , имеет нулевое среднее и дисперсию $\sigma ^{2}$ .

Мы хотим найти функцию ${\hat {f}}(x;D)$ , что аппроксимирует истинную функцию $f(x)$ насколько это возможно, с помощью некоторого алгоритма обучения, основанного на наборе обучающих данных (выборке) $D=\{(x_{1},y_{1})\dots ,(x_{n},y_{n})\}$ . Мы делаем «насколько возможно» точным, измеряя среднеквадратическую ошибку между $y$ и ${\hat {f}}(x;D)$ : мы хотим $(y-{\hat {f}}(x;D))^{2}$ быть минимальным, как для $x_{1},\dots ,x_{n}$ и для точек за пределами нашей выборки . Конечно, мы не можем надеяться, что сможем сделать это идеально, поскольку $y_{i}$ содержать шум $\varepsilon$ ; это означает, что мы должны быть готовы допустить неустранимую ошибку в любой придуманной нами функции.

Нахождение ${\hat {f}}$ который обобщается на точки за пределами обучающего набора, может быть выполнен с помощью любого из бесчисленных алгоритмов, используемых для обучения с учителем. Оказывается, какая бы функция ${\hat {f}}$ мы выбираем, мы можем разложить его ожидаемую ошибку по невидимому образцу $x$ ( т.е. при условии x ) следующим образом: ^[7]^: 34^[8]^: 223

\operatorname {E} _{D,\varepsilon }{\Big [}{\big (}y-{\hat {f}}(x;D){\big )}^{2}{\Big ]}={\Big (}\operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\Big )}^{2}+\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}+\sigma ^{2}

где

\operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}=\operatorname {E} _{D}{\big [}{\hat {f}}(x;D)-f(x){\big ]}=\operatorname {E} _{D}{\big [}{\hat {f}}(x;D){\big ]}-\operatorname {E} _{y|x}{\big [}y(x){\big ]},

\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}=\operatorname {E} _{D}[{\big (}\operatorname {E} _{D}[{\hat {f}}(x;D)]-{\hat {f}}(x;D){\big )}^{2}].

и

\sigma ^{2}=\operatorname {E} _{y}[(y-\underbrace {f(x)} _{E_{y|x}[y]})^{2}]

Ожидание варьируется в зависимости от выбора обучающего набора. $D=\{(x_{1},y_{1})\dots ,(x_{n},y_{n})\}$ , все выбраны из одного и того же совместного распределения $P(x,y)$ что можно, например, сделать с помощью начальной загрузки .Эти три термина представляют собой:

квадрат смещения метода обучения, который можно рассматривать как ошибку, вызванную упрощающими предположениями, встроенными в метод. Например, при аппроксимации нелинейной функции $f(x)$ используя метод обучения для линейных моделей , в оценках будет ошибка ${\hat {f}}(x)$ из-за этого предположения;
дисперсия обучения метода обучения или, интуитивно, насколько метод ${\hat {f}}(x)$ будет двигаться вокруг своего среднего значения;
неустранимая ошибка $\sigma ^{2}$ .

Поскольку все три члена неотрицательны, неуменьшаемая ошибка образует нижнюю границу ожидаемой ошибки на невидимых выборках. ^[7]^: 34

Чем сложнее модель ${\hat {f}}(x)$ То есть, чем больше точек данных он соберет, тем меньше будет смещение. Однако сложность заставит модель больше «двигаться» для захвата точек данных, и, следовательно, ее дисперсия будет больше.

Вывод

Вывод разложения смещения на дисперсию для квадрата ошибки происходит следующим образом. ^[9]^[10] Для удобства обозначений мы будем сокращать $f=f(x)$ , ${\hat {f}}={\hat {f}}(x;D)$ и мы бросаем $D$ индекс у наших операторов ожидания.

Запишем среднеквадратическую ошибку нашей модели:

{\text{MSE}}\triangleq \operatorname {E} {\big [}(y-{\hat {f}})^{2}{\big ]}=\operatorname {E} {\big [}y^{2}-2y{\hat {f}}+{\hat {f}}^{2}{\big ]}=\operatorname {E} {\big [}y^{2}{\big ]}-2\operatorname {E} {\big [}y{\hat {f}}{\big ]}+\operatorname {E} {\big [}{\hat {f}}^{2}{\big ]}

Во-первых, поскольку мы моделируем $y=f+\varepsilon$ , мы показываем это

{\begin{aligned}\operatorname {E} {\big [}y^{2}{\big ]}&=\operatorname {E} {\big [}(f+\varepsilon )^{2}{\big ]}\\&=\operatorname {E} [f^{2}]+2\operatorname {E} [f\varepsilon ]+\operatorname {E} [\varepsilon ^{2}]&&{\text{by linearity of }}\operatorname {E} \\&=f^{2}+2f\operatorname {E} [\varepsilon ]+\operatorname {E} [\varepsilon ^{2}]&&{\text{since }}f{\text{ does not depend on the data}}\\&=f^{2}+2f\cdot 0+\sigma ^{2}&&{\text{since }}\varepsilon {\text{ has zero mean and variance }}\sigma ^{2}\end{aligned}}

Во-вторых,

{\begin{aligned}\operatorname {E} {\big [}y{\hat {f}}{\big ]}&=\operatorname {E} {\big [}(f+\varepsilon ){\hat {f}}{\big ]}\\&=\operatorname {E} [f{\hat {f}}]+\operatorname {E} [\varepsilon {\hat {f}}]&&{\text{by linearity of }}\operatorname {E} \\&=\operatorname {E} [f{\hat {f}}]+\operatorname {E} [\varepsilon ]\operatorname {E} [{\hat {f}}]&&{\text{since }}{\hat {f}}{\text{ and }}\varepsilon {\text{ are independent}}\\&=f\operatorname {E} [{\hat {f}}]&&{\text{since }}\operatorname {E} [\varepsilon ]=0\end{aligned}}

Наконец,

{\begin{aligned}\operatorname {E} {\big [}{\hat {f}}^{2}{\big ]}&=\operatorname {Var} ({\hat {f}})+\operatorname {E} [{\hat {f}}]^{2}&&{\text{since }}\operatorname {Var} [X]\triangleq \operatorname {E} {\Big [}(X-\operatorname {E} [X])^{2}{\Big ]}=\operatorname {E} [X^{2}]-\operatorname {E} [X]^{2}{\text{ for any random variable }}X\end{aligned}}

В конце концов мы подключаем эти три формулы к нашему предыдущему выводу ${\text{MSE}}$ и таким образом показать, что:

{\begin{aligned}{\text{MSE}}&=f^{2}+\sigma ^{2}-2f\operatorname {E} [{\hat {f}}]+\operatorname {Var} [{\hat {f}}]+\operatorname {E} [{\hat {f}}]^{2}\\&=(f-\operatorname {E} [{\hat {f}}])^{2}+\sigma ^{2}+\operatorname {Var} {\big [}{\hat {f}}{\big ]}\\[5pt]&=\operatorname {Bias} [{\hat {f}}]^{2}+\sigma ^{2}+\operatorname {Var} {\big [}{\hat {f}}{\big ]}\end{aligned}}

Наконец, функция потерь MSE (или отрицательная логарифмическая вероятность) получается путем принятия математического ожидания за $x\sim P$ :

{\text{MSE}}=\operatorname {E} _{x}{\bigg \{}\operatorname {Bias} _{D}[{\hat {f}}(x;D)]^{2}+\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\bigg \}}+\sigma ^{2}.

Подходы

Уменьшение размерности и выбор признаков могут уменьшить дисперсию за счет упрощения моделей. Аналогичным образом, больший обучающий набор имеет тенденцию уменьшать дисперсию. Добавление функций (предсказателей) имеет тенденцию уменьшать систематическую ошибку за счет введения дополнительной дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию; например,

линейные и обобщенно-линейные модели можно регуляризовать , чтобы уменьшить их дисперсию за счет увеличения их систематической ошибки. ^[11]
В искусственных нейронных сетях дисперсия увеличивается, а смещение уменьшается по мере увеличения количества скрытых единиц. ^[12] хотя это классическое предположение стало предметом недавних дебатов. ^[4] Как и в GLM, обычно применяется регуляризация.
В моделях k -ближайшего соседа высокое значение $k$ приводит к большому смещению и низкой дисперсии (см. ниже).
При обучении на основе экземпляров регуляризации можно добиться, варьируя смесь прототипов и образцов. ^[13]
В деревьях решений глубина дерева определяет дисперсию. Деревья решений обычно сокращаются, чтобы контролировать дисперсию. ^[7]^: 307

Одним из способов решения этой проблемы является использование смешанных моделей и ансамблевого обучения . ^[14]^[15] Например, повышение объединяет множество «слабых» (с высоким смещением) моделей в ансамбль, который имеет меньшую предвзятость, чем отдельные модели, тогда как пакетирование объединяет «сильных» обучающихся таким образом, чтобы уменьшить их дисперсию.

Методы проверки модели, такие как перекрестная проверка (статистика), могут использоваться для настройки моделей с целью оптимизации компромисса.

k - ближайшие соседи

В случае $регрессии k$ -ближайших соседей , когда ожидание принимается за возможную маркировку фиксированного обучающего набора, существует выражение в замкнутой форме , которое связывает разложение смещения-дисперсии с параметром $k$ : ^[8]^{: 37, 223}

\operatorname {E} \left[(y-{\hat {f}}(x))^{2}\mid X=x\right]=\left(f(x)-{\frac {1}{k}}\sum _{i=1}^{k}f(N_{i}(x))\right)^{2}+{\frac {\sigma ^{2}}{k}}+\sigma ^{2}

где $N_{1}(x),\dots ,N_{k}(x)$ — это $k$ ближайших соседей $x$ в обучающем наборе. Смещение (первый член) представляет собой монотонно возрастающую функцию $k$ , тогда как дисперсия (второй член) падает по мере $k$ увеличения . Фактически, при «разумных предположениях» смещение оценки первого ближайшего соседа (1-NN) полностью исчезает, когда размер обучающего набора приближается к бесконечности. ^[12]

Приложения

В регрессии

Разложение смещения-дисперсии формирует концептуальную основу для методов регуляризации регрессии , таких как Лассо и гребневая регрессия . Методы регуляризации вносят смещение в решение регрессии, что может значительно уменьшить дисперсию по сравнению с обычным решением наименьших квадратов (OLS) . Хотя решение OLS обеспечивает несмещенные оценки регрессии, решения с более низкой дисперсией, полученные с помощью методов регуляризации, обеспечивают превосходную производительность MSE.

В классификации

Разложение смещения-дисперсии изначально было сформулировано для регрессии наименьших квадратов. Для случая классификации по потерям 0–1 (коэффициент ошибочной классификации) можно найти аналогичное разложение. ^[16]^[17] В качестве альтернативы, если проблему классификации можно сформулировать как вероятностную классификацию , то ожидаемую квадратичную ошибку предсказанных вероятностей относительно истинных вероятностей можно разложить, как и раньше. ^[18]

Утверждалось, что по мере увеличения обучающих данных дисперсия изученных моделей будет иметь тенденцию к уменьшению, и, следовательно, по мере увеличения количества обучающих данных ошибка минимизируется с помощью методов, которые изучают модели с меньшим смещением, и наоборот, для меньших объемов обучающих данных. становится все более важным минимизировать дисперсию. ^[19]

В обучении с подкреплением

Несмотря на то, что декомпозиция смещения-дисперсии не применяется напрямую в обучении с подкреплением , аналогичный компромисс может также характеризовать обобщение. Когда агент имеет ограниченную информацию о своем окружении, неоптимальность алгоритма RL можно разложить на сумму двух слагаемых: члена, связанного с асимптотическим смещением, и члена, связанного с переоснащением. Асимптотическое смещение напрямую связано с алгоритмом обучения (независимо от количества данных), тогда как термин переобучения возникает из-за того, что объем данных ограничен. ^[20]

В человеческом обучении

Дилемма смещения-дисперсии широко обсуждается в контексте машинного обучения, но она исследовалась в контексте человеческого познания , особенно Гердом Гигеренцером и его коллегами в контексте изученной эвристики. Они утверждали (см. ссылки ниже), что человеческий мозг решает дилемму в случае обычно скудных, плохо охарактеризованных обучающих наборов, полученных на основе опыта, путем принятия эвристики с высокой предвзятостью / низкой дисперсией. Это отражает тот факт, что подход с нулевой предвзятостью плохо обобщается на новые ситуации, а также необоснованно предполагает точное знание истинного состояния мира. Получающиеся в результате эвристики относительно просты, но дают более точные выводы в более широком спектре ситуаций. ^[21]

Геман и др. ^[12] утверждают, что дилемма предвзятости-дисперсии подразумевает, что такие способности, как распознавание общих объектов, не могут быть изучены с нуля, а требуют определенной степени «жесткой связи», которая позже настраивается с опытом. Это связано с тем, что немодальные подходы к выводу требуют непрактично больших обучающих наборов, чтобы избежать высокой дисперсии.

См. также

Ссылки

^ Кохави, Рон; Вулперт, Дэвид Х. (1996). «Разложение смещения плюс дисперсия для функций потерь ноль-единица». ИКМЛ . 96 .
^ Люксбург, Ульрике В.; Шёлкопф, Б. (2011). «Статистическая теория обучения: модели, концепции и результаты». Справочник по истории логики . 10 : Раздел 2.4.
^ Нил, Брэди (2019). «О компромиссе смещения и дисперсии: учебники нуждаются в обновлении». arXiv : 1912.08286 [ cs.LG ].
^ Jump up to: ^а ^б Нил, Брэди; Миттал, Сартак; Баратин, Аристид; Тантия, Винаяк; Шиклуна, Мэтью; Лакост-Жюльен, Симон; Митлягкас, Иоаннис (2018). «Современный взгляд на компромисс между смещением и дисперсией в нейронных сетях». arXiv : 1810.08591 [ cs.LG ].
^ Нил, Брэди; Миттал, Сартак; Баратин, Аристид; Тантия, Винаяк; Шиклуна, Мэтью; Лакост-Жюльен, Симон; Митлягкас, Иоаннис (2019). Современный взгляд на компромисс между смещением и дисперсией в нейронных сетях . Международная конференция по обучению представлений (ICLR) 2019.
^ Вапник, Владимир (2000). Природа статистической теории обучения . Нью-Йорк: Springer-Verlag. дои : 10.1007/978-1-4757-3264-1 . ISBN 978-1-4757-3264-1 . S2CID 7138354 .
^ Jump up to: ^а ^б ^с Джеймс, Гарет; Виттен, Даниэла ; Хасти, Тревор ; Тибширани, Роберт (2013). Введение в статистическое обучение . Спрингер.
^ Jump up to: ^а ^б Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения . Архивировано из оригинала 26 января 2015 г. Проверено 20 августа 2014 г.
^ Виджаякумар, Сету (2007). «Компромисс смещения и дисперсии» (PDF) . Эдинбургский университет . Проверено 19 августа 2014 г.
^ Шахнарович, Грег (2011). «Заметки о выводе разложения смещения-дисперсии в линейной регрессии» (PDF) . Архивировано из оригинала (PDF) 21 августа 2014 года . Проверено 20 августа 2014 г.
^ Белсли, Дэвид (1991). Диагностика обусловленности: коллинеарность и слабые данные в регрессии . Нью-Йорк (Нью-Йорк): Уайли. ISBN 978-0471528890 .
^ Jump up to: ^а ^б ^с Жеман, Стюарт ; Биненшток, Эли; Дурса, Рене (1992). «Нейронные сети и дилемма предвзятости/дисперсии» (PDF) . Нейронные вычисления . 4 : 1–58. дои : 10.1162/neco.1992.4.1.1 . S2CID 14215320 .
^ Гальярди, Франческо (май 2011 г.). «Классификаторы на основе экземпляров, применяемые к медицинским базам данных: диагностика и извлечение знаний» . Искусственный интеллект в медицине . 52 (3): 123–139. doi : 10.1016/j.artmed.2011.04.002 . ПМИД 21621400 .
^ Тинг, Джо-Энн; Виджайкумар, Сету; Шааль, Стефан (2011). «Локально-взвешенная регрессия для контроля». В Саммуте, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения (PDF) . Спрингер. п. 615. Бибкод : 2010eoml.book.....S .
^ Фортманн-Роу, Скотт (2012). «Понимание компромисса смещения и дисперсии» .
^ Домингос, Педро (2000). Единая декомпозиция смещения-дисперсии (PDF) . ИКМЛ.
^ Валентини, Джорджио; Диттерих, Томас Г. (2004). «Анализ смещения и дисперсии машин опорных векторов для разработки ансамблевых методов на основе SVM» (PDF) . Журнал исследований машинного обучения . 5 : 725–775.
^ Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих (2008). «Векторная космическая классификация» (PDF) . Введение в поиск информации . Издательство Кембриджского университета. стр. 308–314.
^ Брэйн, Дамиан; Уэбб, Джеффри (2002). Потребность в алгоритмах с низким смещением при обучении классификации на основе больших наборов данных (PDF) . Материалы Шестой Европейской конференции по принципам интеллектуального анализа данных и обнаружения знаний (PKDD 2002).
^ Франсуа-Лаве, Винсент; Рабюссо, Гийом; Пино, Джоэль; Эрнст, Дэмиен; Фонтено, Рафаэль (2019). «О переоснащении и асимптотическом смещении в пакетном обучении с подкреплением с частичной наблюдаемостью» . Журнал исследований искусственного интеллекта . 65 : 1–30. arXiv : 1709.07796 . дои : 10.1613/jair.1.11478 .
^ Гигеренцер, Герд ; Брайтон, Генри (2009). «Homo Heuristicus: почему предвзятые умы делают лучшие выводы». Темы когнитивной науки . 1 (1): 107–143. дои : 10.1111/j.1756-8765.2008.01006.x . hdl : 11858/00-001M-0000-0024-F678-0 . ПМИД 25164802 .

Внешние ссылки

MLU-Explain: Компромисс дисперсии смещения — интерактивная визуализация компромисса дисперсии смещения в регрессии LOESS и K-Nearest Neighbours.

Литература

Гарри Л. Ван Трис; Кристин Л. Белл, «Исследование компромиссов между смещением оценщика с использованием однородной границы CR», в книге «Байесовские границы для оценки параметров и нелинейной фильтрации/отслеживания», IEEE, 2007, стр. 451–466, doi: 10.1109/9780470544198.ch40.

[1] Кохави, Рон; Вулперт, Дэвид Х. (1996). «Разложение смещения плюс дисперсия для функций потерь ноль-единица». ИКМЛ . 96 .

[2] Люксбург, Ульрике В.; Шёлкопф, Б. (2011). «Статистическая теория обучения: модели, концепции и результаты». Справочник по истории логики . 10 : Раздел 2.4.

[nealThesis2019-3] Нил, Брэди (2019). «О компромиссе смещения и дисперсии: учебники нуждаются в обновлении». arXiv : 1912.08286 [ cs.LG ].

[neal2018-4] Jump up to: ^а ^б Нил, Брэди; Миттал, Сартак; Баратин, Аристид; Тантия, Винаяк; Шиклуна, Мэтью; Лакост-Жюльен, Симон; Митлягкас, Иоаннис (2018). «Современный взгляд на компромисс между смещением и дисперсией в нейронных сетях». arXiv : 1810.08591 [ cs.LG ].

[5] Нил, Брэди; Миттал, Сартак; Баратин, Аристид; Тантия, Винаяк; Шиклуна, Мэтью; Лакост-Жюльен, Симон; Митлягкас, Иоаннис (2019). Современный взгляд на компромисс между смещением и дисперсией в нейронных сетях . Международная конференция по обучению представлений (ICLR) 2019.

[6] Вапник, Владимир (2000). Природа статистической теории обучения . Нью-Йорк: Springer-Verlag. дои : 10.1007/978-1-4757-3264-1 . ISBN 978-1-4757-3264-1 . S2CID 7138354 .

[islr-7] Jump up to: ^а ^б ^с Джеймс, Гарет; Виттен, Даниэла ; Хасти, Тревор ; Тибширани, Роберт (2013). Введение в статистическое обучение . Спрингер.

[ESL-8] Jump up to: ^а ^б Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения . Архивировано из оригинала 26 января 2015 г. Проверено 20 августа 2014 г.

[9] Виджаякумар, Сету (2007). «Компромисс смещения и дисперсии» (PDF) . Эдинбургский университет . Проверено 19 августа 2014 г.

[10] Шахнарович, Грег (2011). «Заметки о выводе разложения смещения-дисперсии в линейной регрессии» (PDF) . Архивировано из оригинала (PDF) 21 августа 2014 года . Проверено 20 августа 2014 г.

[11] Белсли, Дэвид (1991). Диагностика обусловленности: коллинеарность и слабые данные в регрессии . Нью-Йорк (Нью-Йорк): Уайли. ISBN 978-0471528890 .

[geman-12] Jump up to: ^а ^б ^с Жеман, Стюарт ; Биненшток, Эли; Дурса, Рене (1992). «Нейронные сети и дилемма предвзятости/дисперсии» (PDF) . Нейронные вычисления . 4 : 1–58. дои : 10.1162/neco.1992.4.1.1 . S2CID 14215320 .

[13] Гальярди, Франческо (май 2011 г.). «Классификаторы на основе экземпляров, применяемые к медицинским базам данных: диагностика и извлечение знаний» . Искусственный интеллект в медицине . 52 (3): 123–139. doi : 10.1016/j.artmed.2011.04.002 . ПМИД 21621400 .

[14] Тинг, Джо-Энн; Виджайкумар, Сету; Шааль, Стефан (2011). «Локально-взвешенная регрессия для контроля». В Саммуте, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения (PDF) . Спрингер. п. 615. Бибкод : 2010eoml.book.....S .

[15] Фортманн-Роу, Скотт (2012). «Понимание компромисса смещения и дисперсии» .

[16] Домингос, Педро (2000). Единая декомпозиция смещения-дисперсии (PDF) . ИКМЛ.

[17] Валентини, Джорджио; Диттерих, Томас Г. (2004). «Анализ смещения и дисперсии машин опорных векторов для разработки ансамблевых методов на основе SVM» (PDF) . Журнал исследований машинного обучения . 5 : 725–775.

[18] Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих (2008). «Векторная космическая классификация» (PDF) . Введение в поиск информации . Издательство Кембриджского университета. стр. 308–314.

[19] Брэйн, Дамиан; Уэбб, Джеффри (2002). Потребность в алгоритмах с низким смещением при обучении классификации на основе больших наборов данных (PDF) . Материалы Шестой Европейской конференции по принципам интеллектуального анализа данных и обнаружения знаний (PKDD 2002).

[20] Франсуа-Лаве, Винсент; Рабюссо, Гийом; Пино, Джоэль; Эрнст, Дэмиен; Фонтено, Рафаэль (2019). «О переоснащении и асимптотическом смещении в пакетном обучении с подкреплением с частичной наблюдаемостью» . Журнал исследований искусственного интеллекта . 65 : 1–30. arXiv : 1709.07796 . дои : 10.1613/jair.1.11478 .

[ReferenceA-21] Гигеренцер, Герд ; Брайтон, Генри (2009). «Homo Heuristicus: почему предвзятые умы делают лучшие выводы». Темы когнитивной науки . 1 (1): 107–143. дои : 10.1111/j.1756-8765.2008.01006.x . hdl : 11858/00-001M-0000-0024-F678-0 . ПМИД 25164802 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]