В статистической классификации классификатор Байеса — это классификатор, имеющий наименьшую вероятность неправильной классификации среди всех классификаторов, использующих один и тот же набор признаков. [1]
Предположим, пара
принимает значения в
, где
— это метка класса элемента, функции которого определяются формулой
. Предположим, что распределение X условное при условии, что метка Y принимает значение r, определяется выражением
где "
" означает "распространяется как", и где
обозначает распределение вероятностей.
Классификатор — это правило, которое присваивает наблюдению X = x предположение или оценку того, чем на самом деле была ненаблюдаемая метка Y = r . Теоретически классификатор — это измеримая функция.
, с интерпретацией, что C относит точку x к классу C ( x ). Вероятность неправильной классификации или риск классификатора C определяется как 
Классификатор Байеса – это 
На практике, как и в большей части статистики, трудности и тонкости связаны с эффективным моделированием распределений вероятностей — в данном случае
. Классификатор Байеса является полезным ориентиром в статистической классификации .
Избыточный риск общего классификатора
(возможно, в зависимости от некоторых обучающих данных) определяется как
Таким образом, эта неотрицательная величина важна для оценки эффективности различных методов классификации. Классификатор считается непротиворечивым, если избыточный риск стремится к нулю, поскольку размер набора обучающих данных стремится к бесконечности. [2]
Учитывая компоненты
из
чтобы быть взаимно независимыми, мы получаем наивный классификатор Байеса , где 
Доказательство того, что байесовский классификатор оптимален и коэффициент байесовских ошибок минимален, проводится следующим образом.
Определите переменные: Риск
, Байесовский риск
, все возможные классы, к которым можно отнести точки
. Пусть апостериорная вероятность точки, принадлежащей классу 1, равна
. Определить классификатор
как 
Тогда мы имеем следующие результаты:
, то есть
— классификатор Байеса, - Для любого классификатора
, избыточный риск удовлетворяет ![{\displaystyle R(h)-R^{*}=2\mathbb {E} _{X}\left[|\eta (x)-0,5|\cdot \mathbb {I} _{\left\{h (X)\neq h^{*}(X)\right\}}\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/92a2fec73684d3551d08cf02e2c48ed1005af28d)
![{\displaystyle R^{*}=\mathbb {E} _{X}\left[\min(\eta (X),1-\eta (X))\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/fa3bb978cc7e2b5d3664f9051f7562943ddf73fc)
![{\displaystyle R^{*}={\frac {1}{2}}-{\frac {1}{2}}\mathbb {E} [|2\eta (X)-1|]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e369a206f96f8aa43e546ddc6abd3a181aceacf0)
Доказательство (а): Для любого классификатора
, у нас есть
где вторая строка была получена с помощью теоремы Фубини
Обратите внимание, что
минимизируется за счет принятия
, 
Следовательно, минимально возможным риском является байесовский риск:
.
Доказательство (б): ![{\displaystyle {\begin{aligned}R(h)-R^{*}&=R(h)-R(h^{*})\\&=\mathbb {E} _{X}[\eta (X)\mathbb {I} _{\left\{h(X)=0\right\}}+(1-\eta (X))\mathbb {I} _{\left\{h(X) =1\right\}}-\eta (X)\mathbb {I} _{\left\{h^{*}(X)=0\right\}}-(1-\eta (X))\ mathbb {I} _ {\left\{h^{*}(X)=1\right\}}]\\&=\mathbb {E} _{X}[|2\eta (X)-1| \mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}]\\&=2\mathbb {E} _{X}[|\eta ( X)-0.5|\mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}]\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b0340d50b1dd24e974c522f8ea9c59e2bcbeef3f)
Доказательство (с): ![{\displaystyle {\begin{aligned}R(h^{*})&=\mathbb {E} _{X}[\eta (X)\mathbb {I} _{\left\{h^{*} (X)=0\right\}}+(1-\eta (X))\mathbb {I} _ {\left\{h*(X)=1\right\}}]\\&=\mathbb {E} _{X}[\min(\eta (X),1-\eta (X))]\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/01df273ced4bc3702c2210244ef440c44f67bac6)
Доказательство (d): ![{\displaystyle {\begin{aligned}R(h^{*})&=\mathbb {E} _{X}[\min(\eta (X),1-\eta (X))]\\& ={\frac {1}{2}}-\mathbb {E} _{X}[\max(\eta (X)-1/2,1/2-\eta (X))]\\&= {\frac {1}{2}}-{\frac {1}{2}}\mathbb {E} [|2\eta (X)-1|]\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7ba39b35fd8b5ff994c47465478ef44cbd8a8271)
Общий случай, когда классификатор Байеса минимизирует ошибку классификации, когда каждый элемент может принадлежать к любой из n категорий, обусловлен завышенными ожиданиями следующим образом. ![{\displaystyle {\begin{aligned}\mathbb {E} _{Y}(\mathbb {I} _ {\{y\neq {\hat {y}}\}}) &=\mathbb {E} _ {X}\mathbb {E} _{Y|X}\left(\mathbb {I} _{\{y\neq {\hat {y}}\}}|X=x\right)\\&= \mathbb {E} \left[\Pr(Y=1|X=x)\mathbb {I} _{\{{\hat {y}}=2,3,\dots ,n\}}+\Pr (Y=2|X=x)\mathbb {I} _{\{{\hat {y}}=1,3,\dots ,n\}}+\dots +\Pr(Y=n|X= x)\mathbb {I} _{\{{\hat {y}}=1,2,3,\dots ,n-1\}}\right]\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2c222ea0960dd04b751b4ef9de5473dca26bbb5f)
Это минимизируется путем одновременной минимизации всех членов ожидания с помощью классификатора
для каждого наблюдения x .