Probability and computer science concept
В теории вероятностей и информатике теоретической неравенство Мак-Диармида (названное в честь Колина Мак-Диармида) [ 1 ] ) — это неравенство концентрации , которое ограничивает отклонение между выбранным значением и ожидаемым значением определенных функций, когда они оцениваются на независимых случайных величинах . Неравенство Макдиармида применяется к функциям, которые удовлетворяют свойству ограниченных различий , что означает, что замена одного аргумента функции при оставлении всех остальных аргументов неизменными не может вызвать слишком большое изменение значения функции.
Функция
f
:
X
1
×
X
2
×
⋯
×
X
n
→
R
{\displaystyle f:{\mathcal {X}}_{1}\times {\mathcal {X}}_{2}\times \cdots \times {\mathcal {X}}_{n}\rightarrow \mathbb {R} }
удовлетворяет свойству ограниченных различий при замене значения
i
{\displaystyle i}
координата
x
i
{\displaystyle x_{i}}
меняет значение
f
{\displaystyle f}
максимум
c
i
{\displaystyle c_{i}}
. Более формально, если существуют константы
c
1
,
c
2
,
…
,
c
n
{\displaystyle c_{1},c_{2},\dots ,c_{n}}
такой, что для всех
i
∈
[
n
]
{\displaystyle i\in [n]}
, и все
x
1
∈
X
1
,
x
2
∈
X
2
,
…
,
x
n
∈
X
n
{\displaystyle x_{1}\in {\mathcal {X}}_{1},\,x_{2}\in {\mathcal {X}}_{2},\,\ldots ,\,x_{n}\in {\mathcal {X}}_{n}}
,
sup
x
i
′
∈
X
i
|
f
(
x
1
,
…
,
x
i
−
1
,
x
i
,
x
i
+
1
,
…
,
x
n
)
−
f
(
x
1
,
…
,
x
i
−
1
,
x
i
′
,
x
i
+
1
,
…
,
x
n
)
|
≤
c
i
.
{\displaystyle \sup _{x_{i}'\in {\mathcal {X}}_{i}}\left|f(x_{1},\dots ,x_{i-1},x_{i},x_{i+1},\ldots ,x_{n})-f(x_{1},\dots ,x_{i-1},x_{i}',x_{i+1},\ldots ,x_{n})\right|\leq c_{i}.}
Неравенство МакДиармида [ 2 ] - Позволять
f
:
X
1
×
X
2
×
⋯
×
X
n
→
R
{\displaystyle f:{\mathcal {X}}_{1}\times {\mathcal {X}}_{2}\times \cdots \times {\mathcal {X}}_{n}\rightarrow \mathbb {R} }
удовлетворять свойству ограниченных различий с границами
c
1
,
c
2
,
…
,
c
n
{\displaystyle c_{1},c_{2},\dots ,c_{n}}
.
Рассмотрим независимые случайные величины
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\dots ,X_{n}}
где
X
i
∈
X
i
{\displaystyle X_{i}\in {\mathcal {X}}_{i}}
для всех
i
{\displaystyle i}
.
Тогда для любого
ε
>
0
{\displaystyle \varepsilon >0}
,
P
(
f
(
X
1
,
X
2
,
…
,
X
n
)
−
E
[
f
(
X
1
,
X
2
,
…
,
X
n
)
]
≥
ε
)
≤
exp
(
−
2
ε
2
∑
i
=
1
n
c
i
2
)
,
{\displaystyle {\text{P}}\left(f(X_{1},X_{2},\ldots ,X_{n})-\mathbb {E} [f(X_{1},X_{2},\ldots ,X_{n})]\geq \varepsilon \right)\leq \exp \left(-{\frac {2\varepsilon ^{2}}{\sum _{i=1}^{n}c_{i}^{2}}}\right),}
P
(
f
(
X
1
,
X
2
,
…
,
X
n
)
−
E
[
f
(
X
1
,
X
2
,
…
,
X
n
)
]
≤
−
ε
)
≤
exp
(
−
2
ε
2
∑
i
=
1
n
c
i
2
)
,
{\displaystyle {\text{P}}(f(X_{1},X_{2},\ldots ,X_{n})-\mathbb {E} [f(X_{1},X_{2},\ldots ,X_{n})]\leq -\varepsilon )\leq \exp \left(-{\frac {2\varepsilon ^{2}}{\sum _{i=1}^{n}c_{i}^{2}}}\right),}
и как непосредственное следствие,
P
(
|
f
(
X
1
,
X
2
,
…
,
X
n
)
−
E
[
f
(
X
1
,
X
2
,
…
,
X
n
)
]
|
≥
ε
)
≤
2
exp
(
−
2
ε
2
∑
i
=
1
n
c
i
2
)
.
{\displaystyle {\text{P}}(|f(X_{1},X_{2},\ldots ,X_{n})-\mathbb {E} [f(X_{1},X_{2},\ldots ,X_{n})]|\geq \varepsilon )\leq 2\exp \left(-{\frac {2\varepsilon ^{2}}{\sum _{i=1}^{n}c_{i}^{2}}}\right).}
Более строгая граница может быть установлена, когда аргументы функции выбираются из несбалансированных распределений, так что повторная выборка одного аргумента редко приводит к значительному изменению значения функции.
Неравенство Макдермида (несбалансированное) [ 3 ] [ 4 ] - Позволять
f
:
X
n
→
R
{\displaystyle f:{\mathcal {X}}^{n}\rightarrow \mathbb {R} }
удовлетворять свойству ограниченных различий с границами
c
1
,
c
2
,
…
,
c
n
{\displaystyle c_{1},c_{2},\dots ,c_{n}}
.
Рассмотрим независимые случайные величины
X
1
,
X
2
,
…
,
X
n
∈
X
{\displaystyle X_{1},X_{2},\ldots ,X_{n}\in {\mathcal {X}}}
взято из распределения, где есть определенное значение
χ
0
∈
X
{\displaystyle \chi _{0}\in {\mathcal {X}}}
что происходит с вероятностью
1
−
p
{\displaystyle 1-p}
.
Тогда для любого
ε
>
0
{\displaystyle \varepsilon >0}
,
P
(
|
f
(
X
1
,
…
,
X
n
)
−
E
[
f
(
X
1
,
…
,
X
n
)
]
|
≥
ε
)
≤
2
exp
(
−
ε
2
2
p
(
2
−
p
)
∑
i
=
1
n
c
i
2
+
2
3
ε
max
i
c
i
)
.
{\displaystyle {\text{P}}(|f(X_{1},\ldots ,X_{n})-\mathbb {E} [f(X_{1},\ldots ,X_{n})]|\geq \varepsilon )\leq 2\exp \left({\frac {-\varepsilon ^{2}}{2p(2-p)\sum _{i=1}^{n}c_{i}^{2}+{\frac {2}{3}}\varepsilon \max _{i}c_{i}}}\right).}
Это можно использовать, например, для характеристики значения функции на графах при ее оценке на разреженных случайных графах и гиперграфах , поскольку в разреженном случайном графе вероятность отсутствия какого-либо конкретного ребра гораздо выше, чем его присутствия.
Неравенство Мак-Диармида можно распространить на случай, когда анализируемая функция не удовлетворяет строго свойству ограниченных разностей, но большие различия остаются очень редкими.
Неравенство МакДиармида (различия ограничены с высокой вероятностью) [ 5 ] - Позволять
f
:
X
1
×
X
2
×
⋯
×
X
n
→
R
{\displaystyle f:{\mathcal {X}}_{1}\times {\mathcal {X}}_{2}\times \cdots \times {\mathcal {X}}_{n}\rightarrow \mathbb {R} }
быть функцией и
Y
⊆
X
1
×
X
2
×
⋯
×
X
n
{\displaystyle {\mathcal {Y}}\subseteq {\mathcal {X}}_{1}\times {\mathcal {X}}_{2}\times \cdots \times {\mathcal {X}}_{n}}
быть подмножеством своей области определения и пусть
c
1
,
c
2
,
…
,
c
n
≥
0
{\displaystyle c_{1},c_{2},\dots ,c_{n}\geq 0}
быть такими константами, что для всех пар
(
x
1
,
…
,
x
n
)
∈
Y
{\displaystyle (x_{1},\ldots ,x_{n})\in {\mathcal {Y}}}
и
(
x
1
′
,
…
,
x
n
′
)
∈
Y
{\displaystyle (x'_{1},\ldots ,x'_{n})\in {\mathcal {Y}}}
,
|
f
(
x
1
,
…
,
x
n
)
−
f
(
x
1
′
,
…
,
x
n
′
)
|
≤
∑
i
:
x
i
≠
x
i
′
c
i
.
{\displaystyle \left|f(x_{1},\ldots ,x_{n})-f(x'_{1},\ldots ,x'_{n})\right|\leq \sum _{i:x_{i}\neq x'_{i}}c_{i}.}
Рассмотрим независимые случайные величины
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\dots ,X_{n}}
где
X
i
∈
X
i
{\displaystyle X_{i}\in {\mathcal {X}}_{i}}
для всех
i
{\displaystyle i}
.
Позволять
p
=
1
−
P
(
(
X
1
,
…
,
X
n
)
∈
Y
)
{\displaystyle p=1-\mathrm {P} ((X_{1},\ldots ,X_{n})\in {\mathcal {Y}})}
и пусть
m
=
E
[
f
(
X
1
,
…
,
X
n
)
∣
(
X
1
,
…
,
X
n
)
∈
Y
]
{\displaystyle m=\mathbb {E} [f(X_{1},\ldots ,X_{n})\mid (X_{1},\ldots ,X_{n})\in {\mathcal {Y}}]}
.
Тогда для любого
ε
>
0
{\displaystyle \varepsilon >0}
,
P
(
f
(
X
1
,
…
,
X
n
)
−
m
≥
ε
)
≤
p
+
exp
(
−
2
max
(
0
,
ε
−
p
∑
i
=
1
n
c
i
)
2
∑
i
=
1
n
c
i
2
)
,
{\displaystyle {\text{P}}\left(f(X_{1},\ldots ,X_{n})-m\geq \varepsilon \right)\leq p+\exp \left(-{\frac {2\max \left(0,\varepsilon -p\sum _{i=1}^{n}c_{i}\right)^{2}}{\sum _{i=1}^{n}c_{i}^{2}}}\right),}
и как непосредственное следствие,
P
(
|
f
(
X
1
,
…
,
X
n
)
−
m
|
≥
ε
)
≤
2
p
+
2
exp
(
−
2
max
(
0
,
ε
−
p
∑
i
=
1
n
c
i
)
2
∑
i
=
1
n
c
i
2
)
.
{\displaystyle {\text{P}}(|f(X_{1},\ldots ,X_{n})-m|\geq \varepsilon )\leq 2p+2\exp \left(-{\frac {2\max \left(0,\varepsilon -p\sum _{i=1}^{n}c_{i}\right)^{2}}{\sum _{i=1}^{n}c_{i}^{2}}}\right).}
В некоторых сценариях, зависящих от распределения, существуют более строгие уточнения этого анализа. [ 6 ] такие как те, которые возникают в теории обучения .
Пусть
k
{\displaystyle k}
центрированная условная версия функции
f
{\displaystyle f}
быть
f
k
(
X
)
(
x
)
:=
f
(
x
1
,
…
,
x
k
−
1
,
X
k
,
x
k
+
1
,
…
,
x
n
)
−
E
X
k
′
f
(
x
1
,
…
,
x
k
−
1
,
X
k
′
,
x
k
+
1
,
…
,
x
n
)
,
{\displaystyle f_{k}(X)(x):=f(x_{1},\ldots ,x_{k-1},X_{k},x_{k+1},\ldots ,x_{n})-\mathbb {E} _{X'_{k}}f(x_{1},\ldots ,x_{k-1},X'_{k},x_{k+1},\ldots ,x_{n}),}
так что
f
k
(
X
)
{\displaystyle f_{k}(X)}
– случайная величина, зависящая от случайных значений
x
1
,
…
,
x
k
−
1
,
x
k
+
1
,
…
,
x
n
{\displaystyle x_{1},\ldots ,x_{k-1},x_{k+1},\ldots ,x_{n}}
.
Неравенство МакДиармида (субгауссова норма) [ 7 ] [ 8 ] - Позволять
f
:
X
1
×
X
2
×
⋯
×
X
n
→
R
{\displaystyle f:{\mathcal {X}}_{1}\times {\mathcal {X}}_{2}\times \cdots \times {\mathcal {X}}_{n}\rightarrow \mathbb {R} }
быть функцией.
Рассмотрим независимые случайные величины
X
=
(
X
1
,
X
2
,
…
,
X
n
)
{\displaystyle X=(X_{1},X_{2},\dots ,X_{n})}
где
X
i
∈
X
i
{\displaystyle X_{i}\in {\mathcal {X}}_{i}}
для всех
i
{\displaystyle i}
.
Позволять
f
k
(
X
)
{\displaystyle f_{k}(X)}
обратитесь к
k
{\displaystyle k}
центрированная условная версия
f
{\displaystyle f}
.
Позволять
‖
⋅
‖
ψ
2
{\displaystyle \|\cdot \|_{\psi _{2}}}
обозначают субгауссову норму случайной величины.
Тогда для любого
ε
>
0
{\displaystyle \varepsilon >0}
,
P
(
f
(
X
1
,
…
,
X
n
)
−
m
≥
ε
)
≤
exp
(
−
ε
2
32
e
‖
∑
k
∈
[
n
]
‖
f
k
(
X
)
‖
ψ
2
2
‖
∞
)
.
{\displaystyle {\text{P}}\left(f(X_{1},\ldots ,X_{n})-m\geq \varepsilon \right)\leq \exp \left({\frac {-\varepsilon ^{2}}{32e\left\|\sum _{k\in [n]}\|f_{k}(X)\|_{\psi _{2}}^{2}\right\|_{\infty }}}\right).}
Неравенство МакДиармида (субэкспоненциальная норма) [ 8 ] - Позволять
f
:
X
1
×
X
2
×
⋯
×
X
n
→
R
{\displaystyle f:{\mathcal {X}}_{1}\times {\mathcal {X}}_{2}\times \cdots \times {\mathcal {X}}_{n}\rightarrow \mathbb {R} }
быть функцией.
Рассмотрим независимые случайные величины
X
=
(
X
1
,
X
2
,
…
,
X
n
)
{\displaystyle X=(X_{1},X_{2},\dots ,X_{n})}
где
X
i
∈
X
i
{\displaystyle X_{i}\in {\mathcal {X}}_{i}}
для всех
i
{\displaystyle i}
.
Позволять
f
k
(
X
)
{\displaystyle f_{k}(X)}
обратитесь к
k
{\displaystyle k}
центрированная условная версия
f
{\displaystyle f}
.
Позволять
‖
⋅
‖
ψ
1
{\displaystyle \|\cdot \|_{\psi _{1}}}
обозначают субэкспоненциальную норму случайной величины.
Тогда для любого
ε
>
0
{\displaystyle \varepsilon >0}
,
P
(
f
(
X
1
,
…
,
X
n
)
−
m
≥
ε
)
≤
exp
(
−
ε
2
4
e
2
‖
∑
k
∈
[
n
]
‖
f
k
(
X
)
‖
ψ
1
2
‖
∞
+
2
ε
e
max
k
∈
[
n
]
‖
‖
f
k
(
X
)
‖
ψ
1
‖
∞
)
.
{\displaystyle {\text{P}}\left(f(X_{1},\ldots ,X_{n})-m\geq \varepsilon \right)\leq \exp \left({\frac {-\varepsilon ^{2}}{4e^{2}\left\|\sum _{k\in [n]}\|f_{k}(X)\|_{\psi _{1}}^{2}\right\|_{\infty }+2\varepsilon e\max _{k\in [n]}\left\|\|f_{k}(X)\|_{\psi _{1}}\right\|_{\infty }}}\right).}
Уточнения неравенства Мак-Диармида в стиле неравенства Беннета и неравенства Бернштейна становятся возможными за счет определения члена дисперсии для каждого аргумента функции. Позволять
B
:=
max
k
∈
[
n
]
sup
x
1
,
…
,
x
k
−
1
,
x
k
+
1
,
…
,
x
n
|
f
(
x
1
,
…
,
x
k
−
1
,
X
k
,
x
k
+
1
,
…
,
x
n
)
−
E
X
k
f
(
x
1
,
…
,
x
k
−
1
,
X
k
,
x
k
+
1
,
…
,
x
n
)
|
,
V
k
:=
sup
x
1
,
…
,
x
k
−
1
,
x
k
+
1
,
…
,
x
n
E
X
k
(
f
(
x
1
,
…
,
x
k
−
1
,
X
k
,
x
k
+
1
,
…
,
x
n
)
−
E
X
k
f
(
x
1
,
…
,
x
k
−
1
,
X
k
,
x
k
+
1
,
…
,
x
n
)
)
2
,
σ
~
2
:=
∑
k
=
1
n
V
k
.
{\displaystyle {\begin{aligned}B&:=\max _{k\in [n]}\sup _{x_{1},\dots ,x_{k-1},x_{k+1},\dots ,x_{n}}\left|f(x_{1},\dots ,x_{k-1},X_{k},x_{k+1},\dots ,x_{n})-\mathbb {E} _{X_{k}}f(x_{1},\dots ,x_{k-1},X_{k},x_{k+1},\dots ,x_{n})\right|,\\V_{k}&:=\sup _{x_{1},\dots ,x_{k-1},x_{k+1},\dots ,x_{n}}\mathbb {E} _{X_{k}}\left(f(x_{1},\dots ,x_{k-1},X_{k},x_{k+1},\dots ,x_{n})-\mathbb {E} _{X_{k}}f(x_{1},\dots ,x_{k-1},X_{k},x_{k+1},\dots ,x_{n})\right)^{2},\\{\tilde {\sigma }}^{2}&:=\sum _{k=1}^{n}V_{k}.\end{aligned}}}
Неравенство Мак-Диармида (форма Беннета) [ 4 ] - Позволять
f
:
X
n
→
R
{\displaystyle f:{\mathcal {X}}^{n}\rightarrow \mathbb {R} }
удовлетворять свойству ограниченных различий с границами
c
1
,
c
2
,
…
,
c
n
{\displaystyle c_{1},c_{2},\dots ,c_{n}}
.
Рассмотрим независимые случайные величины
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\dots ,X_{n}}
где
X
i
∈
X
i
{\displaystyle X_{i}\in {\mathcal {X}}_{i}}
для всех
i
{\displaystyle i}
. Позволять
B
{\displaystyle B}
и
σ
~
2
{\displaystyle {\tilde {\sigma }}^{2}}
быть определены, как в начале этого раздела.
Тогда для любого
ε
>
0
{\displaystyle \varepsilon >0}
,
P
(
f
(
X
1
,
…
,
X
n
)
−
E
[
f
(
X
1
,
…
,
X
n
)
]
≥
ε
)
≤
exp
(
−
ε
2
B
log
(
1
+
B
ε
σ
~
2
)
)
.
{\displaystyle {\text{P}}(f(X_{1},\ldots ,X_{n})-\mathbb {E} [f(X_{1},\ldots ,X_{n})]\geq \varepsilon )\leq \exp \left(-{\frac {\varepsilon }{2B}}\log \left(1+{\frac {B\varepsilon }{{\tilde {\sigma }}^{2}}}\right)\right).}
Неравенство Мак-Диармида (форма Бернштейна) [ 4 ] - Позволять
f
:
X
n
→
R
{\displaystyle f:{\mathcal {X}}^{n}\rightarrow \mathbb {R} }
удовлетворять свойству ограниченных различий с границами
c
1
,
c
2
,
…
,
c
n
{\displaystyle c_{1},c_{2},\dots ,c_{n}}
. Позволять
B
{\displaystyle B}
и
σ
~
2
{\displaystyle {\tilde {\sigma }}^{2}}
быть определены, как в начале этого раздела.
Тогда для любого
ε
>
0
{\displaystyle \varepsilon >0}
,
P
(
f
(
X
1
,
…
,
X
n
)
−
E
[
f
(
X
1
,
…
,
X
n
)
]
≥
ε
)
≤
exp
(
−
ε
2
2
(
σ
~
2
+
B
ε
3
)
)
.
{\displaystyle {\text{P}}(f(X_{1},\ldots ,X_{n})-\mathbb {E} [f(X_{1},\ldots ,X_{n})]\geq \varepsilon )\leq \exp \left(-{\frac {\varepsilon ^{2}}{2\left({\tilde {\sigma }}^{2}+{\frac {B\varepsilon }{3}}\right)}}\right).}
Следующее доказательство неравенства Мак-Диармида [ 2 ] конструирует мартингал Дуба, отслеживающий условное математическое ожидание функции по мере того, как все больше и больше ее аргументов отбирается и обусловливается, а затем применяет неравенство концентрации мартингала ( неравенство Азумы ).
Также существует альтернативный аргумент, избегающий использования мартингалов, использующий независимость аргументов функции для предоставления аргумента, подобного границе Чернова . [ 4 ]
Для лучшей читабельности введем сокращенное обозначение:
z
i
⇁
j
{\displaystyle z_{i\rightharpoondown j}}
будет обозначать
z
i
,
…
,
z
j
{\displaystyle z_{i},\dots ,z_{j}}
для любого
z
∈
X
n
{\displaystyle z\in {\mathcal {X}}^{n}}
и целые числа
1
≤
i
≤
j
≤
n
{\displaystyle 1\leq i\leq j\leq n}
, так что, например,
f
(
X
1
⇁
(
i
−
1
)
,
y
,
x
(
i
+
1
)
⇁
n
)
:=
f
(
X
1
,
…
,
X
i
−
1
,
y
,
x
i
+
1
,
…
,
x
n
)
.
{\displaystyle f(X_{1\rightharpoondown (i-1)},y,x_{(i+1)\rightharpoondown n}):=f(X_{1},\ldots ,X_{i-1},y,x_{i+1},\ldots ,x_{n}).}
Выберите любой
x
1
′
,
x
2
′
,
…
,
x
n
′
{\displaystyle x_{1}',x_{2}',\ldots ,x_{n}'}
. Тогда для любого
x
1
,
x
2
,
…
,
x
n
{\displaystyle x_{1},x_{2},\ldots ,x_{n}}
, по неравенству треугольника ,
|
f
(
x
1
⇁
n
)
−
f
(
x
1
⇁
n
′
)
|
≤
|
f
(
x
1
⇁
n
)
−
f
(
x
1
⇁
(
n
−
1
)
′
,
x
n
)
|
+
c
n
≤
|
f
(
x
1
⇁
n
)
−
f
(
x
1
⇁
(
n
−
2
)
′
,
x
(
n
−
1
)
⇁
n
)
|
+
c
n
−
1
+
c
n
≤
…
≤
∑
i
=
1
n
c
i
,
{\displaystyle {\begin{aligned}&|f(x_{1\rightharpoondown n})-f(x'_{1\rightharpoondown n})|\\[6pt]\leq {}&|f(x_{1\rightharpoondown \,n})-f(x'_{1\rightharpoondown (n-1)},x_{n})|+c_{n}\\\leq {}&|f(x_{1\rightharpoondown n})-f(x'_{1\rightharpoondown (n-2)},x_{(n-1)\rightharpoondown n})|+c_{n-1}+c_{n}\\\leq {}&\ldots \\\leq {}&\sum _{i=1}^{n}c_{i},\end{aligned}}}
и таким образом
f
{\displaystyle f}
ограничен.
С
f
{\displaystyle f}
ограничен, определим мартингал Дуба
{
Z
i
}
{\displaystyle \{Z_{i}\}}
(каждый
Z
i
{\displaystyle Z_{i}}
является случайной величиной, зависящей от случайных значений
X
1
,
…
,
X
i
{\displaystyle X_{1},\ldots ,X_{i}}
) как
Z
i
:=
E
[
f
(
X
1
⇁
n
)
∣
X
1
⇁
i
]
{\displaystyle Z_{i}:=\mathbb {E} [f(X_{1\rightharpoondown n})\mid X_{1\rightharpoondown i}]}
для всех
i
≥
1
{\displaystyle i\geq 1}
и
Z
0
:=
E
[
f
(
X
1
⇁
n
)
]
{\displaystyle Z_{0}:=\mathbb {E} [f(X_{1\rightharpoondown n})]}
, так что
Z
n
=
f
(
X
1
⇁
n
)
{\displaystyle Z_{n}=f(X_{1\rightharpoondown n})}
.
Теперь определим случайные величины для каждого
i
{\displaystyle i}
U
i
:=
sup
x
∈
X
i
E
[
f
(
X
1
⇁
(
i
−
1
)
,
x
,
X
(
i
+
1
)
⇁
n
)
∣
X
1
⇁
(
i
−
1
)
,
X
i
=
x
]
−
[
f
(
X
1
⇁
(
i
−
1
)
,
X
i
⇁
n
)
∣
X
1
⇁
(
i
−
1
)
]
,
L
i
:=
inf
x
∈
X
i
E
[
f
(
X
1
⇁
(
i
−
1
)
,
x
,
X
(
i
+
1
)
⇁
n
)
∣
X
1
⇁
(
i
−
1
)
,
X
i
=
x
]
−
[
f
(
X
1
⇁
(
i
−
1
)
,
X
i
⇁
n
)
∣
X
1
⇁
(
i
−
1
)
]
.
{\displaystyle {\begin{aligned}U_{i}&:=\sup _{x\in {\mathcal {X}}_{i}}\mathbb {E} [f(X_{1\rightharpoondown (i-1)},x,X_{(i+1)\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)},X_{i}=x]-\mathbb {[} f(X_{1\rightharpoondown (i-1)},X_{i\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)}],\\L_{i}&:=\inf _{x\in {\mathcal {X}}_{i}}\mathbb {E} [f(X_{1\rightharpoondown (i-1)},x,X_{(i+1)\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)},X_{i}=x]-\mathbb {[} f(X_{1\rightharpoondown (i-1)},X_{i\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)}].\\\end{aligned}}}
С
X
i
,
…
,
X
n
{\displaystyle X_{i},\ldots ,X_{n}}
независимы друг от друга, обусловлены
X
i
=
x
{\displaystyle X_{i}=x}
не влияет на вероятности других переменных, поэтому они равны выражениям
U
i
=
sup
x
∈
X
i
E
[
f
(
X
1
⇁
(
i
−
1
)
,
x
,
X
(
i
+
1
)
⇁
n
)
−
f
(
X
1
⇁
(
i
−
1
)
,
X
i
⇁
n
)
∣
X
1
⇁
(
i
−
1
)
]
,
L
i
=
inf
x
∈
X
i
E
[
f
(
X
1
⇁
(
i
−
1
)
,
x
,
X
(
i
+
1
)
⇁
n
)
−
f
(
X
1
⇁
(
i
−
1
)
,
X
i
⇁
n
)
∣
X
1
⇁
(
i
−
1
)
]
.
{\displaystyle {\begin{aligned}U_{i}&=\sup _{x\in {\mathcal {X}}_{i}}\mathbb {E} [f(X_{1\rightharpoondown (i-1)},x,X_{(i+1)\rightharpoondown n})-f(X_{1\rightharpoondown (i-1)},X_{i\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)}],\\L_{i}&=\inf _{x\in {\mathcal {X}}_{i}}\mathbb {E} [f(X_{1\rightharpoondown (i-1)},x,X_{(i+1)\rightharpoondown n})-f(X_{1\rightharpoondown (i-1)},X_{i\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)}].\\\end{aligned}}}
Обратите внимание, что
L
i
≤
Z
i
−
Z
i
−
1
≤
U
i
{\displaystyle L_{i}\leq Z_{i}-Z_{i-1}\leq U_{i}}
. Кроме того,
U
i
−
L
i
=
sup
u
∈
X
i
,
ℓ
∈
X
i
E
[
f
(
X
1
⇁
(
i
−
1
)
,
u
,
X
(
i
+
1
)
⇁
n
)
∣
X
1
⇁
(
i
−
1
)
]
−
E
[
f
(
X
1
⇁
(
i
−
1
)
,
ℓ
,
X
(
i
+
1
)
⇁
n
)
∣
X
1
⇁
(
i
−
1
)
]
=
sup
u
∈
X
i
,
ℓ
∈
X
i
E
[
f
(
X
1
⇁
(
i
−
1
)
,
u
,
X
(
i
+
1
)
⇁
n
)
−
f
(
X
1
⇁
(
i
−
1
)
,
l
,
X
(
i
+
1
)
⇁
n
)
∣
X
1
⇁
(
i
−
1
)
]
≤
sup
x
u
∈
X
i
,
x
l
∈
X
i
E
[
c
i
∣
X
1
⇁
(
i
−
1
)
]
≤
c
i
{\displaystyle {\begin{aligned}U_{i}-L_{i}&=\sup _{u\in {\mathcal {X}}_{i},\ell \in {\mathcal {X}}_{i}}\mathbb {E} [f(X_{1\rightharpoondown (i-1)},u,X_{(i+1)\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)}]-\mathbb {E} [f(X_{1\rightharpoondown (i-1)},\ell ,X_{(i+1)\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)}]\\[6pt]&=\sup _{u\in {\mathcal {X}}_{i},\ell \in {\mathcal {X}}_{i}}\mathbb {E} [f(X_{1\rightharpoondown (i-1)},u,X_{(i+1)\rightharpoondown n})-f(X_{1\rightharpoondown (i-1)},l,X_{(i+1)\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)}]\\&\leq \sup _{x_{u}\in {\mathcal {X}}_{i},x_{l}\in {\mathcal {X}}_{i}}\mathbb {E} [c_{i}\mid X_{1\rightharpoondown (i-1)}]\\[6pt]&\leq c_{i}\end{aligned}}}
Затем, применяя общую форму неравенства Азумы к
{
Z
i
}
{\displaystyle \left\{Z_{i}\right\}}
, у нас есть
P
(
f
(
X
1
,
…
,
X
n
)
−
E
[
f
(
X
1
,
…
,
X
n
)
]
≥
ε
)
=
P
(
Z
n
−
Z
0
≥
ε
)
≤
exp
(
−
2
ε
2
∑
i
=
1
n
c
i
2
)
.
{\displaystyle {\text{P}}(f(X_{1},\ldots ,X_{n})-\mathbb {E} [f(X_{1},\ldots ,X_{n})]\geq \varepsilon )=\operatorname {P} (Z_{n}-Z_{0}\geq \varepsilon )\leq \exp \left(-{\frac {2\varepsilon ^{2}}{\sum _{i=1}^{n}c_{i}^{2}}}\right).}
Односторонняя оценка в другом направлении получается применением неравенства Азумы к
{
−
Z
i
}
{\displaystyle \left\{-Z_{i}\right\}}
и двусторонняя оценка следует из оценки объединения .
◻
{\displaystyle \square }
^ МакДиармид, Колин (1989). «О методе ограниченных разностей». Обзоры по комбинаторике, 1989: приглашенные доклады на двенадцатой Британской комбинаторной конференции : 148–188. дои : 10.1017/CBO9781107359949.008 . ISBN 978-0-521-37823-9 .
^ Jump up to: а б
Дуб, Дж. Л. (1940). «Свойства регулярности некоторых семейств случайных переменных» (PDF) . Труды Американского математического общества . 47 (3): 455–486. дои : 10.2307/1989964 . JSTOR 1989964 .
^ Чжоу, Чи-Нин; С любовью, Питер Дж.; Сандху, Джусприт Сингх; Ши, Джонатан (2022). «Ограничения локальных квантовых алгоритмов на случайное Max-k-XOR и не только» . 49-й Международный коллоквиум по автоматам, языкам и программированию (ICALP 2022) . 229 : 41:13. arXiv : 2108.06049 . doi : 10.4230/LIPIcs.ICALP.2022.41 . Проверено 8 июля 2022 г.
^ Jump up to: а б с д Ин, Имин (2004). «Неравенства МакДиармида в формах Бернштейна и Беннета» (PDF) . Городской университет Гонконга . Проверено 10 июля 2022 г.
^ Комбс, Ричард (2015). «Расширение неравенства МакДиармида». arXiv : 1511.05240 [ cs.LG ].
^ У, Синьсин; Чжан, Цзюньпин (апрель 2018 г.). «Неравенства концентрации, зависящие от распределения, для более жестких границ обобщения» . Наука Китай Информационные науки . 61 (4): 048105:1–048105:3. arXiv : 1607.05506 . дои : 10.1007/s11432-017-9225-2 . S2CID 255199895 . Проверено 10 июля 2022 г.
^ Конторович, Арье (22 июня 2014 г.). «Концентрация в неограниченных метрических пространствах и алгоритмическая устойчивость» . Материалы 31-й Международной конференции по машинному обучению . 32 (2): 28–36. arXiv : 1309.1007 . Проверено 10 июля 2022 г.
^ Jump up to: а б Маурер, Андреас; Понтиль, Понтиль (2021). «Неравенства концентрации в субгауссовских и субэкспоненциальных условиях» (PDF) . Достижения в области нейронных систем обработки информации . 34 :7588–7597 . Проверено 10 июля 2022 г.