Чернов связан
В теории вероятностей граница Чернова представляет собой экспоненциально убывающую верхнюю границу хвоста случайной величины, основанную на ее производящей функции момента . Минимум всех таких экспоненциальных границ образует границу Чернова или Чернова-Крамера , которая может затухать быстрее, чем экспоненциальная (например , субгауссова ). [ 1 ] [ 2 ] Это особенно полезно для сумм независимых случайных величин, таких как суммы случайных величин Бернулли . [ 3 ] [ 4 ]
Границу обычно называют в честь Германа Чернова, который описал этот метод в статье 1952 года. [ 5 ] хотя сам Чернов приписывал это Герману Рубину. [ 6 ] В 1938 году Харальд Крамер опубликовал почти идентичную концепцию, теперь известную как теорема Крамера .
Это более точная граница, чем границы хвоста, основанные на первом или втором моменте, такие как неравенство Маркова или неравенство Чебышева , которые дают только степенные границы затухания хвоста. Однако при применении к суммам граница Чернова требует, чтобы случайные величины были независимыми, а это условие не требуется ни неравенством Маркова, ни неравенством Чебышева.
Граница Чернова связана с неравенствами Бернштейна . Он также используется для доказательства неравенства Хеффдинга , неравенства Беннета и неравенства Мак-Диармида .
Общие границы Чернова
[ редактировать ]
Общая оценка Чернова для случайной величины достигается применением неравенства Маркова к (поэтому его иногда называют экспоненциальной марковской границей или экспоненциальной границей моментов). Для позитива это дает границу на правом хвосте с точки зрения его моментообразующей функции :
Поскольку эта оценка справедлива для любого положительного , мы можем взять нижнюю грань :
Проведение того же анализа с отрицательным мы получаем аналогичную границу для левого хвоста :
и
Количество может быть выражено как математическое ожидание или эквивалентно .
Характеристики
[ редактировать ]Показательная функция выпуклая, поэтому по неравенству Йенсена . Отсюда следует, что граница правого хвоста больше или равна единице, когда , и, следовательно, тривиально; аналогично левая оценка тривиальна для . Поэтому мы можем объединить две инфимы и определить двустороннюю границу Чернова: который обеспечивает верхнюю границу сложенной распределения кумулятивной функции (сложено в среднем, а не в медиане).
Логарифм двусторонней границы Чернова известен как функция скорости (или преобразование Крамера ). . Это эквивалентно преобразованию Лежандра – Фенхеля или выпуклому сопряжению кумулянтной производящей функции. , определяемый как: является Производящая функция момента лог -выпуклой , поэтому по свойству выпуклого сопряжения граница Чернова должна быть лог-вогнутой . Граница Чернова достигает максимума в среднем: , и инвариантен при переводе: .
Оценка Чернова точна тогда и только тогда, когда представляет собой единую концентрированную массу ( вырожденное распределение ). Граница точная только в крайних значениях ограниченной случайной величины или за их пределами, где нижняя граница достигается для бесконечного числа. . Для неограниченных случайных величин граница нигде не является жесткой, хотя она асимптотически точна с точностью до субэкспоненциальных факторов («экспоненциально узкая»). [ нужна ссылка ] Отдельные моменты могут обеспечить более жесткие границы за счет большей аналитической сложности. [ 7 ]
На практике точная граница Чернова может быть громоздкой или трудной для аналитической оценки, и в этом случае вместо нее можно использовать подходящую верхнюю границу производящей функции момента (или кумулянта) (например, субпараболический CGF, дающий субгауссову границу Чернова ).
Распределение | ||||
---|---|---|---|---|
Нормальное распределение | ||||
Распределение Бернулли (подробно ниже) | ||||
Стандарт Бернулли
( H — двоичная функция энтропии ) |
||||
Распределение Радемахера | ||||
Гамма-распределение | ||||
Распределение хи-квадрат | [ 8 ] | |||
Распределение Пуассона |
Нижние границы MGF
[ редактировать ]Используя только производящую функцию момента, нижнюю границу вероятностей хвоста можно получить, применив неравенство Пэли-Зигмунда к , что дает: (оценка на левом хвосте получена для отрицательных ). Однако в отличие от границы Чернова этот результат не является экспоненциально точным.
Теодосопулос [ 9 ] построил точную нижнюю границу на основе MGF, используя процедуру экспоненциального наклона .
Для конкретных распределений (таких как биномиальное ) часто доступны нижние границы того же экспоненциального порядка, что и граница Чернова.
Суммы независимых случайных величин
[ редактировать ]Когда X представляет собой сумму n независимых случайных величин X 1 , ..., X n , производящая функция момента X является произведением отдельных производящих функций момента, что дает следующее:
( 1 ) |
и:
Конкретные границы Чернова достигаются путем вычисления производящей функции момента для конкретных случаев случайных величин .
Когда случайные величины также одинаково распределены ( iid ), граница Чернова для суммы сводится к простому изменению масштаба границы Чернова для одной переменной. То есть граница Чернова для среднего значения n iid переменных эквивалентна n-й степени границы Чернова для одной переменной (см. теорему Крамера ).
Суммы независимых ограниченных случайных величин
[ редактировать ]Границы Чернова также могут применяться к общим суммам независимых ограниченных случайных величин, независимо от их распределения; это известно как неравенство Хеффдинга . Доказательство использует тот же подход, что и другие границы Чернова, но с применением леммы Хёффдинга для оценки производящих функций момента (см. неравенство Хёффдинга ).
- Неравенство Хеффдинга . Предположим, что X 1 , ..., X n — независимые случайные величины, принимающие значения в [a,b]. Пусть X обозначает их сумму и пусть µ = E[ X ] обозначает ожидаемое значение суммы. Тогда для любого ,
Суммы независимых случайных величин Бернулли
[ редактировать ]Оценки в следующих разделах для случайных величин Бернулли получены с использованием этих оценок для случайной величины Бернулли. с вероятностью p , равной 1,
Можно встретить множество разновидностей границ Чернова: исходную аддитивную форму (которая дает оценку абсолютной ошибки ) или более практичную мультипликативную форму (которая ограничивает ошибку относительно среднего).
Мультипликативная форма (относительная ошибка)
[ редактировать ]Мультипликативная граница Чернова. Предположим, X 1 , ..., X n — независимые случайные величины, принимающие значения в {0, 1}. Пусть X обозначает их сумму и пусть µ = E[ X ] обозначает ожидаемое значение суммы. Тогда для любого δ > 0
Аналогичную стратегию доказательства можно использовать, чтобы показать, что при 0 < δ < 1
Приведенная выше формула на практике часто оказывается громоздкой, поэтому следующие более слабые, но более удобные оценки [ 10 ] часто используются, которые следуют из неравенства из списка логарифмических неравенств :
Обратите внимание, что оценки тривиальны для .
Кроме того, на основе разложения Тейлора для функции Ламберта W : [ 11 ]
Аддитивная форма (абсолютная ошибка)
[ редактировать ]Следующая теорема принадлежит Василию Хеффдингу. [ 12 ] и поэтому называется теоремой Чернова – Хеффдинга.
- Теорема Чернова–Хеффдинга. Предположим, что X 1 , ..., X n — случайные величины iid , принимающие значения в {0, 1}. Пусть p = E[ X 1 ] и ε > 0 .
- где
- — это расхождение Кульбака–Лейблера между распределенными по Бернулли случайными величинами с параметрами x и y соответственно. Если р ≥ 1/2 , тогда что означает
Более простая оценка получается путем ослабления теоремы с использованием D ( p + ε || p ) ≥ 2 ε 2 следует из выпуклости D , что ( p + ε || p ) и того факта, что
Этот результат является частным случаем неравенства Хеффдинга . Иногда границы
которые сильнее при p < 1/8 также . используются
Приложения
[ редактировать ]Границы Чернова имеют очень полезные применения при балансировке наборов и пакетов маршрутизации в разреженных сетях.
Проблема балансировки множества возникает при планировании статистических экспериментов. Обычно при планировании статистического эксперимента, учитывая особенности каждого участника эксперимента, нам необходимо знать, как разделить участников на две непересекающиеся группы так, чтобы каждая особенность была примерно максимально сбалансирована между двумя группами. [ 13 ]
Границы Чернова также используются для получения точных границ для задач перестановочной маршрутизации, которые уменьшают перегрузку сети при маршрутизации пакетов в разреженных сетях. [ 13 ]
Границы Чернова используются в теории вычислительного обучения, чтобы доказать, что алгоритм обучения, вероятно, приблизительно корректен , т.е. с высокой вероятностью алгоритм имеет небольшую ошибку на достаточно большом наборе обучающих данных. [ 14 ]
Границы Чернова можно эффективно использовать для оценки «уровня устойчивости» приложения/алгоритма путем исследования его пространства возмущений с помощью рандомизации. [ 15 ] Использование границы Чернова позволяет отказаться от сильной и по большей части нереалистичной гипотезы малого возмущения (величина возмущения мала). Уровень устойчивости, в свою очередь, может использоваться либо для подтверждения, либо для отклонения конкретного алгоритмического выбора, аппаратной реализации или приемлемости решения, на структурные параметры которого влияют неопределенности.
Простое и распространенное использование границ Чернова — для «усиления» рандомизированных алгоритмов . Если у кого-то есть алгоритм, который выводит предположение, которое является желаемым ответом с вероятностью p > 1/2, то можно получить более высокий уровень успеха, запустив алгоритм раз и выводит предположение, которое выводится более чем n /2 запусками алгоритма. (Таких предположений не может быть более одного.) Если предположить, что эти прогоны алгоритма независимы, вероятность того, что более n /2 предположений верны, равна вероятности того, что сумма независимых случайных величин Бернулли X k , равная 1 с вероятностью p больше n /2. Можно показать, что это, по крайней мере, через мультипликативную границу Чернова (следствие 13.3 в классных заметках Синклера, µ = np ).: [ 16 ]
Матрица Чернова связана
[ редактировать ]Рудольф Альсведе и Андреас Винтер ввели оценку Чернова для матричных случайных величин. [ 17 ] Следующий вариант неравенства можно найти в работе Троппа. [ 18 ]
Пусть M 1 , ..., M t — независимые матричные случайные величины такие, что и . Обозначим через операторная норма матрицы . Если почти наверняка справедливо для всех , то для любого ε > 0
Обратите внимание, что для того, чтобы сделать вывод, что отклонение от 0 с высокой вероятностью ограничено ε , нам нужно выбрать количество выборок пропорциональна логарифму . В целом, к сожалению, зависимость от неизбежно: возьмем, к примеру, диагональную матрицу случайных знаков размерности . Операторная норма суммы t независимых выборок — это в точности максимальное отклонение среди d независимых случайных блужданий длины t . Чтобы добиться фиксированной границы максимального отклонения с постоянной вероятностью, легко видеть, что t должно расти логарифмически с d . в этом сценарии [ 19 ]
Следующая теорема может быть получена, если предположить, что M имеет низкий ранг, чтобы избежать зависимости от размерностей.
Теорема без зависимости от размерностей
[ редактировать ]Пусть 0 < ε < 1 и M — случайная симметричная действительная матрица с и почти наверняка. Предположим, что каждый элемент на носителе M имеет не более ранга r . Набор
Если выполняется почти наверняка, тогда
где M 1 , ..., M t являются iid копиями M .
Выборочный вариант
[ редактировать ]Следующий вариант границы Чернова можно использовать для оценки вероятности того, что большинство в популяции станет меньшинством в выборке или наоборот. [ 20 ]
что существует общая популяция A и подгруппа B ⊆ A. Предположим , Отметьте относительный размер подгруппы (| B |/| A |) с помощью r .
Предположим, мы выбираем целое число k и случайную выборку S ⊂ A размера k . Отметьте относительный размер подгруппы населения в выборке (| B ∩ S |/| S |) посредством r S .
Тогда для каждой дроби d ∈ [0,1]:
В частности, если B является большинством в A (т.е. r > 0,5), мы можем ограничить вероятность того, что B останется большинством в S ( r S > 0,5), приняв: d = 1 - 1/(2 r ): [ 21 ]
Эта граница, конечно, совсем не жесткая. Например, когда r = 0,5, мы получаем тривиальную оценку Prob > 0.
Доказательства
[ редактировать ]Мультипликативная форма
[ редактировать ]Следуя условиям мультипликативной границы Чернова, пусть X 1 , ..., X n являются независимыми случайными величинами Бернулли , сумма которых равна X , каждая из которых имеет вероятность p i быть равной 1. Для переменной Бернулли:
Итак, используя ( 1 ) с для любого и где ,
Если мы просто установим t = log(1 + δ ) так, чтобы t > 0 для δ > 0 , мы можем заменить и найти
Это доказывает желаемый результат.
Теорема Чернова – Хефдинга (аддитивная форма)
[ редактировать ]Пусть q = p + ε . Взяв a = nq в ( 1 ), получим:
Теперь, зная, что Pr( X i = 1) = p , Pr( X i = 0) = 1 − p , мы имеем
Следовательно, мы можем легко вычислить нижнюю границу, используя исчисление:
Приравнивая уравнение к нулю и решая, мы имеем
так что
Таким образом,
Поскольку q = p + ε > p , мы видим, что t > 0 выполняется , поэтому наша оценка для t . Решив значение t , мы можем снова подключиться к приведенным выше уравнениям и найти, что
Теперь у нас есть желаемый результат:
Чтобы завершить доказательство для симметричного случая, мы просто определяем случайную величину Y i = 1 − X i , применяем то же доказательство и подключаем его к нашей оценке.
См. также
[ редактировать ]- Неравенства Бернштейна
- Неравенство концентрации — сводка хвостовых границ случайных величин.
- Теорема Крамера
- Энтропийное значение под угрозой
- Неравенство Хефдинга
- Матрица Чернова связана
- Функция генерации момента
Ссылки
[ редактировать ]- ^ Бушерон, Стефан (2013). Неравенства концентрации: неасимптотическая теория независимости . Габор Лугоши, Паскаль Массар. Оксфорд: Издательство Оксфордского университета. п. 21. ISBN 978-0-19-953525-5 . OCLC 837517674 .
- ^ Уэйнрайт, М. (22 января 2015 г.). «Основные границы хвоста и концентрации» (PDF) . Архивировано (PDF) из оригинала 8 мая 2016 г.
- ^ Вершинин, Роман (2018). Многомерная вероятность: введение в приложения в науке о данных . Кембридж, Великобритания. п. 19. ISBN 978-1-108-41519-4 . OCLC 1029247498 .
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - ^ Тропп, Джоэл А. (26 мая 2015 г.). «Введение в матричные неравенства концентрации» . Основы и тенденции в машинном обучении . 8 (1–2): 60. arXiv : 1501.01571 . дои : 10.1561/2200000048 . ISSN 1935-8237 . S2CID 5679583 .
- ^ Чернов, Герман (1952). «Мера асимптотической эффективности проверки гипотезы, основанной на сумме наблюдений» . Анналы математической статистики . 23 (4): 493–507. дои : 10.1214/aoms/1177729330 . ISSN 0003-4851 . JSTOR 2236576 .
- ^ Чернов, Герман (2014). «Карьера в статистике» (PDF) . В Линь, Сихун; Дженест, Кристиан; Бэнкс, Дэвид Л.; Моленбергс, Герт; Скотт, Дэвид В.; Ван, Джейн-Линг (ред.). Прошлое, настоящее и будущее статистики . ЦРК Пресс. п. 35. ISBN 9781482204964 . Архивировано из оригинала (PDF) 11 февраля 2015 г.
- ^ Филипс, Томас К.; Нельсон, Рэндольф (1995). «Граница момента более жесткая, чем граница Чернова для вероятностей положительного хвоста» . Американский статистик . 49 (2): 175–178. дои : 10.2307/2684633 . ISSN 0003-1305 . JSTOR 2684633 .
- ^ Гош, малайский (04 марта 2021 г.). «Экспоненциальные границы хвоста для хи-квадратных случайных величин» . Журнал статистической теории и практики . 15 (2): 35. дои : 10.1007/s42519-020-00156-x . ISSN 1559-8616 . S2CID 233546315 .
- ^ Теодосопулос, Тед (01 марта 2007 г.). «Реверс границы Чернова» . Статистика и вероятностные буквы . 77 (5): 558–565. arXiv : math/0501360 . дои : 10.1016/j.spl.2006.09.003 . ISSN 0167-7152 . S2CID 16139953 .
- ^ Митценмахер, Майкл; Упфал, Эли (2005). Вероятность и вычисления: рандомизированные алгоритмы и вероятностный анализ . Издательство Кембриджского университета. ISBN 978-0-521-83540-4 .
- ^ Дилленкур, Майкл; Гудрич, Майкл; Митценмахер, Майкл (2024). «Использование параметризованных границ Чернова для упрощенного анализа алгоритмов» . Письма об обработке информации . 187 (106516). дои : 10.1016/j.ipl.2024.106516 .
- ^ Хоффдинг, В. (1963). «Вероятностные неравенства для сумм ограниченных случайных величин» (PDF) . Журнал Американской статистической ассоциации . 58 (301): 13–30. дои : 10.2307/2282952 . JSTOR 2282952 .
- ^ Jump up to: а б Обратитесь к этому разделу книги для получения дополнительной информации о проблеме.
- ^ Кернс, М.; Вазирани, У. (1994). Введение в теорию вычислительного обучения . МТИ Пресс. Глава 9 (Приложение), стр. 190–192. ISBN 0-262-11193-4 .
- ^ Алиппи, К. (2014). «Рандомизированные алгоритмы». Интеллект для встраиваемых систем . Спрингер. ISBN 978-3-319-05278-6 .
- ^ Синклер, Алистер (осень 2011 г.). «Конспекты по курсу «Случайность и вычисления» » (PDF) . Архивировано из оригинала (PDF) 31 октября 2014 года . Проверено 30 октября 2014 г.
- ^ Альсведе, Р.; Зима, А. (2003). «Сильный конверс для идентификации по квантовым каналам». Транзакции IEEE по теории информации . 48 (3): 569–579. arXiv : Quant-ph/0012127 . дои : 10.1109/18.985947 . S2CID 523176 .
- ^ Тропп, Дж. (2010). «Удобные хвостовые оценки сумм случайных матриц». Основы вычислительной математики . 12 (4): 389–434. arXiv : 1004.4389 . дои : 10.1007/s10208-011-9099-z . S2CID 17735965 .
- ^ Маген, А. ; Зузиас, А. (2011). «Низкоранговые матричные границы Чернова и приближенное умножение матриц». arXiv : 1005.2724 [ cs.DM ].
- ^ Гольдберг А.В.; Хартлайн, Джей Ди (2001). «Конкурентные аукционы по продаже нескольких цифровых товаров». Алгоритмы — ЕКА 2001 . Конспекты лекций по информатике. Том. 2161. с. 416. CiteSeerX 10.1.1.8.5115 . дои : 10.1007/3-540-44676-1_35 . ISBN 978-3-540-42493-2 . ; лемма 6.1
- ^ См. графики: граница как функция от r при k изменении и граница как функция от k при r изменении .
Дальнейшее чтение
[ редактировать ]- Чернов, Х. (1952). «Мера асимптотической эффективности проверки гипотезы, основанной на сумме наблюдений» . Анналы математической статистики . 23 (4): 493–507. дои : 10.1214/aoms/1177729330 . JSTOR 2236576 . МР 0057518 . Збл 0048.11804 .
- Чернофф, Х. (1981). «Заметки о неравенстве, связанном с нормальным распределением» . Анналы вероятности . 9 (3): 533–535. дои : 10.1214/aop/1176994428 . JSTOR 2243541 . МР 0614640 . Збл 0457.60014 .
- Хагеруп, Т.; Руб, К. (1990). «Экскурсия по пределам Чернова». Письма об обработке информации . 33 (6): 305. дои : 10.1016/0020-0190(90)90214-I .
- Нильсен, Ф. (2011). «Информационно-геометрическая характеристика информации Чернова». Письма об обработке сигналов IEEE . 20 (3): 269–272. arXiv : 1102.2684 . дои : 10.1109/ЛСП.2013.2243726 . S2CID 15034953 .