Независимые и одинаково распределенные случайные величины

В теории вероятностей и статистике совокупность случайных величин является независимой и одинаково распределенной, если каждая случайная величина имеет такое же распределение вероятностей, как и другие, и все они взаимно независимы . ^[1] Это свойство обычно обозначается сокращенно iid , iid или IID . IID был впервые определен в статистике и находит применение в различных областях, таких как интеллектуальный анализ данных и обработка сигналов .

Введение [ править ]

Статистика обычно имеет дело со случайными выборками. Случайную выборку можно рассматривать как набор объектов, выбранных случайным образом. Более формально, это «последовательность независимых, одинаково распределенных (IID) случайных точек данных».

Другими словами, термины случайная выборка и IID — это одно и то же. В статистике типичным термином является «случайная выборка», но в теории вероятности чаще говорят «IID».

Идентичное распределение означает отсутствие общих тенденций — распределение не колеблется, и все элементы выборки взяты из одного и того же распределения вероятностей.
Независимость означает, что все элементы выборки являются независимыми событиями. Другими словами, они никак не связаны друг с другом; ^[2] знание значения одной переменной не дает информации о значении другой, и наоборот.

Приложение [ править ]

Независимые и одинаково распределенные случайные величины часто используются в качестве допущения, что имеет тенденцию упрощать лежащую в основе математику. Однако в практических приложениях статистического моделирования это предположение может быть, а может и не быть реалистичным. ^[3]

Предположение iid также используется в центральной предельной теореме , которая утверждает, что распределение вероятностей суммы (или среднего) переменных iid с конечной дисперсией приближается к нормальному распределению . ^[4]

Предположение iid часто возникает в контексте последовательностей случайных величин. Тогда «независимый и одинаково распределенный» означает, что элемент последовательности не зависит от случайных величин, которые были до него. Таким образом, последовательность iid отличается от последовательности Маркова , где распределение вероятностей для $n-$ й случайной величины является функцией предыдущей случайной величины в последовательности (для последовательности Маркова первого порядка). Последовательность iid не подразумевает, что вероятности для всех элементов выборочного пространства или пространства событий должны быть одинаковыми. ^[5] Например, повторные броски нагруженных игральных костей дадут последовательность, которая является iid, несмотря на то, что результаты являются предвзятыми.

В обработке сигналов и изображений понятие преобразования в iid подразумевает две спецификации: часть «id» и часть «i». часть:

id – Уровень сигнала должен быть сбалансирован по оси времени.

я. – Спектр сигнала должен быть сглажен, т.е. преобразован посредством фильтрации (например, деконволюции ) в сигнал белого шума (т.е. в сигнал, в котором все частоты присутствуют одинаково).

Определение [ править ]

Определение двух случайных величин [ править ]

Предположим, что случайные величины $X$ и $Y$ определены для принятия значений в $I\subseteq \mathbb {R}$ . Позволять $F_{X}(x)=\operatorname {P} (X\leq x)$ и $F_{Y}(y)=\operatorname {P} (Y\leq y)$ быть распределения кумулятивными функциями $X$ и $Y$ соответственно, и обозначим их совместную кумулятивную функцию распределения через $F_{X,Y}(x,y)=\operatorname {P} (X\leq x\land Y\leq y)$ .

Две случайные величины $X$ и $Y$ тогда одинаково распределены и только тогда, когда ^[6] $F_{X}(x)=F_{Y}(x)\,\forall x\in I$ .

Две случайные величины $X$ и $Y$ независимы когда тогда и только тогда, $F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)\,\forall x,y\in I$ . (См. далее Независимость (теория вероятностей) § Две случайные величины .)

Две случайные величины $X$ и $Y$ являются iid , если они независимы и одинаково распределены, т. е. тогда и только тогда, когда

{\begin{aligned}&F_{X}(x)=F_{Y}(x)\,&\forall x\in I\\&F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)\,&\forall x,y\in I\end{aligned}}

( Уравнение 1 )

Определение для более чем двух случайных величин [ править ]

Это определение естественным образом распространяется на более чем две случайные величины. Мы говорим, что $n$ случайные величины $X_{1},\ldots ,X_{n}$ являются iid, если они независимы (см. далее Независимость (теория вероятностей) § Более двух случайных величин ) и одинаково распределены, т. е. тогда и только тогда, когда

{\begin{aligned}&F_{X_{1}}(x)=F_{X_{k}}(x)\,&\forall k\in \{1,\ldots ,n\}{\text{ and }}\forall x\in I\\&F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=F_{X_{1}}(x_{1})\cdot \ldots \cdot F_{X_{n}}(x_{n})\,&\forall x_{1},\ldots ,x_{n}\in I\end{aligned}}

( Уравнение 2 )

где $F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=\operatorname {P} (X_{1}\leq x_{1}\land \ldots \land X_{n}\leq x_{n})$ обозначает совместную кумулятивную функцию распределения $X_{1},\ldots ,X_{n}$ .

независимости Определение

В теории вероятностей два события, ${\textstyle \color {red}A}$ и ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ , называются независимыми тогда и только тогда, когда ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})=P({\color {red}A})P({\color {green}B})}$ . В дальнейшем ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})}$ это сокращение от ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})}$ .

Предположим, что в эксперименте есть два события: ${\textstyle \color {red}A}$ и ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ . Если ${\textstyle P({\color {red}A})>0}$ , есть возможность ${\textstyle P({\color {green}B}|{\color {red}A})}$ . Как правило, возникновение ${\textstyle \color {red}A}$ влияет на вероятность ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ , которая называется условной вероятностью, и только тогда, когда наступление ${\textstyle \color {red}A}$ не влияет на возникновение ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ , есть ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {green}B}|{\color {red}A})=P({\color {green}B})}$ .

Примечание: Если ${\textstyle P({\color {red}A})>0}$ и ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {Green}B})>0}$ , затем ${\textstyle \color {red}A}$ и ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ являются взаимонезависимыми, которые не могут быть установлены одновременно с взаимно несовместимыми; то есть независимость должна быть совместимой, а взаимное исключение должно быть взаимосвязанным.

Предполагать ${\textstyle \color {red}A}$ , ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ , и ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$ это три события. Если ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})=P({\color {red}A})P({\color {green}B})}$ , ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {green}B}{\color {blue}C})=P({\color {green}B})P({\color {blue}C})}$ , ${\textstyle \definecolor {blue}{rgb}{0,0,1}P({\color {red}A}{\color {blue}C})=P({\color {red}A})P({\color {blue}C})}$ , и ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {red}A}{\color {green}B}{\color {blue}C})=P({\color {red}A})P({\color {green}B})P({\color {blue}C})}$ удовлетворены, то события ${\textstyle \color {red}A}$ , ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ , и ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$ являются взаимно независимыми.

Более общее определение состоит в том, что существуют ${\textstyle n}$ события, ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$ . Если вероятности событий произведения для любого ${\textstyle 2,3,\ldots ,n}$ события равны произведению вероятностей каждого события, то события ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$ независимы друг от друга.

Примеры [ править ]

Пример 1 [ править ]

Последовательность результатов вращений справедливого или несправедливого колеса рулетки равна 1. Одним из следствий этого является то, что если шарик рулетки приземляется на «красное», например, 20 раз подряд, то следующее вращение не более или менее вероятно. быть «черным», чем при любом другом вращении (см. заблуждение игрока ).

Пример 2 [ править ]

Подбросьте монету 10 раз и запишите, сколько раз монета упадет орлом.

Независимый — каждый результат приземления не влияет на другой результат, что означает, что 10 результатов независимы друг от друга.
Одинаково распределено. Независимо от того, является ли монета честной (вероятность 1/2 орла) или нечестной, пока одна и та же монета используется для каждого подбрасывания, каждый подброс будет иметь ту же вероятность, что и каждый другой подброс.

Такая последовательность двух возможных результатов также называется процессом Бернулли .

Пример 3 [ править ]

Бросьте кубик 10 раз и запишите, сколько раз результат равен 1.

Независимый – каждый результат броска кубика не влияет на следующий, что означает, что 10 результатов независимы друг от друга.
Одинаково распределено. Независимо от того, является ли кубик честным или взвешенным, каждый бросок будет иметь ту же вероятность, что и каждый другой бросок. Напротив, бросок 10 разных кубиков, некоторые из которых имеют вес, а некоторые нет, не приведет к получению iid-переменных.

Пример 4 [ править ]

Выберите карту из стандартной колоды карт, содержащей 52 карты, затем поместите карту обратно в колоду. Повторите это 52 раза. Запишите количество появившихся королей.

Независимый – каждый результат карты не влияет на следующий, что означает, что 52 результата независимы друг от друга. Напротив, если каждая вытянутая карта не попадает в колоду, это повлияет на последующие взятия (вытягивание одного короля сделает вытягивание второго короля менее вероятным), и результат не будет независимым.
Одинаково распределено. После вытягивания из него одной карты каждый раз вероятность появления короля равна 4/52, что означает, что вероятность каждый раз одинакова.

Обобщения [ править ]

Многие результаты, которые были впервые доказаны в предположении, что случайные величины являются iid, оказались верными даже при более слабом предположении о распределении.

Сменные случайные величины [ править ]

Наиболее общим понятием, которое разделяет основные свойства переменных iid, являются заменяемые случайные величины , введенные Бруно де Финетти . ^{[ нужна ссылка ]} Заменяемость означает, что, хотя переменные не могут быть независимыми, будущие ведут себя как прошлые (формально любое значение конечной последовательности столь же вероятно, как и любая перестановка этих значений), совместное распределение вероятностей инвариантно относительно симметричной группы .

Это дает полезное обобщение: например, выборка без замены не является независимой, но ее можно заменить.

Процесс Леви [ править ]

В стохастическом исчислении переменные iid рассматриваются как с дискретным временем процесс Леви : каждая переменная показывает, насколько она изменяется от одного момента времени к другому.Например, последовательность испытаний Бернулли интерпретируется как процесс Бернулли .Это можно обобщить, включив в него процессы Леви с непрерывным временем, и многие процессы Леви можно рассматривать как пределы переменных iid - например, процесс Винера является пределом процесса Бернулли.

В машинном обучении [ править ]

Машинное обучение использует полученные в настоящее время огромные объемы данных для получения более быстрых и точных результатов. ^[7] Поэтому нам необходимо использовать исторические данные с общей репрезентативностью. Если полученные данные не отражают общую ситуацию, то правила будут суммированы плохо или ошибочно.

Благодаря гипотезе iid количество отдельных случаев в обучающей выборке можно значительно сократить.

Это предположение делает максимизацию очень простой для математического расчета. Соблюдение предположения о независимом и одинаковом распределении в математике упрощает расчет функции правдоподобия в задачах оптимизации. Ввиду предположения независимости функцию правдоподобия можно записать следующим образом:

l(\theta )=P(x_{1},x_{2},x_{3},...,x_{n}|\theta )=P(x_{1}|\theta )P(x_{2}|\theta )P(x_{3}|\theta )...P(x_{n}|\theta )

.

Чтобы максимизировать вероятность наблюдаемого события, возьмите лог-функцию и максимизируйте параметр θ . То есть вычислить:

\mathop {\rm {argmax}} \limits _{\theta }\log(l(\theta ))

,

где

\log(l(\theta ))=\log(P(x_{1}|\theta ))+\log(P(x_{2}|\theta ))+\log(P(x_{3}|\theta ))+...+\log(P(x_{n}|\theta ))

.

Компьютер очень эффективен для вычисления многократного сложения, но неэффективен для вычисления умножения. Это упрощение является основной причиной повышения вычислительной эффективности. И это логарифмическое преобразование также находится в процессе максимизации, превращая многие экспоненциальные функции в линейные.

По двум причинам эта гипотеза позволяет легко использовать центральную предельную теорему в практических приложениях.

Даже если выборка имеет более сложное негауссово распределение, она также может хорошо аппроксимироваться. Потому что это можно упростить от центральной предельной теоремы до распределения Гаусса. Для большого количества наблюдаемых выборок «сумма многих случайных величин будет иметь примерно нормальное распределение».
Вторая причина заключается в том, что точность модели зависит от простоты и репрезентативной способности модели, а также от качества данных. Потому что простота единицы облегчает интерпретацию и масштабирование, а репрезентативная мощность + масштаб единицы повышает точность модели. Как и в глубокой нейронной сети, каждый нейрон очень прост, но обладает высокой репрезентативной способностью, слой за слоем отображая более сложные функции для повышения точности модели.

См. также [ править ]

Ссылки [ править ]

^ Клаузет, Аарон (2011). «Краткое руководство по распределениям вероятностей» (PDF) . Институт Санта-Фе . Архивировано из оригинала (PDF) 20 января 2012 г. Проверено 29 ноября 2011 г.
^ Стефани (11 мая 2016 г.). «Статистика IID: независимое и одинаково распределенное определение и примеры» . Статистика Как сделать . Проверено 9 декабря 2021 г.
^ Хэмпель, Франк (1998), «Слишком сложна статистика?», Canadian Journal of Statistics , 26 (3): 497–513, doi : 10.2307/3315772 , hdl : 20.500.11850/145503 , JSTOR 3315772 , S2CID 53117661 (§ 8).
^ Блюм, младший; Чернов, Х.; Розенблатт, М.; Тейчер, Х. (1958). «Центральные предельные теоремы для взаимозаменяемых процессов» . Канадский математический журнал . 10 : 222–229. дои : 10.4153/CJM-1958-026-0 . S2CID 124843240 .
^ Обложка, ТМ; Томас, Дж. А. (2006). Элементы теории информации . Уайли-Интерсайенс . стр. 57–58. ISBN 978-0-471-24195-9 .
^ Казелла и Бергер 2002 , Теорема 1.5.10.
^ «Что такое машинное обучение? Определение» . Эксперт.ай . 05.05.2020 . Проверено 16 декабря 2021 г.

Дальнейшее чтение [ править ]

Казелла, Джордж ; Бергер, Роджер Л. (2002), Статистический вывод , Расширенная серия Даксбери

[1] Клаузет, Аарон (2011). «Краткое руководство по распределениям вероятностей» (PDF) . Институт Санта-Фе . Архивировано из оригинала (PDF) 20 января 2012 г. Проверено 29 ноября 2011 г.

[2] Стефани (11 мая 2016 г.). «Статистика IID: независимое и одинаково распределенное определение и примеры» . Статистика Как сделать . Проверено 9 декабря 2021 г.

[3] Хэмпель, Франк (1998), «Слишком сложна статистика?», Canadian Journal of Statistics , 26 (3): 497–513, doi : 10.2307/3315772 , hdl : 20.500.11850/145503 , JSTOR 3315772 , S2CID 53117661 (§ 8).

[4] Блюм, младший; Чернов, Х.; Розенблатт, М.; Тейчер, Х. (1958). «Центральные предельные теоремы для взаимозаменяемых процессов» . Канадский математический журнал . 10 : 222–229. дои : 10.4153/CJM-1958-026-0 . S2CID 124843240 .

[5] Обложка, ТМ; Томас, Дж. А. (2006). Элементы теории информации . Уайли-Интерсайенс . стр. 57–58. ISBN 978-0-471-24195-9 .

[6] Казелла и Бергер 2002 , Теорема 1.5.10.

[7] «Что такое машинное обучение? Определение» . Эксперт.ай . 05.05.2020 . Проверено 16 декабря 2021 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

v т и Случайные процессы
Дискретное время	Процесс Бернулли Процесс ветвления процесс в китайском ресторане Процесс Гальтона – Ватсона Независимые и одинаково распределенные случайные величины Цепь Маркова Процесс Морана Случайное блуждание Петля стерта Самоизбегание Пристрастный Максимальная энтропия
Непрерывное время	Аддитивный процесс Бессельский процесс Процесс рождения-смерти чистое рождение Броуновское движение Мост Экскурсия Дробный Геометрический Меандр Процесс Коши Контактный процесс Случайное блуждание в непрерывном времени Процесс Кокса Процесс диффузии Броуновское движение Дайсона Эмпирический процесс Валочный процесс Процесс Флеминга-Вио Гамма-процесс Геометрический процесс Процесс Хоукса Процесс охоты Взаимодействующие системы частиц Диффузия Ито Ито-процесс Прыжковая диффузия Процесс перехода Процесс Леви Местное время Марковский аддитивный процесс Процесс Маккина – Власова Процесс Орнштейна – Уленбека Пуассоновский процесс Сложный Неоднородный Эволюция Шрамма – Лёвнера Семимартингалы Сигма-мартингейл Стабильный процесс Суперпроцесс Телеграфный процесс Дисперсионный гамма-процесс Винеровский процесс Венская колбаса
Оба	Процесс ветвления Модель Гальвеса – Лехербаха Гауссов процесс Скрытая модель Маркова (HMM) Марковский процесс Мартингейл Различия Местный Суб- Супер- Случайная динамическая система Регенеративный процесс Процесс продления Стохастические цепочки с памятью переменной длины Белый шум
Поля и прочее	Процесс Дирихле Гауссово случайное поле Мера Гиббса Модель Хопфилда Модель Изинга Модель Поттса Логическая сеть Марковское случайное поле перколяция Процесс Питмана-Йора Точечный процесс Кокс Пуассон Случайное поле Случайный график
Модели временных рядов	Модель авторегрессионной условной гетероскедастичности (ARCH) Модель авторегрессионного интегрированного скользящего среднего (ARIMA) Авторегрессионная (AR) модель Модель авторегрессии – скользящего среднего (ARMA) Модель обобщенной авторегрессии условной гетероскедастичности (GARCH) Модель скользящего среднего (MA)
Финансовые модели	Модель ценообразования биномиальных опционов Черный–Дерман–Игрушка Блэк – Карасински Блэк – Скоулз Чан – Каройи – Лонгстафф – Сандерс (CKLS) Чен Постоянная эластичность отклонения (CEV) Кокс – Ингерсолл – Росс (CIR) Гарман-Кольхаген Хит – Джарроу – Мортон (HJM) Хестон Хо-Ли Корпус – Белый Корн-Креер-Ленссен рынок ЛИБОР Рендлман-Барттер Волатильность SABR Ваш Уилки
Актуарные модели	Бюльманн Крамер-Лундберг Процесс риска Спарре-Андерсон
Модели массового обслуживания	Масса Жидкость Обобщенная сеть массового обслуживания М/Г/1 М/М/1 М/М/с
Характеристики	Тропы Кадлага Непрерывный Непрерывные пути Эргодический Сменный Феллер-непрерывный Гаусс–Марков Марков Смешивание Кусочно-детерминированный Предсказуемый Постепенно измеримый Самоподобный Стационарный обратимый во времени
Предельные теоремы	Центральная предельная теорема Теорема Донскера Теоремы о мартингальной сходимости Дуба Эргодическая теорема Теорема Фишера – Типпетта – Гнеденко. Принцип большого отклонения Закон больших чисел (слабый/сильный) Закон повторного логарифма Максимальная эргодическая теорема Теорема Санова Законы нуля–единицы ( Блюменталь , Борель–Кантелли , Энгельберт–Шмидт , Хьюитт–Сэвидж , Колмогоров , Леви )
Неравенства	Беркхолдер – Дэвис – Ганди Мартингейл Дуба Апкросс Дуба Кунита – Ватанабэ Марцинкевич–Зигмунд
Инструменты	Формула Кэмерона-Мартина Сходимость случайных величин Экспонента Долеана-Дада Теорема Дуба о разложении Теорема Дуба – Мейера о разложении Необязательная теорема Дуба об остановке Формула Дынкина Формула Фейнмана – Каца Фильтрация Теорема Гирсанова Бесконечно-малый генератор Ито интеграл Лемма Ито Теорема Карунена – Лёва Теорема Колмогорова о непрерывности Теорема Колмогорова о продолжении Метрика Леви – Прохорова Исчисление Маллявена Теорема о мартингальном представлении Необязательная теорема об остановке Prokhorov's theorem Квадратичная вариация Принцип отражения Skorokhod integral Теорема о представлении Скорохода Скороход пространство Снелл конверт Стохастическое дифференциальное уравнение Танака Остановка времени Интеграл Стратоновича Равномерная интегрируемость Обычные гипотезы Винерское пространство Классический Абстрактный
Дисциплины	Актуарная математика Теория управления Эконометрика Эргодическая теория Теория экстремальных ценностей (EVT) Теория больших отклонений Математические финансы Математическая статистика Теория вероятностей Теория массового обслуживания Теория обновления Теория руин Обработка сигналов Статистика Стохастический анализ Анализ временных рядов Машинное обучение
Список тем Категория