Аддитивное сглаживание

В статистике . аддитивное сглаживание , также называемое Лапласа сглаживанием ^[1] или Лидстоуна сглаживание — это метод, используемый для сглаживания данных подсчета, устраняющий проблемы, вызванные тем, что определенные значения имеют 0 вхождений. Учитывая набор значений наблюдений $\mathbf {x} =\langle x_{1},x_{2},\ldots ,x_{d}\rangle$ из $d$ -мерное полиномиальное распределение с $N$ испытаний «сглаженная» версия подсчетов дает оценщику

{\hat {\theta }}_{i}={\frac {x_{i}+\alpha }{N+\alpha d}}\qquad (i=1,\ldots ,d),

где сглаженный счет ${\hat {x}}_{i}=N{\hat {\theta }}_{i}$ , а «псевдосчет» α сглаживания > 0 является параметром , где α = 0 соответствует отсутствию сглаживания (этот параметр объясняется в § Псевдосчет ниже). Аддитивное сглаживание — это тип оценки усадки , поскольку результирующая оценка будет находиться между эмпирической вероятностью ( относительной частотой ) $x_{i}/N$ и равномерная вероятность $1/d.$ Лапласа Ссылаясь на правило преемственности , некоторые авторы утверждают, что ^{[ нужна ссылка ]} что α должно быть равно 1 (в этом случае термин сглаживание с добавлением единицы ^[2]^[3] тоже используется) ^{[ нужны дальнейшие объяснения ]}, хотя на практике обычно выбирается меньшее значение.

С байесовской точки зрения это соответствует ожидаемому значению апостериорного распределения с использованием симметричного распределения Дирихле с параметром α в качестве априорного распределения . В особом случае, когда количество категорий равно 2, это эквивалентно использованию бета-распределения в качестве сопряженного априора для параметров биномиального распределения .

История [ править ]

Лаплас придумал эту технику сглаживания, когда пытался оценить вероятность того, что солнце взойдет завтра. Его обоснование заключалось в том, что даже учитывая большую выборку дней с восходящим солнцем, мы все равно не можем быть полностью уверены в том, что солнце все равно взойдет завтра (известная как проблема восхода солнца ). ^[4]

Псевдосчет [ править ]

Псевдосчет — это сумма (обычно не целое число, несмотря на ее название), добавленная к числу наблюдаемых случаев, чтобы изменить ожидаемую вероятность в модели этих данных, когда не известно, что она равна нулю. Он назван так потому, что, грубо говоря, представляет собой псевдосчет стоимости. $\alpha$ имеет вес в апостериорном распределении аналогично каждой категории, имеющей дополнительное количество $\alpha$ . Если частота каждого элемента $i$ является $x_{i}$ из $N$ выборки, эмпирическая вероятность события $i$ является

p_{i,{\text{empirical}}}={\frac {x_{i}}{N}},

но апостериорная вероятность при аддитивном сглаживании равна

p_{i,\alpha {\text{-smoothed}}}={\frac {x_{i}+\alpha }{N+\alpha d}},

как бы увеличивая каждый счет $x_{i}$ к $\alpha$ априори.

В зависимости от предшествующих знаний, которые иногда являются субъективной ценностью, псевдосчет может иметь любое неотрицательное конечное значение. Он может быть только нулем (или возможность игнорироваться), если это невозможно по определению, например, возможность того, что десятичная цифра $π$ является буквой, или физическая возможность, которая будет отклонена и поэтому не учтена, например, компьютер, печатающий букву. когда запускается действительная программа для $π$ или исключается и не учитывается из-за отсутствия интереса, например, если интересуются только нулями и единицами. Как правило, существует также вероятность того, что никакое значение не может быть вычислено или наблюдаемо за конечное время (см. проблему остановки ). Но по крайней мере одна возможность должна иметь ненулевой псевдосчет, иначе никакое предсказание не может быть вычислено до первого наблюдения. Относительные значения псевдосчетов представляют собой относительные априорные ожидаемые вероятности их возможностей. Сумма псевдосчетов, которая может быть очень большой, представляет собой предполагаемый вес предшествующих знаний по сравнению со всеми фактическими наблюдениями (по одному для каждого) при определении ожидаемой вероятности.

В любом наблюдаемом наборе данных или выборке существует вероятность, особенно при событиях с низкой вероятностью и при небольших наборах данных, того, что возможное событие не произойдет. Следовательно, его наблюдаемая частота равна нулю, что, по-видимому, подразумевает нулевую вероятность. Такое упрощение неточно и часто бесполезно, особенно в методах машинного обучения , основанных на вероятности, таких как искусственные нейронные сети и скрытые модели Маркова . Искусственно корректируя вероятность редких (но не невозможных) событий так, чтобы эти вероятности не были точно равны нулю, проблем нулевой частоты можно избежать . См. также правило Кромвеля .

Самый простой подход — добавить по одному к каждому наблюдаемому количеству событий, включая возможности нулевого счета. Лапласа Иногда это называют правилом преемственности . Этот подход эквивалентен предположению о равномерном априорном распределении вероятностей для каждого возможного события (охватывающего симплекс, где каждая вероятность находится в диапазоне от 0 до 1, а их сумма равна 1).

Используя предшествующий подход Джеффриса, к каждому возможному результату следует добавить половину псевдосчета.

Псевдосчеты следует устанавливать на единицу только в том случае, если предварительных знаний вообще нет – см. принцип безразличия . Однако, учитывая соответствующие предварительные знания, сумму следует скорректировать пропорционально ожиданию того, что априорные вероятности следует считать правильными, несмотря на доказательства обратного – см. дальнейший анализ . Более высокие значения уместны, поскольку заранее известны истинные значения (скажем, для монеты в отличном состоянии); более низкие значения, поскольку заранее известно о вероятном смещении, но неизвестной степени (скажем, для изогнутой монеты).

Более сложный подход заключается в оценке вероятности событий с учетом других факторов и соответствующей корректировке.

Примеры [ править ]

Один из способов мотивировать псевдоподсчеты, особенно для биномиальных данных, — использовать формулу для средней точки интервальной оценки , в частности, доверительного интервала биномиальной пропорции . Самый известный из них принадлежит Эдвину Бидуэллу Уилсону в книге Wilson (1927) : середина интервала оценок Уилсона, соответствующая $z$ стандартные отклонения в обе стороны

{\frac {n_{S}+z}{n+2z}}.

принимая $z=2$ стандартные отклонения, чтобы приблизиться к 95% доверительному интервалу ( $z\approx 1.96$ ) дает псевдосчет 2 для каждого результата, то есть всего 4, что в просторечии известно как «правило плюс четыре»:

{\frac {n_{S}+2}{n+4}}.

Это также середина интервала Агрести-Кулла ( Agresti & Coull 1998 ).

на случай известных показателей Обобщено заболеваемости

Часто систематическая ошибка неизвестной исследуемой популяции проверяется на контрольной популяции с известными параметрами (уровнями заболеваемости). ${\boldsymbol {\mu }}=\langle \mu _{1},\mu _{2},\ldots ,\mu _{d}\rangle .$ В этом случае равномерная вероятность $1/d$ следует заменить известным уровнем заболеваемости контрольной популяции. $\mu _{i}$ для расчета сглаженной оценки:

{\hat {\theta }}_{i}={\frac {x_{i}+\mu _{i}\alpha d}{N+\alpha d}}\qquad (i=1,\ldots ,d).

В качестве проверки непротиворечивости, если эмпирическая оценка равна уровню заболеваемости, т.е. $\mu _{i}=x_{i}/N,$ сглаженная оценка не зависит от $\alpha$ и также равен уровню заболеваемости.

Приложения [ править ]

Классификация [ править ]

Аддитивное сглаживание обычно является компонентом простых классификаторов Байеса .

языковое Статистическое моделирование

В модели «мешок слов» для обработки естественного языка и поиска информации данные состоят из количества вхождений каждого слова в документ. Аддитивное сглаживание позволяет присваивать ненулевые вероятности словам, которые не встречаются в выборке. Недавние исследования доказали, что аддитивное сглаживание более эффективно, чем другие методы вероятностного сглаживания, в некоторых задачах поиска, таких как обратная связь по псевдорелевантности на основе языковых моделей и рекомендательные системы . ^[5]^[6]

См. также [ править ]

Ссылки [ править ]

^ CD Мэннинг, П. Рагхаван и Х. Шютце (2008). Введение в поиск информации . Издательство Кембриджского университета, стр. 260.
^ Юрафский, Дэниел; Мартин, Джеймс Х. (июнь 2008 г.). Обработка речи и языка (2-е изд.). Прентис Холл. п. 132. ИСБН 978-0-13-187321-6 .
^ Рассел, Стюарт; Норвиг, Питер (2010). Искусственный интеллект: современный подход (2-е изд.). Pearson Education, Inc. с. 863.
^ Лекция 5 | Машинное обучение (Стэнфорд) через 1 час 10 минут после начала лекции
^ Хазиме, Хусейн; Чжай, Чэнсян. «Аксиоматический анализ методов сглаживания в языковых моделях для обратной связи с псевдорелевантностью» . ICTIR'15 Материалы Международной конференции по теории информационного поиска 2015 г.
^ Валькарсе, Даниэль; Парапар, Хавьер; Баррейро, Альваро. «Аддитивное сглаживание для языкового моделирования рекомендательных систем на основе релевантности» . CERI '16 Материалы 4-й испанской конференции по информационному поиску .

Источники [ править ]

Уилсон, Э.Б. (1927). «Вероятный вывод, закон последовательности и статистический вывод». Журнал Американской статистической ассоциации . 22 (158): 209–212. дои : 10.1080/01621459.1927.10502953 . JSTOR 2276774 .
Агрести, Алан; Коулл, Брент А. (1998). «Приблизительное лучше, чем точное, для интервальной оценки биномиальных пропорций». Американский статистик . 52 (2): 119–126. дои : 10.2307/2685469 . JSTOR 2685469 . МР 1628435 .

Внешние ссылки [ править ]

С. Ф. Чен, Дж. Гудман (1996). « Эмпирическое исследование методов сглаживания для языкового моделирования ». Материалы 34-го ежегодного собрания Ассоциации компьютерной лингвистики .
Псевдосчеты
- Байесовская интерпретация регуляризаторов псевдосчета
Видео, объясняющее использование аддитивного сглаживания в наивном байесовском классификаторе.

[1] CD Мэннинг, П. Рагхаван и Х. Шютце (2008). Введение в поиск информации . Издательство Кембриджского университета, стр. 260.

[2] Юрафский, Дэниел; Мартин, Джеймс Х. (июнь 2008 г.). Обработка речи и языка (2-е изд.). Прентис Холл. п. 132. ИСБН 978-0-13-187321-6 .

[3] Рассел, Стюарт; Норвиг, Питер (2010). Искусственный интеллект: современный подход (2-е изд.). Pearson Education, Inc. с. 863.

[lec5-4] Лекция 5 | Машинное обучение (Стэнфорд) через 1 час 10 минут после начала лекции

[5] Хазиме, Хусейн; Чжай, Чэнсян. «Аксиоматический анализ методов сглаживания в языковых моделях для обратной связи с псевдорелевантностью» . ICTIR'15 Материалы Международной конференции по теории информационного поиска 2015 г.

[6] Валькарсе, Даниэль; Парапар, Хавьер; Баррейро, Альваро. «Аддитивное сглаживание для языкового моделирования рекомендательных систем на основе релевантности» . CERI '16 Материалы 4-й испанской конференции по информационному поиску .

[1]

[2]

[3]

[4]

[5]

[6]