Jump to content

Аддитивное сглаживание

(Перенаправлено из сглаживания Лидстоуна )

В статистике . аддитивное сглаживание , также называемое Лапласа сглаживанием [1] или Лидстоуна сглаживание — это метод, используемый для сглаживания данных подсчета, устраняющий проблемы, вызванные тем, что определенные значения имеют 0 вхождений. Учитывая набор значений наблюдений из -мерное полиномиальное распределение с испытаний «сглаженная» версия подсчетов дает оценщику

где сглаженный счет , а «псевдосчет» α сглаживания > 0 является параметром , где α = 0 соответствует отсутствию сглаживания (этот параметр объясняется в § Псевдосчет ниже). Аддитивное сглаживание — это тип оценки усадки , так как результирующая оценка будет находиться между эмпирической вероятностью ( относительной частотой ) и равномерная вероятность Лапласа Ссылаясь на правило преемственности , некоторые авторы утверждают, что [ нужна ссылка ] что α должно быть равно 1 (в этом случае термин сглаживание с добавлением единицы [2] [3] тоже используется) [ нужны дальнейшие объяснения ] , хотя на практике обычно выбирается меньшее значение.

С байесовской точки зрения это соответствует ожидаемому значению апостериорного распределения с использованием симметричного распределения Дирихле с параметром α в качестве априорного распределения . В особом случае, когда количество категорий равно 2, это эквивалентно использованию бета-распределения в качестве сопряженного априора для параметров биномиального распределения .

Лаплас придумал эту технику сглаживания, когда пытался оценить вероятность того, что солнце взойдет завтра. Его обоснование заключалось в том, что даже учитывая большую выборку дней с восходящим солнцем, мы все равно не можем быть полностью уверены в том, что солнце все равно взойдет завтра (известная как проблема восхода солнца ). [4]

Псевдосчет

[ редактировать ]

Псевдосчет — это сумма (обычно не целое число, несмотря на ее название), добавленная к числу наблюдаемых случаев, чтобы изменить ожидаемую вероятность в модели этих данных, когда не известно, что она равна нулю. Он назван так потому, что, грубо говоря, представляет собой псевдосчет стоимости. имеет значение в апостериорном распределении аналогично тому, как каждая категория имеет дополнительное количество . Если частота каждого элемента является из выборки, эмпирическая вероятность события является

но апостериорная вероятность при аддитивном сглаживании равна

как бы увеличивая каждый счет к априори.

В зависимости от предшествующих знаний, которые иногда являются субъективной ценностью, псевдосчет может иметь любое неотрицательное конечное значение. Он может быть только нулем (или возможность игнорироваться), если это невозможно по определению, например, возможность того, что десятичная цифра π является буквой, или физическая возможность, которая будет отклонена и поэтому не учтена, например, компьютер, печатающий букву. когда запускается действительная программа для π или исключается и не учитывается из-за отсутствия интереса, например, если интересуются только нулями и единицами. Как правило, существует также вероятность того, что никакое значение не может быть вычислено или наблюдаемо за конечное время (см. проблему остановки ). Но по крайней мере одна возможность должна иметь ненулевой псевдосчет, иначе никакое предсказание не может быть вычислено до первого наблюдения. Относительные значения псевдосчетов представляют собой относительные априорные ожидаемые вероятности их возможностей. Сумма псевдосчетов, которая может быть очень большой, представляет собой предполагаемый вес предшествующих знаний по сравнению со всеми фактическими наблюдениями (по одному для каждого) при определении ожидаемой вероятности.

В любом наблюдаемом наборе данных или выборке существует вероятность, особенно при событиях с низкой вероятностью и при небольших наборах данных, того, что возможное событие не произойдет. Следовательно, его наблюдаемая частота равна нулю, что, по-видимому, подразумевает нулевую вероятность. Такое упрощение неточно и часто бесполезно, особенно в методах машинного обучения , основанных на вероятности, таких как искусственные нейронные сети и скрытые модели Маркова . Искусственно корректируя вероятность редких (но не невозможных) событий так, чтобы эти вероятности не были точно равны нулю, проблем нулевой частоты можно избежать . См. также правило Кромвеля .

Самый простой подход — добавить по одному к каждому наблюдаемому количеству событий, включая возможности нулевого счета. Лапласа Иногда это называют правилом преемственности . Этот подход эквивалентен предположению о равномерном априорном распределении вероятностей для каждого возможного события (охватывающего симплекс, где каждая вероятность находится в диапазоне от 0 до 1, а их сумма равна 1).

Используя предшествующий подход Джеффриса, к каждому возможному результату следует добавить половину псевдосчета.

Псевдосчеты следует устанавливать на единицу только в том случае, если предварительных знаний вообще нет – см. принцип безразличия . Однако, учитывая соответствующие предварительные знания, сумму следует скорректировать пропорционально ожиданию того, что априорные вероятности следует считать правильными, несмотря на доказательства обратного – см. дальнейший анализ . Более высокие значения уместны, поскольку заранее известны истинные значения (скажем, для монеты в отличном состоянии); более низкие значения, поскольку заранее известно о вероятном смещении, но неизвестной степени (скажем, для изогнутой монеты).

Более сложный подход заключается в оценке вероятности событий с учетом других факторов и соответствующей корректировке.

Один из способов мотивировать псевдосчеты, особенно для биномиальных данных, — использовать формулу для средней точки интервальной оценки , в частности, доверительного интервала биномиальной пропорции . Самый известный из них принадлежит Эдвину Бидвеллу Уилсону в книге Wilson (1927) : середина интервала оценок Уилсона, соответствующая стандартные отклонения с обеих сторон

принимая стандартные отклонения, чтобы приблизиться к 95% доверительному интервалу ( ) ​​дает псевдосчет 2 для каждого результата, то есть всего 4, что в просторечии известно как «правило плюс четыре»:

Это также середина интервала Агрести-Кулла ( Agresti & Coull 1998 ).

Обобщено на случай известных показателей заболеваемости

[ редактировать ]

Часто систематическая ошибка неизвестной исследуемой популяции проверяется на контрольной популяции с известными параметрами (уровнями заболеваемости). В этом случае равномерная вероятность следует заменить известным уровнем заболеваемости контрольной популяции. для расчета сглаженной оценки:

В качестве проверки согласованности, если эмпирическая оценка равна уровню заболеваемости, т.е. сглаженная оценка не зависит от и также равен уровню заболеваемости.

Приложения

[ редактировать ]

Классификация

[ редактировать ]

Аддитивное сглаживание обычно является компонентом простых классификаторов Байеса .

Статистическое языковое моделирование

[ редактировать ]

В модели «мешок слов» для обработки естественного языка и поиска информации данные состоят из количества вхождений каждого слова в документ. Аддитивное сглаживание позволяет присваивать ненулевые вероятности словам, которые не встречаются в выборке. Недавние исследования доказали, что аддитивное сглаживание более эффективно, чем другие методы вероятностного сглаживания, в некоторых задачах поиска, таких как обратная связь по псевдорелевантности на основе языковых моделей и рекомендательные системы . [5] [6]

См. также

[ редактировать ]
  1. ^ CD Мэннинг, П. Рагхаван и Х. Шютце (2008). Введение в поиск информации . Издательство Кембриджского университета, стр. 260.
  2. ^ Юрафский, Дэниел; Мартин, Джеймс Х. (июнь 2008 г.). Обработка речи и языка (2-е изд.). Прентис Холл. п. 132. ИСБН  978-0-13-187321-6 .
  3. ^ Рассел, Стюарт; Норвиг, Питер (2010). Искусственный интеллект: современный подход (2-е изд.). Pearson Education, Inc. с. 863.
  4. ^ Лекция 5 | Машинное обучение (Стэнфорд) через 1 час 10 минут после начала лекции
  5. ^ Хазиме, Хусейн; Чжай, Чэнсян. «Аксиоматический анализ методов сглаживания в языковых моделях для обратной связи с псевдорелевантностью» . ICTIR'15 Материалы Международной конференции по теории информационного поиска 2015 г.
  6. ^ Валькарсе, Даниэль; Парапар, Хавьер; Баррейро, Альваро. «Аддитивное сглаживание для языкового моделирования рекомендательных систем на основе релевантности» . CERI '16 Материалы 4-й испанской конференции по информационному поиску .

Источники

[ редактировать ]
  • Уилсон, Э.Б. (1927). «Вероятный вывод, закон последовательности и статистический вывод». Журнал Американской статистической ассоциации . 22 (158): 209–212. дои : 10.1080/01621459.1927.10502953 . JSTOR   2276774 .
  • Агрести, Алан; Коулл, Брент А. (1998). «Приблизительное лучше, чем точное, для интервальной оценки биномиальных пропорций». Американский статистик . 52 (2): 119–126. дои : 10.2307/2685469 . JSTOR   2685469 . МР   1628435 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 72abd0298657bb025d69129501350e02__1714736520
URL1:https://arc.ask3.ru/arc/aa/72/02/72abd0298657bb025d69129501350e02.html
Заголовок, (Title) документа по адресу, URL1:
Additive smoothing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)