Jump to content

Выборка по важности

Выборка по важности — это метод Монте-Карло для оценки свойств конкретного распределения , при котором выборки создаются только из распределения, отличного от интересующего распределения. Его введение в статистику обычно приписывают статье Теуна Клука и Германа К. ван Дейка в 1978 году: [1] но его предшественники можно найти в статистической физике уже в 1949 году. [2] [3] Выборка по важности также связана с зонтичной выборкой в ​​вычислительной физике . В зависимости от применения этот термин может относиться к процессу выборки из этого альтернативного распределения, процессу вывода или к тому и другому.

Основная теория

[ редактировать ]

Позволять быть случайной величиной в некотором вероятностном пространстве . Мы хотим оценить ожидаемое значение X ] при P , обозначаемое E [ X;P . Если у нас есть статистически независимые случайные выборки , сгенерированный согласно P , то эмпирическая оценка E [ X;P ] равна

и точность этой оценки зависит от дисперсии X :

Основная идея выборки по важности состоит в том, чтобы выбрать состояния из другого распределения, чтобы снизить дисперсию оценки E [ X;P ] или когда выборка из P затруднена.Это достигается путем предварительного выбора случайной величины такой, что E [ L ; P ] = 1 и что P - почти всюду .С помощью переменной L мы определяем вероятность это удовлетворяет

Таким образом, переменная X / L будет выбрана под P ( Л ) чтобы оценить E [ X; P ], как указано выше, и эта оценка улучшается, когда .

Когда X имеет постоянный знак над Ω, лучшей переменной L , очевидно, будет , так что X / L * — это искомая константа E [ X;P ] и единственная выборка под P ( Л * ) достаточно, чтобы указать его значение. К сожалению, мы не можем сделать этот выбор, потому что E [ X; P ] — это именно то значение, которое мы ищем! Однако этот теоретический лучший случай L* дает нам представление о том, что делает выборка по важности:

Направо, — один из бесконечно малых элементов, сумма которых равна E [ X ; П ]:

следовательно, хорошее изменение вероятности P ( Л ) выборка по важности перераспределит закон X так, что частоты ее выборок сортируются непосредственно в соответствии с их весами в E [ X ; П ]. Отсюда и название «выборка по важности».

Выборка по важности часто используется в качестве интегратора Монте-Карло .Когда является равномерным распределением и , E [ X;P ] соответствует интегралу действительной функции .

Приложение к вероятностному выводу

[ редактировать ]

Такие методы часто используются для оценки апостериорных плотностей или ожиданий в задачах оценки состояния и/или параметров в вероятностных моделях, которые слишком сложно обрабатывать аналитически. Примеры включают байесовские сети и вариационные автоэнкодеры , взвешенные по важности . [4]

Приложение к моделированию

[ редактировать ]

Выборка по важности — это метод уменьшения дисперсии , который можно использовать в методе Монте-Карло . Идея выборки по важности заключается в том, что определенные значения входных случайных величин в моделировании оказывают большее влияние на оцениваемый параметр, чем другие. Если эти « важные » значения подчеркиваются путем более частой выборки, то дисперсию оценщика можно уменьшить. Следовательно, основная методология выборки по важности заключается в выборе распределения, которое «поощряет» важные значения. Такое использование «смещенных» распределений приведет к смещенной оценке, если она будет применяться непосредственно в моделировании. Однако выходные данные моделирования взвешиваются, чтобы внести поправку на использование смещенного распределения, и это гарантирует, что новый оценщик выборки важности будет несмещенным. Вес задается отношением правдоподобия , то есть производной Радона – Никодима истинного основного распределения по отношению к смещенному распределению моделирования.

Фундаментальной проблемой при реализации моделирования выборки по важности является выбор смещенного распределения, которое поощряет важные области входных переменных. Выбор или разработка хорошего смещенного распределения — это «искусство» выборки по важности. Наградой за хорошее распространение может стать огромная экономия времени; Наказанием за плохое распределение может стать более длительное время выполнения, чем при общем моделировании Монте-Карло без выборки по важности.

Учитывать быть образцом и быть отношением правдоподобия, где - функция плотности вероятности (массы) желаемого распределения и — это функция плотности вероятности (массы) смещенного/предложения/выборочного распределения. Тогда проблему можно охарактеризовать, выбрав выборочное распределение что минимизирует дисперсию масштабированной выборки:

Можно показать, что следующее распределение минимизирует указанную выше дисперсию: [5]

Обратите внимание, что когда , эта дисперсия становится равной 0.

Математический подход

[ редактировать ]

Рассмотрите возможность оценки вероятности путем моделирования события , где — случайная величина с кумулятивной функцией распределения и функция плотности вероятности , где штрих обозначает производную . А -независимая по длине и одинаково распределенная (iid) последовательность генерируется из распределения , и число случайных величин, лежащих выше порога подсчитываются. Случайная величина характеризуется биномиальным распределением

Можно показать, что , и , поэтому в пределе мы можем получить . Обратите внимание, что дисперсия мала, если . Выборка по важности связана с определением и использованием альтернативной функции плотности. (для ), обычно называемая плотностью смещения для симуляционного эксперимента. Такая плотность позволяет событию происходить чаще, поэтому длина последовательности становится меньше для заданной дисперсии оценки . Альтернативно, для данного , использование плотности смещения приводит к меньшей дисперсии, чем дисперсия традиционной оценки Монте-Карло. Из определения , мы можем представить как показано ниже.

где

представляет собой отношение правдоподобия и называется весовой функцией. Последнее равенство в приведенном выше уравнении мотивирует оценку

Это выборочная оценка важности и является беспристрастным. То есть процедура оценки заключается в создании выборок iid из и для каждого образца, превышающего , оценка увеличивается на вес оценивается по выборочному значению. Результаты усредняются по испытания. Легко показать, что дисперсия выборочной оценки важности равна

Теперь проблема выборки по важности фокусируется на поиске плотности смещения. так, что дисперсия выборочной оценки важности меньше дисперсии общей оценки Монте-Карло. Для некоторой функции плотности смещения, которая минимизирует дисперсию и при определенных условиях сводит ее к нулю, она называется оптимальной функцией плотности смещения.

Обычные методы смещения

[ редактировать ]

Хотя существует множество видов методов смещения, следующие два метода наиболее широко используются в приложениях выборки по важности.

Масштабирование

[ редактировать ]

Смещение вероятностной массы в область событий путем положительного масштабирования случайной величины с числом больше единицы приводит к увеличению дисперсии (также средней) функции плотности. Это приводит к более тяжелому хвосту плотности, что приводит к увеличению вероятности события. Масштабирование, вероятно, является одним из самых ранних известных методов смещения и широко используется на практике. Его легко реализовать, и он обычно обеспечивает консервативный выигрыш в моделировании по сравнению с другими методами.

При выборке по важности путем масштабирования плотность моделирования выбирается как функция плотности масштабированной случайной величины. , где обычно для оценки вероятности хвоста. Путем трансформации,

и весовая функция

Масштабирование сдвигает массу вероятности в желаемую область события, но оно также перемещает массу в дополнительную область. что нежелательно. Если представляет собой сумму случайных величин, распространение массы происходит в мерное пространство. Следствием этого является уменьшение значимости прироста выборки при увеличении и называется эффектом размерности.Современной версией выборки по значимости путем масштабирования является, например, так называемая сигма-масштабированная выборка (SSS), при которой выполняется множественный анализ Монте-Карло (MC) с различными коэффициентами масштабирования. В отличие от многих других высокопроизводительных методов оценки (например, WCD для наихудшего случая), SSS не сильно страдает от проблемы размерности. Кроме того, обращение к нескольким выходам MC не приводит к снижению эффективности. С другой стороны, как и WCD, SSS предназначен только для гауссовых статистических переменных и, в отличие от WCD, метод SSS не предназначен для получения точных статистических углов. Еще одним недостатком SSS является то, что запуск MC с большими масштабными факторами может оказаться затруднительным, например, из-за проблем сходимости модели и симулятора. Кроме того, в SSS мы сталкиваемся с серьезным компромиссом между смещением и дисперсией: используя крупномасштабные факторы, мы получаем довольно стабильные результаты урожайности, но чем больше масштабные коэффициенты, тем больше ошибка смещения. Если преимущества SSS не имеют большого значения в интересующем приложении, то зачастую другие методы оказываются более эффективными.

Другой простой и эффективный метод смещения использует перевод функции плотности (и, следовательно, случайной величины), чтобы поместить большую часть ее вероятностной массы в область редких событий. Перевод не страдает от эффекта размерности и успешно используется в нескольких приложениях, связанных с моделированием цифровых систем связи . Это часто обеспечивает лучший выигрыш от моделирования, чем масштабирование. При смещении за счет трансляции плотность моделирования определяется выражением

где — это величина сдвига, которую следует выбирать так, чтобы минимизировать дисперсию средства оценки выборки важности.

Эффекты сложности системы

[ редактировать ]

Фундаментальная проблема с выборкой по важности заключается в том, что проектирование хороших смещенных распределений становится более сложным по мере увеличения сложности системы. Сложные системы — это системы с длинной памятью, поскольку со сложной обработкой нескольких входных данных справиться гораздо проще. Эта размерность или память могут вызывать проблемы тремя способами:

В принципе, идеи выборки по важности в этих ситуациях остаются прежними, но конструкция становится намного сложнее. Успешный подход к решению этой проблемы заключается в разбиении моделирования на несколько более мелких, более четко определенных подзадач. Затем стратегии выборки по важности используются для определения каждой из более простых подзадач. Примерами методов разрушения моделирования являются моделирование условий и ошибок (EES), а также регенеративное моделирование.

Оценка важности выборки

[ редактировать ]

Чтобы определить успешные методы выборки по важности, полезно иметь возможность количественно оценить экономию времени выполнения благодаря использованию подхода выборки по важности. Обычно используемым показателем производительности является , и это можно интерпретировать как коэффициент ускорения, благодаря которому оценщик выборки важности достигает той же точности, что и оценщик MC. Это необходимо вычислять эмпирически, поскольку дисперсии оценщика вряд ли будут аналитически возможными, если их среднее значение трудно поддается измерению. Другими полезными понятиями при количественной оценке выборочной оценки важности являются границы дисперсии и понятие асимптотической эффективности. Одним из связанных показателей является так называемый эффективный размер выборки (ESS) . [6]

Функция стоимости дисперсии

[ редактировать ]

Дисперсия — не единственная возможная функция стоимости для моделирования. Другие функции стоимости, такие как среднее абсолютное отклонение, используются в различных статистических приложениях. Тем не менее, дисперсия является основной функцией стоимости, рассматриваемой в литературе, вероятно, из-за использования дисперсий в доверительных интервалах и в показателе эффективности. .

Связанной с этим проблемой является тот факт, что соотношение переоценивает экономию времени выполнения из-за выборки по важности, поскольку она не включает дополнительное время вычислений, необходимое для вычисления весовой функции. Следовательно, некоторые люди оценивают чистое улучшение времени выполнения различными способами. Возможно, более серьезные накладные расходы на выборку по важности — это время, затраченное на разработку и программирование метода и аналитическое получение желаемой весовой функции.

Множественная и адаптивная выборка по важности

[ редактировать ]

При различных распределениях предложений, , совместно используются для отбора проб могут быть использованы различные правильные весовые функции (например, см. [7] [8] [9] [10] ). В адаптивной настройке распределения предложений, , и обновляются каждую итерацию алгоритма адаптивной выборки важности. Следовательно, поскольку используется популяция с плотностью предложений, можно использовать несколько подходящих комбинаций схем выборки и взвешивания. [11] [12] [13] [14] [15] [16] [17]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Клок, Т.; ван Дейк, Гонконг (1978). «Байесовские оценки параметров системы уравнений: применение интегрирования по Монте-Карло» (PDF) . Эконометрика . 46 (1): 1–19. дои : 10.2307/1913641 . JSTOR   1913641 .
  2. ^ Герцле, Г. (1949). «Квотная выборка и функции важности в стохастическом решении задач частиц». Технический отчет ORNL-434, Национальная лаборатория Ок-Ридж . АЭКД; 2793. hdl : 2027/mdp.39015086443671 .
  3. ^ Кан, Х .; Харрис, TE (1949). «Оценка передачи частиц путем случайной выборки». Метод Монте-Карло . Серия «Прикладная математика». 12 . Национальное бюро стандартов.: 27–30.
  4. ^ Бурда, Юрий; Гросс, Роджер; Салахутдинов, Руслан (2016). «Автоэнкодеры, взвешенные по важности». Материалы 4-й Международной конференции по обучению представлениям (ICLR) . arXiv : 1509.00519 .
  5. ^ Рубинштейн, Р.Ю., и Крозе, Д.П. (2011). Моделирование и метод Монте-Карло (Т. 707). Джон Уайли и сыновья.
  6. ^ Мартино, Лука; Эльвира, Виктор; Лузада, Франциско (2017). «Эффективный размер выборки для выборки по важности на основе показателей несоответствия». Обработка сигналов . 131 : 386–401. arXiv : 1602.03572 . дои : 10.1016/j.sigpro.2016.08.025 . S2CID   26317735 .
  7. ^ Вич, Эрик; Гибас, Леонидас Дж. (1 января 1995 г.). «Оптимальное сочетание методов выборки для рендеринга Монте-Карло» . Материалы 22-й ежегодной конференции по компьютерной графике и интерактивным технологиям - SIGGRAPH '95 . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 419–428 . CiteSeerX   10.1.1.127.8105 . дои : 10.1145/218380.218498 . ISBN  978-0-89791-701-8 . S2CID   207194026 .
  8. ^ Оуэн, Арт; Юрист, И Чжоу (01 марта 2000 г.). «Безопасная и эффективная выборка по значимости». Журнал Американской статистической ассоциации . 95 (449): 135–143. CiteSeerX   10.1.1.36.4536 . дои : 10.1080/01621459.2000.10473909 . ISSN   0162-1459 . S2CID   119761472 .
  9. ^ Эльвира В.; Мартино, Л.; Луенго, Д.; Бугалло, МФ (01 октября 2015 г.). «Эффективные оценщики выборки с множественной важностью». Письма об обработке сигналов IEEE . 22 (10): 1757–1761. arXiv : 1505.05391 . Бибкод : 2015ISPL...22.1757E . дои : 10.1109/ЛСП.2015.2432078 . ISSN   1070-9908 . S2CID   14504598 .
  10. ^ Эльвира, Виктор; Мартино, Лука; Луенго, Дэвид; Бугалло, Моника Ф. (2017). «Улучшение численности населения Монте-Карло: альтернативные схемы взвешивания и повторной выборки». Обработка сигналов . 131 : 77–91. arXiv : 1607.02758 . дои : 10.1016/j.sigpro.2016.07.012 . S2CID   205171823 .
  11. ^ Каппе, О.; Гийен, А.; Марин, Дж. М.; Роберт, CP (1 декабря 2004 г.). «Население Монте-Карло». Журнал вычислительной и графической статистики . 13 (4): 907–929. дои : 10.1198/106186004X12803 . ISSN   1061-8600 . S2CID   119690181 .
  12. ^ Мартино, Л.; Эльвира В.; Луенго, Д.; Корандер, Дж. (01 мая 2017 г.). «Многослойная адаптивная выборка по важности». Статистика и вычисления . 27 (3): 599–623. arXiv : 1505.04732 . дои : 10.1007/s11222-016-9642-5 . ISSN   0960-3174 . S2CID   2508031 .
  13. ^ Каппе, Оливье; Дук, Рэндал; Гийен, Арно; Марин, Жан-Мишель; Роберт, Кристиан П. (25 апреля 2008 г.). «Адаптивная выборка по значимости в общих классах смесей». Статистика и вычисления . 18 (4): 447–459. arXiv : 0710.4242 . дои : 10.1007/s11222-008-9059-x . ISSN   0960-3174 . S2CID   483916 .
  14. ^ Корнюэ, Жан-Мари; Марин, Жан-Мишель; Мира, Антониетта ; Роберт, Кристиан П. (1 декабря 2012 г.). «Адаптивная выборка по множественной важности». Скандинавский статистический журнал . 39 (4): 798–812. arXiv : 0907.1254 . дои : 10.1111/j.1467-9469.2011.00756.x . ISSN   1467-9469 . S2CID   17191248 .
  15. ^ Мартино, Л.; Эльвира В.; Луенго, Д.; Корандер, Дж. (01 августа 2015 г.). «Адаптивная выборка значимости населения: обучение на неопределенности». Транзакции IEEE по обработке сигналов . 63 (16): 4422–4437. Бибкод : 2015ИТСП...63.4422М . CiteSeerX   10.1.1.464.9395 . дои : 10.1109/TSP.2015.2440215 . ISSN   1053-587X . S2CID   17017431 .
  16. ^ Бугалло, Моника Ф.; Мартино, Лука; Корандер, Юкка (01 декабря 2015 г.). «Адаптивная выборка важности при обработке сигналов» . Цифровая обработка сигналов . Специальный выпуск в честь Уильяма Дж. (Билла) Фицджеральда. 47 : 36–49. дои : 10.1016/j.dsp.2015.05.014 .
  17. ^ Бугалло, МФ; Эльвира В.; Мартино, Л.; Луенго, Д.; Мигес, Дж.; Джурич, премьер-министр (июль 2017 г.). «Адаптивная выборка по важности: прошлое, настоящее и будущее». Журнал обработки сигналов IEEE . 34 (4): 60–79. Бибкод : 2017ISPM...34...60B . дои : 10.1109/msp.2017.2699226 . ISSN   1053-5888 . S2CID   5619054 .
  • Аруна, Бухари (2004). «Адаптационный метод Монте-Карло, метод уменьшения дисперсии». Методы Монте-Карло и их приложения . 10 (1): 1–24. дои : 10.1515/156939604323091180 . S2CID   21949573 .
  • Баклью, Джеймс Антонио (2004). Введение в моделирование редких событий . Нью-Йорк: Springer-Verlag.
  • Дусе, А.; де Фрейтас, Н.; Гордон, Н. (2001). Последовательные методы Монте-Карло на практике . Спрингер. ISBN  978-0-387-95146-1 .
  • Феррари, М.; Беллини, С. (2001). «Моделирование выборки по важности кодов турбопродуктов». ICC 2001. Международная конференция IEEE по коммуникациям. Протокол конференции (Кат. № 01CH37240) . Том. 9. стр. 2773–2777. дои : 10.1109/ICC.2001.936655 . ISBN  978-0-7803-7097-5 . S2CID   5158473 .
  • Мазонька, Олег (2016). «Просто как пи: метод выборки по важности» . Справочный журнал . 16 .
  • Оберг, Томми (2001). Модуляция, обнаружение и кодирование . Нью-Йорк: Джон Уайли и сыновья.
  • Пресс, WH; Теукольский, С.А.; Феттерлинг, WT; Фланнери, BP (2007). «Раздел 7.9.1 Выборка по значимости» . Численные рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN  978-0-521-88068-8 .
  • Рипли, Б.Д. (1987). Стохастическое моделирование . Уайли и сыновья.
  • Смит, П.Дж.; Шафи, М.; Гао, Х. (1997). «Быстрое моделирование: обзор методов выборки по важности в системах связи». Журнал IEEE по избранным областям коммуникаций . 15 (4): 597–613. дои : 10.1109/49.585771 .
  • Шринивасан, Р. (2002). Выборка по важности – Применение в области связи и обнаружения . Берлин: Springer-Verlag.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 191e550daa8c21b74c80a4f100fab292__1717517280
URL1:https://arc.ask3.ru/arc/aa/19/92/191e550daa8c21b74c80a4f100fab292.html
Заголовок, (Title) документа по адресу, URL1:
Importance sampling - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)