~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 8DC63AC61DC42E2155E79CA7B20BEBBB__1713954300 ✰
Заголовок документа оригинал.:
✰ Resampling (statistics) - Wikipedia ✰
Заголовок документа перевод.:
✰ Повторная выборка (статистика) — Википедия, бесплатная энциклопедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Resampling_(statistics) ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/8d/bb/8dc63ac61dc42e2155e79ca7b20bebbb.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/8d/bb/8dc63ac61dc42e2155e79ca7b20bebbb__translat.html ✰
Дата и время сохранения документа:
✰ 11.06.2024 00:01:20 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 24 April 2024, at 13:25 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Повторная выборка (статистика) — Википедия, бесплатная энциклопедия Jump to content

Повторная выборка (статистика)

Из Википедии, бесплатной энциклопедии

В статистике повторная выборка — это создание новых выборок на основе одной наблюдаемой выборки. Методы повторной выборки:

  1. Перестановочные тесты (также тесты повторной рандомизации)
  2. Начальная загрузка
  3. Перекрестная проверка
  4. Складной нож

Тесты на перестановку [ править ]

Тесты на перестановку основаны на повторной выборке исходных данных с учетом нулевой гипотезы. На основании повторной выборки данных можно сделать вывод, насколько вероятно, что исходные данные встречаются при нулевой гипотезе.

Бутстрап [ править ]

Лучший пример принципа плагина — метод начальной загрузки.

Бутстрэппинг — это статистический метод оценки выборочного распределения оценщика стандартных путем выборки с заменой из исходной выборки, чаще всего с целью получения надежных оценок ошибок и доверительных интервалов такого параметра совокупности, как среднее значение , медиана , доля , шансы соотношение , коэффициент корреляции или коэффициент регрессии . Это было названо принципом плагина . [1] поскольку это метод оценки функционалов распределения населения путем оценки тех же функционалов при эмпирическом распределении на основе выборки.

Например, [1] при оценке совокупности среднего значения этот метод использует выборочное среднее значение; для оценки медианы совокупности используется выборочная медиана; совокупности для оценки линии регрессии используется выборочная линия регрессии.

Его также можно использовать для построения тестов гипотез. Его часто используют как надежную альтернативу выводам, основанным на параметрических предположениях, когда эти предположения вызывают сомнения или когда параметрический вывод невозможен или требует очень сложных формул для расчета стандартных ошибок. Методы начальной загрузки также используются при переходах обновления-выбора фильтров частиц , алгоритмах генетического типа и связанных с ними методах повторной выборки/реконфигурации Монте-Карло, используемых в вычислительной физике . [2] [3] В этом контексте бутстрап используется для замены последовательно эмпирических взвешенных вероятностных мер эмпирическими мерами . Бутстрап позволяет заменять образцы с низким весом копиями образцов с большим весом.

Перекрестная проверка [ править ]

Перекрестная проверка — это статистический метод проверки прогнозной модели . Подмножества данных сохраняются для использования в качестве проверочных наборов; модель соответствует оставшимся данным (обучающему набору) и используется для прогнозирования проверочного набора. Усреднение качества прогнозов по наборам проверки дает общую меру точности прогноза. Перекрестная проверка неоднократно используется при построении деревьев решений.

Одна из форм перекрестной проверки исключает одно наблюдение за раз; это похоже на складной нож . Другая, K -кратная перекрестная проверка, разбивает данные на K подмножества; каждый по очереди сохраняется в качестве набора проверки.

Это позволяет избежать «самовлияния». Для сравнения: в методах регрессионного анализа , таких как линейная регрессия , каждое значение y приближает линию регрессии к себе, в результате чего прогноз этого значения кажется более точным, чем он есть на самом деле. Перекрестная проверка, применяемая к линейной регрессии, прогнозирует значение y для каждого наблюдения без использования этого наблюдения.

Это часто используется для принятия решения о том, сколько переменных-предикторов использовать в регрессии. Без перекрестной проверки добавление предикторов всегда уменьшает остаточную сумму квадратов (или, возможно, оставляет ее неизменной). Напротив, среднеквадратическая ошибка, проверенная перекрестной проверкой, будет иметь тенденцию уменьшаться, если добавляются ценные предикторы, но увеличиваться, если добавляются бесполезные предикторы. [4]

Перекрестная проверка Монте-Карло [ править ]

Подвыборка — это альтернативный метод аппроксимации выборочного распределения оценщика. Два ключевых отличия от начальной загрузки:

  1. размер повторной выборки меньше размера выборки и
  2. повторная выборка производится без замены.

Преимущество субдискретизации в том, что она действительна в гораздо более слабых условиях по сравнению с бутстрапом. В частности, набор достаточных условий состоит в том, что скорость сходимости оценки известна и предельное распределение непрерывно. Кроме того, размер повторной выборки (или подвыборки) должен стремиться к бесконечности вместе с размером выборки, но с меньшей скоростью, чтобы их соотношение сходилось к нулю. Хотя подвыборка изначально предлагалась только для случая независимых и одинаково распределенных (iid) данных, методология была расширена и теперь охватывает также данные временных рядов; в этом случае выполняется повторная выборка блоков последующих данных, а не отдельных точек данных. Существует множество случаев прикладного характера, когда подвыборка приводит к достоверному выводу, а бутстрэппинг - нет; например, к таким случаям относятся примеры, когда скорость сходимости оценщика не равна квадратному корню из размера выборки или когда предельное распределение не является нормальным. Когда и подвыборка, и бутстрап согласованы, бутстрап обычно более точен. RANSAC — популярный алгоритм, использующий подвыборку.

Перекрестная проверка «Складной нож» [ править ]

Складной нож (перекрестная проверка складным ножом) используется в статистическом выводе для оценки систематической ошибки и стандартной ошибки (дисперсии) статистики, когда для ее расчета используется случайная выборка наблюдений. Исторически этот метод предшествовал изобретению бутстрапа: Кенуй изобрел этот метод в 1949 году, а Тьюки расширил его в 1958 году. [5] [6] Этот метод был предвестником Махаланобиса , который в 1946 году предложил повторять оценки интересующей статистики, выбирая половину выборки случайным образом. [7] Он придумал для этого метода название «взаимопроникающие образцы».

Кенуй изобрел этот метод с целью уменьшить погрешность выборочной оценки. Тьюки расширил этот метод, предположив, что если бы повторы можно было считать одинаково и независимо распределенными, то можно было бы сделать оценку дисперсии параметра выборки и что он был бы приблизительно распределен, как варьирующийся с n -1 степенями свободы ( n размер выборки).

Основная идея оценщика дисперсии складного ножа заключается в систематическом перерасчете статистической оценки, исключая одно или несколько наблюдений за раз из набора выборок. Из этого нового набора повторов статистики можно вычислить оценку систематической ошибки и оценку дисперсии статистики.

Вместо использования складного ножа для оценки дисперсии его можно применить к логарифму дисперсии. Это преобразование может привести к лучшим оценкам, особенно когда распределение самой дисперсии может быть ненормальным.

Для многих статистических параметров оценка дисперсии складным ножом асимптотически стремится к истинному значению почти наверняка. С технической точки зрения можно сказать, что оценка складного ножа последовательна . Складной нож является последовательным для выборочных средних , выборочных дисперсий , центральной и нецентральной t-статистики (с возможными ненормальными популяциями), выборочного коэффициента вариации , оценок максимального правдоподобия , оценок наименьших квадратов, коэффициентов корреляции и коэффициентов регрессии .

Это не соответствует выборочной медиане . В случае унимодальной вариации отношение дисперсии складного ножа к выборочной дисперсии имеет тенденцию распределяться как половина квадрата распределения хи-квадрат с двумя степенями свободы .

Складной нож, как и оригинальный бутстрап, зависит от независимости данных. Были предложены расширения складного ножа, позволяющие учитывать зависимость данных.

Другим расширением является метод удаления группы, используемый в сочетании с выборкой Пуассона .

Складной нож эквивалентен случайной (подвыборке) перекрестной проверке с исключением одного, он отличается только целью. [8]

Сравнение бутстрапа и складного ножа [ править ]

Оба метода, бутстреп и складной нож, оценивают изменчивость статистики на основе изменчивости этой статистики между подвыборками, а не на основе параметрических предположений. Для более общего складного ножа, складного ножа с удалением-m наблюдений, бутстрап можно рассматривать как его случайное приближение. Оба дают схожие численные результаты, поэтому каждый из них можно рассматривать как аппроксимацию другого. Хотя существуют огромные теоретические различия в их математических взглядах, главное практическое отличие для пользователей статистики состоит в том, что бутстрап дает разные результаты при повторении одних и тех же данных, тогда как складной нож каждый раз дает один и тот же результат. По этой причине складной нож популярен, когда оценки необходимо несколько раз проверить перед публикацией (например, в органах официальной статистики). С другой стороны, когда эта функция проверки не является решающей и интересно иметь не число, а просто представление о его распределении, предпочтителен бутстрап (например, исследования в области физики, экономики, биологических наук).

Использование бутстрепа или складного ножа может зависеть больше от оперативных аспектов, чем от статистических задач обследования. Складной нож, первоначально использовавшийся для уменьшения систематической ошибки, является более специализированным методом и оценивает только дисперсию точечной оценки. Этого может быть достаточно для базовых статистических выводов (например, проверки гипотез, доверительных интервалов). С другой стороны, бутстрап сначала оценивает все распределение (точечного оценщика), а затем вычисляет на его основе дисперсию. Несмотря на то, что это мощный и простой способ, он может потребовать больших вычислительных затрат.

«Бутстрап может применяться как к задачам оценки дисперсии, так и к задачам оценки распределения. Однако бутстрап-оценщик дисперсии не так хорош, как складной нож или оценщик дисперсии сбалансированной повторной репликации (BRR) с точки зрения эмпирических результатов. Кроме того, бутстрап-оценщик дисперсии обычно требует больше вычислений, чем складной нож или BRR. Таким образом, бутстрап в основном рекомендуется для оценки распределения». [ нужна указание авторства ] [9]

Особое внимание следует уделить складному ножу, особенно складному ножу для наблюдения «удаление-1». Его следует использовать только с гладкой, дифференцируемой статистикой (например, итогами, средними значениями, пропорциями, отношениями, нечетными отношениями, коэффициентами регрессии и т. д.; но не с медианами или квантилями). Это может стать практическим недостатком. Этот недостаток обычно является аргументом в пользу начальной загрузки, а не складного ножа. Более общие складные ножи, чем удаление-1, такие как складной нож «удаление-m» или оценщик Ходжеса – Лемана « удалить все, кроме 2» , решают эту проблему для медиан и квантилей, ослабляя требования к гладкости для последовательной оценки дисперсии.

Обычно складной нож легче применить к сложным схемам отбора проб, чем бутстрап. Сложные схемы выборки могут включать стратификацию, несколько этапов (кластеризацию), различные веса выборки (поправки на отсутствие ответов, калибровку, пост-стратификацию) и схемы выборки с неравной вероятностью. Теоретические аспекты как бутстрапа, так и складного ножа можно найти у Шао и Ту (1995): [10] тогда как базовое введение описано в Wolter (2007). [11] Бутстрап-оценка предсказывающей ошибки модели является более точной, чем оценка складного ножа с помощью линейных моделей, таких как линейная дискриминантная функция или множественная регрессия. [12]

См. также [ править ]

Ссылки [ править ]

  1. ^ Перейти обратно: а б Логан, Дж. Дэвид и Волесенски, Виллиан Р. Математические методы в биологии. Чистая и прикладная математика: серия текстов, монографий и трактатов Wiley-Interscience. John Wiley& Sons, Inc. 2009. Глава 6: Статистические выводы. Раздел 6.6: Методы начальной загрузки
  2. ^ Дель Мораль, Пьер (2004). Формулы Фейнмана-Каца. Генеалогические приближения и взаимодействующие частицы . Вероятность и ее приложения. Спрингер. п. 575. дои : 10.1007/978-1-4684-9393-1 . ISBN  978-1-4419-1902-1 . Серия: Вероятность и приложения
  3. ^ Дель Мораль, Пьер (2013). Моделирование среднего поля для интегрирования Монте-Карло . Чепмен и Холл/CRC Press. п. 626. Монографии по статистике и прикладной теории вероятности.
  4. ^ Вербыла, Д. (1986). «Потенциальная ошибка прогнозирования в регрессионном и дискриминантном анализе». Канадский журнал лесных исследований . 16 (6): 1255–1257. дои : 10.1139/x86-222 .
  5. ^ Кенуй, Миннесота (1949). «Приблизительные тесты корреляции во временных рядах». Журнал Королевского статистического общества, серия B. 11 (1): 68–84. дои : 10.1111/j.2517-6161.1949.tb00023.x . JSTOR   2983696 .
  6. ^ Тьюки, JW (1958). «Предвзятость и уверенность в не совсем больших выборках (предварительный отчет)». Анналы математической статистики . 29 (2): 614. JSTOR   2237363 .
  7. ^ Махаланобис, ПК (1946). «Материалы заседания Королевского статистического общества, состоявшегося 16 июля 1946 года». Журнал Королевского статистического общества . 109 (4): 325–370. JSTOR   2981330 .
  8. ^ Энциклопедия биоинформатики и вычислительной биологии: Азбука биоинформатики . Эльзевир. 21 августа 2018 г. п. 544. ИСБН  978-0-12-811432-2 .
  9. ^ Шао Дж. и Ту Д. (1995). Складной нож и бутстрап. Springer-Verlag, Inc., стр. 281.
  10. ^ Шао, Дж.; Ту, Д. (1995). Складной нож и бутстрап . Спрингер.
  11. ^ Уолтер, К.М. (2007). Введение в оценку дисперсии (второе изд.). Спрингер.
  12. ^ Вербыла, Д.; Литвайтис, Дж. (1989). «Методы повторной выборки для оценки точности классификации моделей среды обитания диких животных». Управление окружением . 13 (6): 783–787. Бибкод : 1989EnMan..13..783V . дои : 10.1007/bf01868317 . S2CID   153448048 .

Библиография [ править ]

  • Гуд, П. (2006) Методы повторной выборки . 3-е изд. Биркгаузер.
  • Уолтер, К.М. (2007). Введение в оценку дисперсии . 2-е издание. Спрингер, Инк.
  • Пьер Дель Мораль (2004). Формулы Фейнмана-Каца. Генеалогические и взаимодействующие системы частиц с приложениями, Спрингер, Серийная вероятность и приложения. ISBN   978-0-387-20268-6
  • Пьер Дель Мораль (2013). Дель Мораль, Пьер (2013). Моделирование среднего поля для интегрирования Монте-Карло . Чепмен и Холл/CRC Press, Монографии по статистике и прикладной теории вероятности. ISBN   9781466504059

Внешние ссылки [ править ]

Программное обеспечение [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 8DC63AC61DC42E2155E79CA7B20BEBBB__1713954300
URL1:https://en.wikipedia.org/wiki/Resampling_(statistics)
Заголовок, (Title) документа по адресу, URL1:
Resampling (statistics) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)