Начальная загрузка популяций
Эта статья может быть слишком технической для понимания большинства читателей . ( декабрь 2021 г. ) |
Начальная загрузка совокупностей в статистике и математике начинается с выборки наблюдается по случайной величине .
Когда X имеет заданный закон распределения с набором нефиксированных параметров, мы обозначаем вектором Задача параметрического вывода состоит в вычислении подходящих значений (назовем их оценками ) этих параметров именно на основе выборки. Оценка подходит, если замена ее неизвестным параметром не приведет к серьезным повреждениям в следующих вычислениях. В алгоритмическом выводе пригодность оценки определяется с точки зрения совместимости с наблюдаемой выборкой.
В этой структуре методы повторной выборки направлены на генерацию набора значений-кандидатов для замены неизвестных параметров, которые мы считываем как их совместимые копии. Они представляют собой совокупность спецификаций случайного вектора. [1] совместим с наблюдаемой выборкой, где совместимость ее значений имеет свойства распределения вероятностей. Подключая параметры к выражению рассматриваемого закона распределения, мы загружаем целые совокупности случайных величин, совместимых с наблюдаемой выборкой.
Смысл алгоритмов вычисления реплик, которые мы обозначаем процедурами начальной загрузки населения , состоит в том, чтобы идентифицировать набор статистических данных. проявляющие определенные свойства, обозначающие поведение скважины относительно неизвестных параметров. Статистика выражается как функция наблюдаемых значений. , по определению. может быть выражено как функция неизвестных параметров и случайной спецификации начального числа. через механизм выборки , по очереди. Тогда, подставив второе выражение в первое, получим выражения как функции начальных чисел и параметров – основные уравнения – которые мы инвертируем, чтобы найти значения последних как функцию: i) статистики, значения которой, в свою очередь, фиксируются на наблюдаемых; и ii) начальные числа, которые являются случайными в соответствии с их собственным распределением. Следовательно, из набора образцов семян мы получаем набор реплик параметров.
Метод
[ редактировать ]Учитывая случайной величины X и механизма выборки для X реализация x определяется выражением , с . Ориентируясь на хорошую статистику ,
для их параметров основные уравнения гласят:
(1)
Для каждого образца семян вектор параметров получается из решения приведенной выше системы с зафиксировано на наблюдаемых значениях.Вычислив огромный набор совместимых векторов, скажем N , эмпирическое предельное распределение получается путем:
(2)
где – j-я компонента общего решения уравнения (1), где – индикаторная функция в интервале Некоторые неопределенности остаются, если X дискретно, и это мы вскоре рассмотрим.Всю процедуру можно резюмировать в виде следующего алгоритма, где индекс из обозначает вектор параметров, из которого получается вектор статистики.
Алгоритм
[ редактировать ]Генерация совокупности параметров с помощью начальной загрузки |
---|
Учитывая образец от случайной величины с вектором параметров неизвестный,
|
вы можете легко увидеть Из таблицы достаточной статистики , что мы получаем кривую на рисунке слева, вычисляя эмпирическое распределение (2) для совокупности, полученное с помощью вышеуказанного алгоритма, когда: i) X является экспоненциальной случайной величиной, ii) , и
- ,
и кривая на рисунке справа, когда: i) X — однородная случайная величина в , ii) , и
- .
Примечание
[ редактировать ]Отметим, что точность определения закона распределения параметровПолучение популяций, совместимых с выборкой, не является функцией размера выборки. Вместо этого это функция количества семян, которые мы рисуем. В свою очередь, это число является чисто вопросом вычислительного времени, но не требует какого-либо расширения наблюдаемых данных. При использовании других методов начальной загрузки, ориентированных на создание реплик выборки (например, предложенных ( Efron & Tibshirani 1993 )), точность оценочных распределений зависит от размера выборки.
Пример
[ редактировать ]Для ожидается, что оно будет представлять распределение Парето , спецификация которого требует значений параметров и к , [2] мы имеем, что кумулятивная функция распределения выглядит следующим образом:
- .
Механизм выборки имеет однородное семя U и объясняющая функция описано:
Соответствующая статистика представляет собой пару совместных достаточных статистик для и К соответственно .Основные уравнения читаются
с .
На рисунке справа показан трехмерный график эмпирической кумулятивной функции распределения (2) .
Примечания
[ редактировать ]- ^ По умолчанию заглавные буквы (например, U , X ) обозначают случайные величины, а маленькие буквы ( u , x ) — их соответствующие реализации.
- ^ Здесь мы обозначаем символами a и k параметры Парето, обозначенные в других местах через k и .
Ссылки
[ редактировать ]- Эфрон Б. и Тибширани Р. (1993). Введение в Bootsrap . Фриман, Нью-Йорк: Чепмен и Холл.
- Аполлони, Б.; Мальчиоди, Д.; Гайто, С. (2006). Алгоритмический вывод в машинном обучении . Международная серия по передовому интеллекту. Том. 5 (2-е изд.). Аделаида: Мэгилл.
Передовые знания Международные
- Аполлони, Б.; Бассис, С.; Гайто. С.; Мальчиоди, Д. (2007). «Оценка медицинского лечения путем изучения основных функций с хорошей уверенностью». Текущий фармацевтический дизайн . 13 (15): 1545–1570. дои : 10.2174/138161207780765891 . ПМИД 17504150 .