Усечение (статистика)

В статистике усечению усечение приводит к значениям, которые ограничены сверху или снизу, что приводит к выборки . ^[1] Случайная величина $y$ называется усеченным снизу, если для некоторого порогового значения $c$ , точное значение $y$ известно для всех случаев $y>c$ , но неизвестно для всех случаев $y\leq c$ . Аналогично, усечение сверху означает точное значение $y$ известно в тех случаях, когда $y<c$ , но неизвестно когда $y\geq c$ . ^[2]

Усечение похоже на концепцию статистической цензуры, но отличается от нее . Усеченную выборку можно рассматривать как эквивалент базовой выборки, в которой все значения, выходящие за пределы границ, полностью опущены, при этом даже не сохраняется количество пропущенных. При статистической цензуре будет записываться примечание, в котором будет указано, какая граница (верхняя или нижняя) была превышена, а также значение этой границы. При усеченной выборке нота не записывается.

Приложения

Обычно значения, которые получают специалисты по страхованию, либо усечены влево, либо подвергнуты цензуре вправо, либо и то, и другое. Например, если на держателей полисов распространяется лимит полиса u , то любые суммы убытков, которые фактически превышают u, сообщаются страховой компании как равные именно u, поскольку u — это сумма, которую платит страховая компания . Страховщик знает, что фактический убыток больше, чем вы , но он не знает, что это такое. С другой стороны, усечение влево происходит, когда держатели полисов подлежат франшизе. Если держатели полисов облагаются франшизой d , любая сумма убытка, меньшая d, даже не будет сообщена страховой компании. Если есть претензия по лимиту полиса u и франшизе d , любая сумма убытка, превышающая u, будет сообщена страховой компании как убыток в размере $u-d$ потому что это сумма, которую должна выплатить страховая компания. Таким образом, данные о страховых убытках усекаются по левому краю, поскольку страховая компания не знает, есть ли суммы ниже франшизы d , поскольку держатели полисов не будут предъявлять претензии. Страховой убыток также подвергается цензуре справа, если убыток превышает u, поскольку u — это наибольшая сумма, которую выплатит страховая компания. Таким образом, он знает только то, что ваша претензия превышает сумму u , а не точную сумму претензии.

Распределения вероятностей

Усечение может быть применено к любому распределению вероятностей . Обычно это приводит к новому распределению, а не внутри одного семейства. Таким образом, если случайная величина X имеет F ( x ) в качестве функции распределения, новая случайная величина Y , определенная как имеющая распределение X, усеченное до полуоткрытого интервала ( a , b ], имеет функцию распределения

F_{Y}(y)={\frac {F(y)-F(a)}{F(b)-F(a)}}\,

для y в интервале ( a , b ] и 0 или 1 в противном случае. Если бы усечение было до замкнутого интервала [ a , b ], функция распределения была бы

F_{Y}(y)={\frac {F(y)-F(a-)}{F(b)-F(a-)}}\,

для y в интервале [ a , b ] и 0 или 1 в противном случае.

Анализ данных

Анализ данных, в которых наблюдения рассматриваются как полученные из усеченных версий стандартных распределений, может быть проведен с использованием максимального правдоподобия , где правдоподобие будет получено из распределения или плотности усеченного распределения. При этом учитывается фактор ${F(b)-F(a)}$ в модифицированной функции плотности, которая будет зависеть от параметров исходного распределения.

На практике, если усеченная часть очень мала, эффект усечения можно игнорировать при анализе данных. обычно используется нормальное распределение Например, для моделирования данных, значения которых могут быть только положительными, но для которых типичный диапазон значений далеко от нуля, . В таких случаях формально предпочтительнее может быть усеченная или подвергнутая цензуре версия нормального распределения (хотя могут быть и альтернативы); результаты более сложного анализа изменятся очень незначительно. Однако легко доступно программное обеспечение для оценки максимального правдоподобия даже умеренно сложных моделей, таких как модели регрессии , для усеченных данных. ^[3]

В эконометрике , усеченные зависимые переменные — это переменные для которых нельзя проводить наблюдения для определенных значений в некотором диапазоне. ^[4] Модели регрессии с такими зависимыми переменными требуют особого внимания, которое должным образом учитывает усеченную природу переменной. Оценка такой модели усеченной регрессии может быть выполнена параметрически. ^[5]^[6]^[7] или полу- и непараметрические рамки. ^[8]^[9]

См. также

Ссылки

^ Додж, Ю. (2003) Оксфордский словарь статистических терминов . ОУП. ISBN 0-19-920613-9
^ Брин, Ричард (1996). Модели регрессии: цензурированные, выборочные или усеченные данные . Количественные приложения в социальных науках. Том. 111. Тысяча Дубов: Мудрец. стр. 2–4. ISBN 0-8039-5710-6 .
^ Волынец, М.С. (1979). «Оценка максимального правдоподобия в линейной модели на основе ограниченных и подвергнутых цензуре нормальных данных». Журнал Королевского статистического общества . Серия С. 28 (2): 195–206. дои : 10.2307/2346749 . JSTOR 2346749 .
^ «Усеченные зависимые переменные» . О сайте.com . Проверено 22 марта 2008 г.
^ Амемия, Т. (1973). «Регрессионный анализ, когда зависимая переменная усечена до нормального значения». Эконометрика . 41 (6): 997–1016. дои : 10.2307/1914031 . JSTOR 1914031 .
^ Хекман, Джеймс (1976). «Общая структура статистических моделей усечения, выборки выборки и ограниченных зависимых переменных, а также простая система оценки для таких моделей» . Анналы экономических и социальных измерений . 5 (4): 475–492.
^ Ванчак, В.; Гольдберг, Ю.; Бар-Лев, СК; Букай, Б. (2015). «Непрерывные статистические модели: с параметрами усечения или без них?». Математические методы статистики . 24 (1): 55–73. дои : 10.3103/S1066530715010044 . hdl : 1805/7048 . S2CID 255455365 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Левбель, А .; Линтон, О. (2002). «Непараметрическая цензурированная и усеченная регрессия» . Эконометрика . 70 (2): 765–779. дои : 10.1111/1468-0262.00304 . JSTOR 2692291 . S2CID 120113700 .
^ Парк, Будапешт; Симар, Л.; Зеленюк, В. (2008). «Оценка локального правдоподобия усеченной регрессии и ее частных производных: теория и применение» (PDF) . Журнал эконометрики . 146 (1): 185–198. doi : 10.1016/j.jeconom.2008.08.007 . S2CID 55496460 .

[1] Додж, Ю. (2003) Оксфордский словарь статистических терминов . ОУП. ISBN 0-19-920613-9

[2] Брин, Ричард (1996). Модели регрессии: цензурированные, выборочные или усеченные данные . Количественные приложения в социальных науках. Том. 111. Тысяча Дубов: Мудрец. стр. 2–4. ISBN 0-8039-5710-6 .

[3] Волынец, М.С. (1979). «Оценка максимального правдоподобия в линейной модели на основе ограниченных и подвергнутых цензуре нормальных данных». Журнал Королевского статистического общества . Серия С. 28 (2): 195–206. дои : 10.2307/2346749 . JSTOR 2346749 .

[4] «Усеченные зависимые переменные» . О сайте.com . Проверено 22 марта 2008 г.

[5] Амемия, Т. (1973). «Регрессионный анализ, когда зависимая переменная усечена до нормального значения». Эконометрика . 41 (6): 997–1016. дои : 10.2307/1914031 . JSTOR 1914031 .

[6] Хекман, Джеймс (1976). «Общая структура статистических моделей усечения, выборки выборки и ограниченных зависимых переменных, а также простая система оценки для таких моделей» . Анналы экономических и социальных измерений . 5 (4): 475–492.

[7] Ванчак, В.; Гольдберг, Ю.; Бар-Лев, СК; Букай, Б. (2015). «Непрерывные статистические модели: с параметрами усечения или без них?». Математические методы статистики . 24 (1): 55–73. дои : 10.3103/S1066530715010044 . hdl : 1805/7048 . S2CID 255455365 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[8] Левбель, А .; Линтон, О. (2002). «Непараметрическая цензурированная и усеченная регрессия» . Эконометрика . 70 (2): 765–779. дои : 10.1111/1468-0262.00304 . JSTOR 2692291 . S2CID 120113700 .

[9] Парк, Будапешт; Симар, Л.; Зеленюк, В. (2008). «Оценка локального правдоподобия усеченной регрессии и ее частных производных: теория и применение» (PDF) . Журнал эконометрики . 146 (1): 185–198. doi : 10.1016/j.jeconom.2008.08.007 . S2CID 55496460 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]