Разница средних и прогнозируемых ответов
Было предложено объединить эту статью с простой линейной регрессией . ( Обсудить ) Предлагается с ноября 2023 г. |
Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( Ноябрь 2010 г. ) |
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В регрессии рассчитанные средний ответ (или ожидаемый ответ ) и прогнозируемый ответ , также известный как средний результат (или ожидаемый результат ) и прогнозируемый результат , представляют собой значения зависимой переменной, на основе параметров регрессии и заданного значения независимой переменной. Значения этих двух ответов одинаковы, но их рассчитанные дисперсии различны.Эта концепция представляет собой обобщение различия между стандартной ошибкой среднего и выборочным стандартным отклонением .
Предыстория: простая линейная регрессия
[ редактировать ]В простой линейной регрессии (т. е. аппроксимации прямой линией с ошибками только по координате y) модель имеет вид
где — переменная ответа , – объясняющая переменная , ε i – случайная ошибка, и и являются параметрами. Среднее и прогнозируемое значение ответа для данного объясняющего значения x d определяется выражением
в то время как фактический ответ будет
Выражения для значений и дисперсий и даны в виде линейной регрессии .
Дисперсия
[ редактировать ]Дисперсия среднего ответа
[ редактировать ]Поскольку данные в этом контексте определяются как пары ( x , y ) для каждого наблюдения, средний ответ при заданном значении x , скажем, x d , является оценкой среднего значения y в популяции в точке x. значение x d , то есть . Дисперсия среднего ответа определяется выражением
Это выражение можно упростить до
где m — количество точек данных.
Чтобы продемонстрировать это упрощение, можно использовать тождество
Отклонение прогнозируемого ответа
[ редактировать ]Прогнозируемое распределение ответа является прогнозируемым распределением остатков в данной точке x d . Таким образом, дисперсия определяется выражением
Вторая строка следует из того, что равно нулю, поскольку новая точка прогнозирования не зависит от данных, используемых для соответствия модели. Кроме того, термин был рассчитан ранее для среднего ответа.
С (фиксированный, но неизвестный параметр, который можно оценить), дисперсия прогнозируемого ответа определяется выражением
Доверительные интервалы
[ редактировать ]The доверительные интервалы рассчитываются как . Таким образом, доверительный интервал для прогнозируемого ответа шире, чем интервал для среднего ответа. Это ожидаемо интуитивно – дисперсия совокупности значения не уменьшаются при выборке из них, потому что случайная величина ε i не уменьшается, а дисперсия среднего значения сокращается с увеличением выборки, потому что дисперсия в и уменьшаются, поэтому средний ответ (прогнозируемое значение ответа) становится ближе к .
Это аналогично разнице между дисперсией выборочного среднего значения совокупности: дисперсия генеральной совокупности является параметром и не меняется, но дисперсия выборочного среднего значения уменьшается с увеличением размера выборки.
Общий случай
[ редактировать ]Общий случай линейной регрессии можно записать как
Следовательно, поскольку общее выражение для дисперсии среднего ответа:
где S — ковариационная матрица параметров, определяемая формулой
См. также
[ редактировать ]Ссылки
[ редактировать ]- Дрейпер, Северная Каролина; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). Джон Уайли. ISBN 0-471-17082-8 .