Фиктивная переменная (статистика)
В регрессионном анализе фиктивная переменная (также известная как индикаторная переменная или просто фиктивная переменная ) — это переменная, которая принимает двоичное значение (0 или 1), чтобы указать на отсутствие или присутствие некоторого категориального эффекта, который, как можно ожидать, может изменить результат. [1] Например, если бы мы изучали взаимосвязь между биологическим полом и доходом , мы могли бы использовать фиктивную переменную, чтобы представить пол каждого человека в исследовании. Переменная может принимать значение 1 для мужчин и 0 для женщин (или наоборот). В машинном обучении это известно как горячее кодирование .
Фиктивные переменные обычно используются в регрессионном анализе для представления категориальных переменных, имеющих более двух уровней, таких как уровень образования или род занятий. В этом случае будет создано несколько фиктивных переменных для представления каждого уровня переменной, и только одна фиктивная переменная будет принимать значение 1 для каждого наблюдения. Фиктивные переменные полезны, поскольку позволяют нам включать в наш анализ категориальные переменные, которые в противном случае было бы трудно включить из-за их нечисловой природы. Они также могут помочь нам контролировать мешающие факторы и повысить достоверность наших результатов.
Как и любое добавление переменных в модель, добавление фиктивных переменных увеличит соответствие модели внутри выборки ( коэффициент детерминации ), но за счет меньшего количества степеней свободы и потери общности модели (модель вне выборки). соответствовать). Слишком большое количество фиктивных переменных приводит к тому, что модель не дает каких-либо общих выводов.
Фиктивные переменные полезны в различных случаях. Например, в эконометрическом анализе временных рядов фиктивные переменные могут использоваться для обозначения возникновения войн или крупных забастовок . Таким образом, его можно рассматривать как логическое значение , т. е. значение истинности , представленное в виде числового значения 0 или 1 (как это иногда делается в компьютерном программировании ).
Фиктивные переменные могут быть распространены на более сложные случаи. Например, сезонные эффекты могут быть учтены путем создания фиктивных переменных для каждого сезона: D1=1, если наблюдение ведется летом, и равно нулю в противном случае; D2=1 тогда и только тогда, когда осень, в противном случае равно нулю; D3=1 тогда и только тогда, когда зима, в противном случае равно нулю; и D4=1 тогда и только тогда, когда пружина, в противном случае равна нулю. В панельных данных фиктивные оценщики фиксированных эффектов создаются для каждой единицы в поперечных данных (например, фирмы или страны) или периодов в объединенном временном ряду . Однако в таких регрессиях либо постоянный член необходимо удалить , либо одну из фиктивных переменных, что сделает ее базовой категорией, по которой оцениваются остальные, по следующей причине:
Если бы были включены фиктивные переменные для всех категорий, их сумма была бы равна 1 для всех наблюдений, что идентично и, следовательно, идеально коррелирует с переменной вектора единиц, коэффициент которой является постоянным членом; если бы также присутствовала переменная вектор единиц, это привело бы к идеальной мультиколлинеарности , [2] так что обращение матрицы в алгоритме оценивания было бы невозможно. Это называется ловушкой фиктивной переменной .
См. также
[ редактировать ]- Бинарная регрессия
- Тест Чоу - математический тест, предложенный Грегори Чоу.
- Проверка гипотез – метод статистического вывода.
- Индикаторная функция – математическая функция, характеризующая принадлежность множества.
- Линейная дискриминантная функция - метод, используемый в статистике, распознавании образов и других областях.
- Мультиколлинеарность - ситуация линейной зависимости в регрессионной модели.
- One-hot - бит-векторное представление, в котором одновременно можно установить только один бит.
Ссылки
[ редактировать ]Дальнейшее чтение
[ редактировать ]- Астериу, Димитриос; Холл, СГ (2015). «Фиктивные переменные». Прикладная эконометрика (3-е изд.). Лондон: Пэлгрейв Макмиллан. стр. 209–230. ISBN 978-1-137-41546-2 .
- Койман, Мариус А. (1976). Фиктивные переменные в эконометрике . Тилбург: Издательство Тилбургского университета. ISBN 90-237-2919-6 .
Внешние ссылки
[ редактировать ]- Маатуис, Марлоэс (2007). «Глава 7: Регрессия с фиктивными переменными» (PDF) . Статистика 423: Прикладная регрессия и дисперсионный анализ . Архивировано из оригинала (PDF) 16 декабря 2011 г.
- Фокс, Джон (2010). «Регрессия с фиктивной переменной» (PDF) .
- Бейкер, Сэмюэл Л. (2006). «Фиктивные переменные» (PDF) . Архивировано из оригинала (PDF) 1 марта 2006 г.