Фиктивная переменная (статистика)

В регрессионном анализе фиктивная переменная (также известная как индикаторная переменная или просто фиктивная переменная ) — это переменная, которая принимает двоичное значение (0 или 1), чтобы указать на отсутствие или присутствие некоторого категориального эффекта, который, как можно ожидать, может изменить результат. ^[1] Например, если бы мы изучали взаимосвязь между биологическим полом и доходом , мы могли бы использовать фиктивную переменную, чтобы представить пол каждого человека в исследовании. Переменная может принимать значение 1 для мужчин и 0 для женщин (или наоборот). В машинном обучении это известно как горячее кодирование .

Фиктивные переменные обычно используются в регрессионном анализе для представления категориальных переменных, имеющих более двух уровней, таких как уровень образования или род занятий. В этом случае будет создано несколько фиктивных переменных для представления каждого уровня переменной, и только одна фиктивная переменная будет принимать значение 1 для каждого наблюдения. Фиктивные переменные полезны, поскольку позволяют нам включать в наш анализ категориальные переменные, которые в противном случае было бы трудно включить из-за их нечисловой природы. Они также могут помочь нам контролировать мешающие факторы и повысить достоверность наших результатов.

Как и любое добавление переменных в модель, добавление фиктивных переменных увеличит соответствие модели внутри выборки ( коэффициент детерминации ), но за счет меньшего количества степеней свободы и потери общности модели (модель вне выборки). соответствовать). Слишком большое количество фиктивных переменных приводит к тому, что модель не дает каких-либо общих выводов.

Фиктивные переменные полезны в различных случаях. Например, в эконометрическом анализе временных рядов фиктивные переменные могут использоваться для обозначения возникновения войн или крупных забастовок . Таким образом, его можно рассматривать как логическое значение , т. е. значение истинности , представленное в виде числового значения 0 или 1 (как это иногда делается в компьютерном программировании ).

Фиктивные переменные могут быть распространены на более сложные случаи. Например, сезонные эффекты могут быть учтены путем создания фиктивных переменных для каждого сезона: D1=1, если наблюдение ведется летом, и равно нулю в противном случае; D2=1 тогда и только тогда, когда осень, в противном случае равно нулю; D3=1 тогда и только тогда, когда зима, в противном случае равно нулю; и D4=1 тогда и только тогда, когда пружина, в противном случае равна нулю. В панельных данных фиктивные оценщики фиксированных эффектов создаются для каждой единицы в поперечных данных (например, фирмы или страны) или периодов в объединенном временном ряду . Однако в таких регрессиях либо постоянный член необходимо удалить , либо одну из фиктивных переменных, что сделает ее базовой категорией, по которой оцениваются остальные, по следующей причине:

Если бы были включены фиктивные переменные для всех категорий, их сумма была бы равна 1 для всех наблюдений, что идентично и, следовательно, идеально коррелирует с переменной вектора единиц, коэффициент которой является постоянным членом; если бы также присутствовала переменная вектор единиц, это привело бы к идеальной мультиколлинеарности , ^[2] так что обращение матрицы в алгоритме оценивания было бы невозможно. Это называется ловушкой фиктивной переменной .

См. также

Бинарная регрессия
Тест Чоу - математический тест, предложенный Грегори Чоу.
Проверка гипотез – метод статистического вывода.
Индикаторная функция – математическая функция, характеризующая принадлежность множества.
Линейная дискриминантная функция - метод, используемый в статистике, распознавании образов и других областях.
Мультиколлинеарность - ситуация линейной зависимости в регрессионной модели.
One-hot - бит-векторное представление, в котором одновременно можно установить только один бит.

Ссылки

^ Дрейпер, Северная Каролина; Смит, Х. (1998) Прикладной регрессионный анализ , Wiley. ISBN 0-471-17082-8 (глава 14)
^ Костюмы, Дэниел Б. (1957). «Использование фиктивных переменных в уравнениях регрессии». Журнал Американской статистической ассоциации . 52 (280): 548–551. JSTOR 2281705 .

Дальнейшее чтение

Астериу, Димитриос; Холл, СГ (2015). «Фиктивные переменные». Прикладная эконометрика (3-е изд.). Лондон: Пэлгрейв Макмиллан. стр. 209–230. ISBN 978-1-137-41546-2 .
Койман, Мариус А. (1976). Фиктивные переменные в эконометрике . Тилбург: Издательство Тилбургского университета. ISBN 90-237-2919-6 .

Внешние ссылки

Маатуис, Марлоэс (2007). «Глава 7: Регрессия с фиктивными переменными» (PDF) . Статистика 423: Прикладная регрессия и дисперсионный анализ . Архивировано из оригинала (PDF) 16 декабря 2011 г.
Фокс, Джон (2010). «Регрессия с фиктивной переменной» (PDF) .
Бейкер, Сэмюэл Л. (2006). «Фиктивные переменные» (PDF) . Архивировано из оригинала (PDF) 1 марта 2006 г.

[1] Дрейпер, Северная Каролина; Смит, Х. (1998) Прикладной регрессионный анализ , Wiley. ISBN 0-471-17082-8 (глава 14)

[2] Костюмы, Дэниел Б. (1957). «Использование фиктивных переменных в уравнениях регрессии». Журнал Американской статистической ассоциации . 52 (280): 548–551. JSTOR 2281705 .

[1]

[2]