Панельные данные
![]() | Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( июнь 2020 г. ) |
В статистике и эконометрике . панельные и продольные данные [ 1 ] [ 2 ] оба являются многомерными данными, включающими измерения во времени. Панельные данные — это подмножество продольных данных, в которых наблюдения каждый раз проводятся для одних и тех же субъектов.
Временные ряды и перекрестные данные можно рассматривать как особые случаи панельных данных, которые представлены только в одном измерении (один член панели или отдельное лицо для первого, один момент времени для второго). Поиск литературы часто включает в себя временные ряды, перекрестные или панельные данные. Межпанельные данные (CPD) — это инновационный, но недооцененный источник информации в математических и статистических науках. CPD выделяется среди других методов исследования, поскольку наглядно иллюстрирует, как независимые и зависимые переменные могут меняться между странами. Этот сбор панельных данных позволяет исследователям изучать связь между переменными в нескольких разрезах и периодах времени, а также анализировать результаты политических действий в других странах. [ 3 ]
Исследование, в котором используются панельные данные, называется лонгитюдным или панельным исследованием.
Пример
[ редактировать ]человек | год | доход | возраст | секс |
---|---|---|---|---|
1 | 2016 | 1300 | 27 | 1 |
1 | 2017 | 1600 | 28 | 1 |
1 | 2018 | 2000 | 29 | 1 |
2 | 2016 | 2000 | 38 | 2 |
2 | 2017 | 2300 | 39 | 2 |
2 | 2018 | 2400 | 40 | 2 |
человек | год | доход | возраст | секс |
---|---|---|---|---|
1 | 2016 | 1600 | 23 | 1 |
1 | 2017 | 1500 | 24 | 1 |
2 | 2016 | 1900 | 41 | 2 |
2 | 2017 | 2000 | 42 | 2 |
2 | 2018 | 2100 | 43 | 2 |
3 | 2017 | 3300 | 34 | 1 |
В приведенном выше примере процедуры перестановки множественных ответов ( MRPP ) показаны два набора данных с панельной структурой, и цель состоит в том, чтобы проверить, существует ли значительная разница между людьми в выборочных данных. Индивидуальные характеристики (доход, возраст, пол) собираются для разных лиц и разных лет. В первом наборе данных два человека (1, 2) наблюдаются каждый год в течение трех лет (2016, 2017, 2018). Во втором наборе данных три человека (1, 2, 3) наблюдаются два раза (человек 1), три раза (человек 2) и один раз (человек 3) соответственно в течение трех лет (2016, 2017, 2018). ; в частности, человек 1 не наблюдается в 2018 году, а человек 3 не наблюдается в 2016 или 2018 году.
Сбалансированная панель (например, первый набор данных выше) — это набор данных, в котором каждый член панели (т. е. человек) наблюдается каждый год. Следовательно, если сбалансированная панель содержит члены комиссии и периоды, количество наблюдений ( ) в наборе данных обязательно .
Несбалансированная панель (например, второй набор данных выше) — это набор данных, в котором хотя бы один член панели не наблюдается каждый период. Поэтому, если несбалансированная панель содержит члены комиссии и периодов, то для числа наблюдений ( ) в наборе данных: .
Оба набора данных выше структурированы в длинном формате , где одна строка содержит одно наблюдение за раз. Другим способом структурирования панельных данных может быть широкий формат , где одна строка представляет одну единицу наблюдения для всех моментов времени (например, широкий формат будет иметь только две (первый пример) или три (второй пример) строки данных с дополнительными столбцы для каждой изменяющейся во времени переменной (доход, возраст).
Анализ
[ редактировать ]Панель имеет вид
где это индивидуальное измерение и это измерение времени. Общая модель регрессии панельных данных записывается как . Можно сделать различные предположения о точной структуре этой общей модели. Двумя важными моделями являются модель с фиксированными эффектами и модель со случайными эффектами .
Рассмотрим общую модель панельных данных:
являются индивидуальными, не зависящими от времени эффектами (например, в группе стран это могут быть географические, климатические и т. д.), которые фиксируются во времени, тогда как представляет собой изменяющуюся во времени случайную составляющую.
Если не наблюдается и коррелирует по крайней мере с одной из независимых переменных, то это вызовет смещение пропущенной переменной в стандартной регрессии OLS . методы панельных данных, такие как оценщик фиксированных эффектов или, альтернативно, оценщик первой разности Однако для управления им можно использовать .
Если не коррелирует ни с одной из независимых переменных, для получения несмещенных и последовательных оценок параметров регрессии можно использовать обычные методы линейной регрессии наименьших квадратов. Однако, поскольку фиксирован с течением времени, это вызовет серийную корреляцию в ошибочном члене регрессии. Это означает, что доступны более эффективные методы оценки. Случайные эффекты — один из таких методов: это частный случай допустимого метода обобщенных наименьших квадратов , который контролирует структуру серийной корреляции, индуцированной .
Данные динамической панели
[ редактировать ]Данные динамической панели описывают случай, когда запаздывание в качестве регрессора используется зависимой переменной:
Наличие лагированной зависимой переменной нарушает строгую экзогенность , то есть может возникнуть эндогенность . Как оценка фиксированного эффекта, так и оценка первых разностей основаны на предположении о строгой экзогенности. Следовательно, если Считается, что она коррелирует с одной из независимых переменных, необходимо использовать альтернативный метод оценки. В этой ситуации обычно используются инструментальные переменные или методы GMM, такие как оценщик Арельяно-Бонда . Оценивая это, мы должны иметь правильную информацию об инструментальных переменных.
Наборы данных, имеющие панельную конструкцию
[ редактировать ]- Немецкая социально-экономическая группа (SOEP)
- Исследование динамики домохозяйств, доходов и труда в Австралии (HILDA)
- Британское панельное обследование домохозяйств (BHPS)
- Исследование доходов и участия в программах (SIPP)
- База данных рынка труда на протяжении всей жизни (LLMDB)
- Панельное исследование динамики доходов (PSID)
- Китайские панельные исследования семей (CFPS)
- Национальные продольные исследования (NLSY)
- Обследование рабочей силы (ОРС)
Наборы данных, имеющие многомерную панельную структуру
[ редактировать ]Примечания
[ редактировать ]- ^ Диггл, Питер Дж.; Хигерти, Патрик; Лян, Кунг-Йи; Зегер, Скотт Л. (2002). Анализ продольных данных (2-е изд.). Издательство Оксфордского университета. п. 2 . ISBN 0-19-852484-6 .
- ^ Фицморис, Гаррет М.; Лэрд, Нэн М.; Уэр, Джеймс Х. (2004). Прикладной продольный анализ . Хобокен: Джон Уайли и сыновья. п. 2. ISBN 0-471-21487-6 .
- ^ Заман, Халид (24 января 2023 г.). «Заметки о методах работы с кросс-панельными данными» . Последние разработки в эконометрике . 1 (1): 1–7. дои : 10.5281/zenodo.7565625 .
Ссылки
[ редактировать ]- Балтаги, Бади Х. (2008). Эконометрический анализ панельных данных (Четвертое изд.). Чичестер: Джон Уайли и сыновья. ISBN 978-0-470-51886-1 .
- Дэвис, А.; Лахири, К. (1995). «Новая основа для проверки рациональности и измерения совокупных шоков с использованием панельных данных». Журнал эконометрики . 68 (1): 205–227. дои : 10.1016/0304-4076(94)01649-К .
- Дэвис, А.; Лахири, К. (2000). «Пересмотр гипотезы рациональных ожиданий с использованием панельных данных многопериодных прогнозов». Анализ панелей и моделей с ограниченными зависимыми переменными . Кембридж: Издательство Кембриджского университета. стр. 226–254. ISBN 0-521-63169-6 .
- Фрис, Э. (2004). Продольные и панельные данные: анализ и приложения в социальных науках . Нью-Йорк: Издательство Кембриджского университета. ISBN 0-521-82828-7 .
- Сяо , Ченг (2003). Анализ панельных данных (второе изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 0-521-52271-4 .