Топ-кодированный
В эконометрике и статистике наблюдение за данными с верхним кодированием точки данных, значения которых превышают верхнюю границу — это наблюдение, для которого цензурируются .
Данные опросов часто кодируются перед публикацией, чтобы сохранить анонимность респондентов. Например, если в ответе на опрос сообщается, что респондент оценивает свое состояние в 79 миллиардов долларов, он не будет анонимным, поскольку люди будут знать, что есть большая вероятность, что респондентом был Билл Гейтс . Также можно применять верхнее кодирование, чтобы предотвратить возможных ошибочных выбросов публикацию .
Нижнее кодирование аналогично, например, если суммы ниже нуля сообщаются как ноль. Верхнее кодирование происходит для данных, записанных в группах, например, если в этих группах указаны возрастные диапазоны: 0–20, 21–50, 50–99, 100 и старше. Здесь мы знаем только количество людей в возрасте старше 100 лет, а не их распределение. Производители данных опросов иногда публикуют среднее значение подвергнутых цензуре сумм, чтобы помочь пользователям получить объективные оценки верхней группы.
Пример: Топ-кодирование дохода в размере 30 000 долларов США.
[ редактировать ]идентификатор | возраст | фактическое богатство | переменная богатства в наборе данных |
---|---|---|---|
1 | 26 | 24,778 | 24,778 |
2 | 32 | 26,750 | 26,750 |
3 | 45 | 26,780 | 26,780 |
4 | 64 | 35,469 | 30000+ |
5 | 27 | 43,695 | 30000+ |
Топ-кодирование является общей проблемой анализа наборов данных общего пользования. Топ-кодирование в Текущем обследовании населения затрудняет оценку показателей неравенства доходов, поскольку форма распределения высоких доходов блокируется. Чтобы помочь решить эту проблему, CPS предоставляет среднее значение значений с верхним кодированием. [1]
Практика топ-кодирования или ограничения максимальной суммы, указанной в налоговых декларациях, для защиты анонимности получателя усложняет анализ распределения богатства в Соединенных Штатах. [2]
Последствия для обычной оценки методом наименьших квадратов
[ редактировать ]- Если нижняя граница группы с верхним кодированием используется в качестве значения регрессора (30 000 в приведенном выше примере), МНК является смещенным и непоследовательным, поскольку самые высокие значения регрессора сообщаются с систематической ошибкой.
- Наблюдения с верхним кодированием можно полностью исключить из регрессии. При условии отсутствия систематических различий между исключенной группой и включенными группами, МНК является последовательным и объективным.
- Процедура Тобита устойчива к верхнему кодированию и дает несмещенные оценки.
См. также
[ редактировать ]Дальнейшее чтение
[ редактировать ]- Дженкинс С.П., Буркхаузер Р.В., Фенг С. и Ларримор Дж. (2009). Измерение неравенства с использованием цензурированных данных: подход множественного вменения , Серия рабочих документов ISER 2009-04, Институт социальных и экономических исследований.
Ссылки
[ редактировать ]- ^ Ларримор, Джефф, Ричард В. Буркхаузер, Шуайчжан Фэн и Лаура Заяц . 2008. Согласованные средние значения ячеек для топкодированных доходов в публичном использовании, мартовская CPS (1976-2007). Журнал экономических и социальных измерений 33 (2-3)
- ^ Хакер, Джейкоб С. и Пол Пирсон (2010). Политика «победитель получает все»: как Вашингтон сделал богатых еще богаче и отвернулся от среднего класса . Саймон и Шустер. стр. 13 . ISBN 978-1-4165-8869-6 .