Топ-кодированный

В эконометрике и статистике наблюдение за данными с верхним кодированием точки данных, значения которых превышают верхнюю границу — это наблюдение, для которого цензурируются .

Данные опросов часто кодируются перед публикацией, чтобы сохранить анонимность респондентов. Например, если в ответе на опрос сообщается, что респондент оценивает свое состояние в 79 миллиардов долларов, он не будет анонимным, поскольку люди будут знать, что есть большая вероятность, что респондентом был Билл Гейтс . Также можно применять верхнее кодирование, чтобы предотвратить возможных ошибочных выбросов публикацию .

Нижнее кодирование аналогично, например, если суммы ниже нуля сообщаются как ноль. Верхнее кодирование происходит для данных, записанных в группах, например, если в этих группах указаны возрастные диапазоны: 0–20, 21–50, 50–99, 100 и старше. Здесь мы знаем только количество людей в возрасте старше 100 лет, а не их распределение. Производители данных опросов иногда публикуют среднее значение подвергнутых цензуре сумм, чтобы помочь пользователям получить объективные оценки верхней группы.

Пример: Топ-кодирование дохода в размере 30 000 долларов США.

идентификатор	возраст	фактическое богатство	переменная богатства в наборе данных
1	26	24,778	24,778
2	32	26,750	26,750
3	45	26,780	26,780
4	64	35,469	30000+
5	27	43,695	30000+

Топ-кодирование является общей проблемой анализа наборов данных общего пользования. Топ-кодирование в Текущем обследовании населения затрудняет оценку показателей неравенства доходов, поскольку форма распределения высоких доходов блокируется. Чтобы помочь решить эту проблему, CPS предоставляет среднее значение значений с верхним кодированием. ^[1]

Практика топ-кодирования или ограничения максимальной суммы, указанной в налоговых декларациях, для защиты анонимности получателя усложняет анализ распределения богатства в Соединенных Штатах. ^[2]

Последствия для обычной оценки методом наименьших квадратов

Если нижняя граница группы с верхним кодированием используется в качестве значения регрессора (30 000 в приведенном выше примере), МНК является смещенным и непоследовательным, поскольку самые высокие значения регрессора сообщаются с систематической ошибкой.
Наблюдения с верхним кодированием можно полностью исключить из регрессии. При условии отсутствия систематических различий между исключенной группой и включенными группами, МНК является последовательным и объективным.
Процедура Тобита устойчива к верхнему кодированию и дает несмещенные оценки.

См. также

Дальнейшее чтение

Дженкинс С.П., Буркхаузер Р.В., Фенг С. и Ларримор Дж. (2009). Измерение неравенства с использованием цензурированных данных: подход множественного вменения , Серия рабочих документов ISER 2009-04, Институт социальных и экономических исследований.

Ссылки

^ Ларримор, Джефф, Ричард В. Буркхаузер, Шуайчжан Фэн и Лаура Заяц . 2008. Согласованные средние значения ячеек для топкодированных доходов в публичном использовании, мартовская CPS (1976-2007). Журнал экономических и социальных измерений 33 (2-3)
^ Хакер, Джейкоб С. и Пол Пирсон (2010). Политика «победитель получает все»: как Вашингтон сделал богатых еще богаче и отвернулся от среднего класса . Саймон и Шустер. стр. 13 . ISBN 978-1-4165-8869-6 .

Эта эконометрике, статья, посвященная незавершена . Вы можете помочь Википедии, расширив ее .

[1] Ларримор, Джефф, Ричард В. Буркхаузер, Шуайчжан Фэн и Лаура Заяц . 2008. Согласованные средние значения ячеек для топкодированных доходов в публичном использовании, мартовская CPS (1976-2007). Журнал экономических и социальных измерений 33 (2-3)

[2] Хакер, Джейкоб С. и Пол Пирсон (2010). Политика «победитель получает все»: как Вашингтон сделал богатых еще богаче и отвернулся от среднего класса . Саймон и Шустер. стр. 13 . ISBN 978-1-4165-8869-6 .

[1]

[2]