барнардизация
Барнардизация – это метод контроля статистического раскрытия данных для таблиц подсчета. Он предполагает добавление +1, 0 или -1 к некоторым или всем внутренним ненулевым ячейкам таблицы псевдослучайным образом. Вероятность корректировки для каждой внутренней ячейки рассчитывается как p/2 (прибавить 1), 1-p (оставить как есть), p/2 (вычесть 1). Итоговые данные таблицы затем рассчитываются как сумма внутренних подсчетов после корректировок. [1] [2]
Этимология
[ редактировать ]Техника барнардизации, по-видимому, была названа в честь профессора Джорджа Альфреда Барнарда (1915–2002), профессора математики в Университете Эссекса . Барнард, в то время президент Королевского статистического общества, был одним из трех членов, назначенных Советом Королевского статистического общества для оказания помощи в проведении по заказу правительства анализа безопасности данных для переписи населения Великобритании 1971 года. [3] В итоговом отчете ставится вопрос о том, является ли округление небольших чисел до ближайших пяти лучшим подходом к сохранению конфиденциальности респондентов. [3] : для 3.3.8 В официальном ответе правительства на отчет отмечалось, что для переписи 1971 года была введена дополнительная гарантия небольших случайных корректировок, и это предложение они прямо приписали профессору Барнарду, [3] : пункт 4.20 и сноска как и статья New Scientist от июля 1973 года. [4] Немного запутывая ситуацию, в статье 1973 года в Журнале Королевского статистического общества, в которой обсуждалась эта новая гарантия, сообщалось, что «после долгих обсуждений был принят вариант процедуры, предложенный в Канаде». [5] : стр.520 Предположительно, профессор Барнард принимал участие в этих обсуждениях и был изобретателем этого варианта. В любом случае не удалось найти никаких доказательств того, что какая-либо подобная гарантия применялась в Канаде, при этом Статистическое управление Канады, судя по всему, вместо этого придерживается использования случайного округления всех показателей до ближайшего 0 или 5. [6] : стр. 13
Несмотря на то, что метод корректировки, ныне известный как барнардизация, был разработан профессором Барнардом, в документации по переписи 1971 года он был просто описан как «процедура»; [5] «корректировка ценностей»; [7] «специальная процедура»; [1] «процесс внесения случайных ошибок»; [8] или «модификация» или «корректировка». [9] [10]
Самое раннее использование термина «барнардизация», обнаруженное на данный момент в печати, относится к рабочему документу Управления переписей и обследований населения, написанному Хакимом в 1979 году, где этот термин упоминается без цитирования и без приписывания его профессору Г. А. Барнарду. [11] Но в то время появление этого термина Хакимом, похоже, либо широко упускалось из виду, либо широко игнорировалось, по крайней мере, в печати, о чем свидетельствует широкий спектр более поздних публикаций, уже цитированных выше.
Термин «барнардизация», судя по всему, не появлялся в печати до публикации в 1995 году « Справочника для пользователей переписи» Стэна Опеншоу . [12] где он используется двумя отдельными авторами глав и составителем индекса. Однако, по крайней мере, к концу 1980-х годов этот термин уже широко использовался в разговорной речи во время научных конференций и встреч в Великобритании. [13] Совсем недавно термин «барнардизация» прочно укоренился в лексиконе официальных отчетов, составляемых официальными статистическими агентствами Великобритании и другими организациями. [2] [14]
Операционные детали
[ редактировать ]Первоначально задуманная и реализованная в ходе переписи населения Великобритании 1971 года, барнардизация имела дополнительную характеристику объединения таблиц из разных областей и применения равных и противоположных корректировок к двум областям. Например, если значение данной ячейки таблицы в области A увеличилось на 1, то в парной области B значение эквивалентной ячейки таблицы будет уменьшено на 1 (при условии, что значение не станет отрицательным). Целью этого объединения было максимально нейтрализовать количество шума, вносимого в процессе барнардизации на более совокупном уровне. [1]
Для переписи населения Великобритании 1991 года объединение территорий до применения барнардизации было исключено; а для более подробной местной базовой статистики ее объем был расширен и теперь включает корректировки -2, -1, 0, +1 или +2, достигаемые путем двойного применения корректировки +1, 0 или +1. [10]
В Соединенном Королевстве государственные учреждения все чаще стали использовать стернардизацию, чтобы дать им возможность предоставлять информацию для статистических целей, не нарушая права на конфиденциальность информации лиц, к которым относится информация (например, [2] [15] ). В некоторых случаях это потребовало дальнейших изменений в процедуре барндаризации. Например, как было реализовано Агентством общего обслуживания, корректировки -1, 0 или +1 применялись только к счетчикам от 1 до 4, в то время как счетчики 0 вместо того, чтобы оставаться неизменными, корректировались путем добавления 0 или +. 1. [15] : за 16
Плюсы и минусы
[ редактировать ]Обзор методов контроля раскрытия статистической информации в преддверии переписи населения Великобритании 2011 года. [14] определил следующий список плюсов и минусов барнардизации с точки зрения поставщика данных:
Преимущества
- Легко понять
- Легко реализовать
- Итоговые значения таблицы соответствуют внутренним значениям ячеек.
- Корректировка является несмещенной
Недостатки
- Приводит к несогласованным значениям для одних и тех же чисел ячеек и итогов таблицы, если они присутствуют в двух или более раздельных таблицах.
- Корректировку можно отменить путем дифференцирования, если доступны другие таблицы, которые имеют одинаковые значения или итоги или которые предоставляют нескорректированный итог для более крупной пространственной области, в пределах которой вложены структурированные таблицы.
- Вероятность используемой корректировки обычно невелика, а это означает, что многие значения ячеек остаются некорректированными.
С точки зрения пользователя, еще одним преимуществом барнардизации является то, что она оказывает меньшее влияние на типичный пользовательский анализ, чем следующие меры контроля статистического раскрытия информации: случайное округление до пятерки; как используется Статистическим управлением Канады ; случайное округление до основания 3, используемое Статистическим управлением Новой Зеландии ; и корректировка малых ячеек, которая использовалась в различные моменты времени Управлением национальной статистики и Австралийским статистическим бюро . [16]
Эффективность переоценена
[ редактировать ]С конца 1990-х годов опасения по поводу эффективности барнардизации в защите конфиденциальности возросли до такой степени, что теперь ее больше не рекомендуют как инструмент, к которому можно прибегнуть, а скорее как метод, который можно использовать только в особых обстоятельствах. Это изменение в отношении, по-видимому, связано с относительно высокой вероятностью того, что барнардизация оставит небольшое количество (в частности, 1) нескорректированным. [2] [15] и, во-вторых, опасности обратного проектирования исходного значения, если будет выпущено достаточное количество перекрывающихся барнаризованных таблиц. [14] По этим и другим причинам переписи населения Великобритании, начиная с 2001 года, отказались от использования барнардизации. См. у Спайсера хороший обзор принятых в 2001, 2011 и 2021 годах альтернатив барнардизации, а также обоснование этого. [17]
вопрос о том, может ли стернизация не соответствовать полной анонимности данных, а также статус стернардизированных данных в соответствии со сложными положениями Закона о защите данных 1998 года рассмотрел Комиссар по информации Шотландии . Некоторые аспекты первоначального решения комиссара были отменены по апелляции в Палате лордов, и комиссару было предложено пересмотреть свое первоначальное решение. Окончательное решение Комиссара постановило, что стернизация обеспечивает недостаточную защиту от раскрытия редких событий (в данном случае детской лейкемии), частично отменив его первоначальное решение: «Само по себе стернардизация данных может привести к идентификации, и [...] Влияние барнардизации на фактические цифры, по крайней мере, как это утверждает CSA, не приводит к сокрытию или маскировке данных, которые, как он [Комиссар] изначально предполагал, будут иметь эффект». [15] : за 20 Однако в своем письменном решении комиссар не представил никакого статистического обоснования этого утверждения. Вместо этого решение Комиссара было сосредоточено в основном на рассмотрении вопросов права, касающихся характера исходных и зашифрованных данных, а также того, как это связано с юридическими определениями (конфиденциальных) персональных данных.
Ссылки
[ редактировать ]- ^ Jump up to: а б с Ньюман, Деннис (1978). Методы обеспечения конфиденциальности информации переписи населения в Великобритании (Особый доклад, 4-е изд.). Отдел переписи населения, OPCS.
- ^ Jump up to: а б с д УНС (2006). Обзор распространения статистики здравоохранения: рекомендации по конфиденциальности (PDF) (Рабочий документ 3: Управление рисками под ред.). Управление национальной статистики.
- ^ Jump up to: а б с Мур, П.Г. (1973). « Безопасность переписи населения» . Журнал Королевского статистического общества. Серия А (Общая) . 136 (4): 583–596. дои : 10.2307/2344751 . JSTOR 2344751 .
- ^ Новый учёный (1973). «Данные переписи населения не так уж и секретны». Новый учёный (19 июля): 142.
- ^ Jump up to: а б Джонс, HJM; Лоусон, HB; Ньюман, Д. (1973). «Перепись населения: последние британские разработки в методологии» . Королевское статистическое общество. Серия А (Общая) . 136 (4): 505–538. дои : 10.2307/2344749 . JSTOR 2344749 . S2CID 133740484 . Проверено 16 мая 2022 г.
- ^ Статистическое управление Канады (1974 год). Перепись 1971 года в Канаде: население: т.е. I - часть 1 (PDF) (Введение к тому I (часть 1) изд.). Оттава: Статистическое управление Канады . Проверено 16 мая 2022 г.
- ^ Ринд, Д.В. (1975). Географический анализ и картирование данных переписи населения Великобритании 1971 года, Рабочий документ 3 . Кафедра географии Даремского университета: Отдел исследований переписи населения.
- ^ Хаким, Кэтрин (1978). Конфиденциальность переписи, микроданные и анализ переписи (Случайный документ, 3-е изд.). Отдел переписи населения, OPCS.
- ^ Дж. К. Дьюдни (1983). «Переписи прошлого и настоящего». В Ринд, Д.В. (ред.). Справочник пользователя переписи населения . Лондон: Метуэн. стр. 1–16.
- ^ Jump up to: а б Марш (1993). «Конфиденциальность, конфиденциальность и анонимность в переписи 1991 года». В Дейле, А; Марш, К. (ред.). Руководство пользователя переписи населения 1991 года . Лондон: HMSO. стр. 129–154. ISBN 0-11-691527-7 .
- ^ Хаким, Кэтрин (1979). «Конфиденциальность переписи населения в Великобритании». В Балмере, М. (ред.). Переписи населения, опросы и конфиденциальность . Лондон: Пэлгрейв. стр. 132–157. дои : 10.1007/978-1-349-16184-3_10 . ISBN 978-0-333-26223-8 .
- ^ Опеншоу, Стэн (1995). Справочник для пользователей переписи населения . Кембридж: Пирсон. ISBN 1-899761-06-3 .
- ^ Уильямсон, Пол (2022). «Личное общение». Кафедра географии и планирования Ливерпульского университета .
- ^ Jump up to: а б с Подгруппа SDC UKCDMAC. «Методы контроля раскрытия статистической информации (SDC) вошли в шорт-лист табличных результатов переписи населения Великобритании 2011 года, документ 1» (PDF) . Управление национальной статистики . Проверено 16 мая 2022 г.
- ^ Jump up to: а б с д Комиссар по информации Шотландии (2010 г.). «Решение 021/2005 г-на Майкла Колли и Агентства общих служб Шотландской службы здравоохранения. Статистика детского лейкоза в Дамфрисе и Галлоуэе» (PDF) . Проверено 16 мая 2022 г.
- ^ Уильямсон, Пол (2007). «Влияние корректировки ячеек на анализ совокупных данных переписи». Окружающая среда и планирование А . 39 (5): 1058–1078. дои : 10.1068/a38142 . S2CID 154653446 .
- ^ Спайсер, К. EAP125 «Контроль раскрытия статистических данных (SDC) для переписи населения 2021 года» . Титчфилд: Управление национальной статистики . Проверено 16 мая 2022 г. [ дата отсутствует ]