Статистический контроль раскрытия информации
Контроль раскрытия статистических данных ( SDC ), также известный как ограничение раскрытия статистических данных ( SDL ) или предотвращение раскрытия информации , представляет собой метод, используемый в исследованиях, основанных на данных, чтобы гарантировать, что ни одно лицо или организация не может быть идентифицирована по результатам анализа опросов или административных данных, или в выпуске микроданных . Целью SDC является защита конфиденциальности респондентов и субъектов исследования. [1]
SDC обычно означает «выходной SDC»; обеспечение того, чтобы, например, опубликованная таблица или график не раскрывали конфиденциальную информацию о респондентах. SDC также может описывать методы защиты, применяемые к данным: например, удаление имен и адресов, ограничение экстремальных значений или замену проблемных наблюдений. Иногда это называют «входным SDC», но чаще называют анонимизацией , деидентификацией или защитой микроданных.
Учебники (например [2] ) обычно охватывают входной SDC и защиту табличных данных (но не другие части выходного SDC). Это связано с тем, что эти две проблемы представляют прямой интерес для статистических агентств, которые поддерживали развитие этой области. [3] В аналитических средах обычно использовались правила вывода, разработанные для статистических агентств, до тех пор, пока менеджеры данных не начали выступать за конкретные выходные данные SDC для исследований. [4]
На этой странице основное внимание уделяется выходному SDC.
Необходимость
[ редактировать ]Многие виды социальных , экономических и медицинских исследований используют потенциально конфиденциальные данные в качестве основы для своих исследований, такие как данные опросов или переписи населения , налоговые отчеты, медицинские записи, образовательная информация и т. д. Такая информация обычно предоставляется конфиденциально и в тайне. случае административных данных , не всегда с целью исследования.
Исследователей обычно не интересует информация об одном человеке или бизнесе; они ищут тенденции среди более крупных групп людей. [5] Однако данные, которые они используют, в первую очередь связаны с отдельными людьми и предприятиями, и SDC гарантирует, что их невозможно идентифицировать на основе опубликованных данных, какими бы подробными или широкими они ни были. [6]
Вполне возможно, что в конце анализа данных исследователь каким-то образом в ходе своего исследования выделит одного человека или компанию. Например, исследователь может определить исключительно хорошее или плохое обслуживание в гериатрическом отделении больницы в отдаленном районе, где только одна больница предоставляет такую помощь. В этом случае анализ данных «раскрывает» личность больницы, даже если набор данных, используемый для анализа, был должным образом анонимизирован или деидентифицирован.
Статистический контроль раскрытия информации позволит выявить риск раскрытия информации и обеспечить изменение результатов анализа для защиты конфиденциальности. [7] Это требует баланса между защитой конфиденциальности и обеспечением того, чтобы результаты анализа данных по-прежнему были полезны для статистических исследований . [8]
Выходные данные SDC: статистические модели
[ редактировать ]SDC вывода опирается на наличие набора правил, которым может следовать средство проверки вывода; например, что таблица частот должна содержать минимальное количество наблюдений или что таблицы выживаемости должны подвергаться цензуре справа для экстремальных значений. Ценность и недостатки правил для таблиц частот и величин широко обсуждаются с конца 20 века. Однако с учетом растущей потребности в правилах для других типов анализа необходим более структурированный подход.
Статистика «безопасных» и «небезопасных»
[ редактировать ]Некоторые статистические данные, такие как таблицы частот, имеют высокий уровень неотъемлемого риска: дифференциация, низкие цифры, раскрытие классов. Поэтому перед публикацией их необходимо проверить, в идеале — кем-то, кто имеет некоторое представление о данных, чтобы убедиться в отсутствии значимого риска при публикации. Их называют «небезопасной статистикой». Однако есть некоторые статистические данные, такие как коэффициенты моделирования, которые не несут значимого риска и поэтому могут быть опубликованы без дальнейших проверок. Это называется «безопасной статистикой». Разделив статистику на «безопасную» и «небезопасную», проверки выходных данных можно сосредоточить на последней, что повышает как безопасность, так и эффективность. [4]
Это менее важно для официальной статистики, где в выходных данных доминируют «небезопасные» статистические данные, такие как подсчеты, средние значения, медианы и простые индексы. Однако для результатов исследований это важно, поскольку значительная часть результатов исследований (особенно оценки и статистика испытаний) по своей сути «безопасна».
Статистические амбары или статбарны
[ редактировать ]Модель «безопасный/небезопасный» полезна, но ограничена двумя простыми категориями; внутри этих категорий рекомендации для SDC в основном состоят из длинных списков статистических данных и способов их обработки. В 2023 году проект SACRO https://dareuk.org.uk/driver-project-sacro/ предпринял попытку проанализировать всю область и посмотреть, можно ли ввести более полезную схему классификации. Результатом является концепция «статистического амбара» (или «статистического амбара»).
Statbarn — это классификация статистики для целей контроля раскрытия информации, при которой все статистические данные этого класса имеют одни и те же характеристики в отношении контроля раскрытия информации:
- их математическая форма аналогична
- они разделяют одинаковые риски
- они одинаково реагируют на эти риски
- правила проверки вывода применимы ко всем
По состоянию на март 2024 года было выявлено 14 статбарнов, 12 из которых описаны для средств проверки вывода: [9]
- частоты
- статистические проверки гипотез
- коэффициенты ассоциации
- позиция (медиана, IQR и т. д.)
- крайние значения (макс, мин)
- форма
- линейные агрегаты
- режим
- нелинейные коэффициенты концентрации
- коэффициенты шансов и рисков
- таблицы выживания
- Коэффициенты Джини
Они охватывают почти всю статистику. Они также охватывают большинство форм графиков, где график можно преобразовать в соответствующую панель статистики (например, круговая диаграмма — это еще одна форма таблицы частот). Руководство SACRO содержит рекомендации о том, на что следует обратить внимание, а также правила, которым необходимо следовать при проверке.
Выходные SDC: операционные модели
[ редактировать ]Существует два основных подхода к выводу SDC: основанный на принципах и основанный на правилах. [10] В системах, основанных на принципах, контроль раскрытия информации пытается поддерживать определенный набор фундаментальных принципов, например, «ни одно лицо не должно быть идентифицировано в опубликованных микроданных». [11] Системы, основанные на правилах, напротив, подтверждаются конкретным набором правил, которым следует лицо, осуществляющее контроль раскрытия информации (например, «любая частота должна быть основана как минимум на пяти наблюдениях»), после чего данные считаются безопасными. освободить. В целом официальная статистика основана на правилах; исследовательская среда с большей вероятностью будет основана на принципах.
В исследовательской среде выбор режима проверки результатов может иметь значительные эксплуатационные последствия. [12]
SDC на основе правил
[ редактировать ]В SDC на основе правил используется жесткий набор правил, определяющий, можно ли публиковать результаты анализа данных. Правила применяются последовательно, что делает очевидным, какие виды результатов являются приемлемыми. Системы, основанные на правилах, хороши для обеспечения согласованности во времени, между источниками данных и между производственными группами, что делает их привлекательными для статистических агентств. [12] Системы, основанные на правилах, также хорошо работают для удаленной работы, такие как microdata.no или Lissy .
Однако, поскольку правила негибкие, либо раскрывающая информация все же может ускользнуть, либо правила являются чрезмерно ограничительными и могут разрешать только результаты, которые слишком широки для публикации полезного анализа. [10] На практике исследовательским средам, в которых используются системы, основанные на правилах, возможно, придется привнести гибкость в «специальные» системы. [12]
Агентство статистики и исследований Северной Ирландии (NISRA) использует основанный на правилах подход к публикации статистических данных и результатов исследований. [13]
SDC, основанный на принципах
[ редактировать ]В SDC, основанном на принципах, как исследователь, так и проверяющий результаты проходят обучение в SDC. Они получают набор правил, которые представляют собой практические правила, а не жесткие правила, как в SDC, основанном на правилах. Это означает, что в принципе любой результат может быть одобрен или отклонен. Эмпирические правила являются отправной точкой для исследователя. Исследователь может запросить результаты, нарушающие «практические правила», при условии, что (1) они не разглашают информацию, (2) они важны и (3) это исключительный запрос. [14] Исследователь должен доказать, что любые «небезопасные» результаты не разглашают информацию, но последнее слово остается за проверяющим. Поскольку жестких правил нет, это требует знаний о рисках раскрытия информации и здравого смысла как со стороны исследователя, так и со стороны проверяющего. Это требует подготовки и понимания статистики и анализа данных. [10] хотя это утверждалось [12] что это можно использовать, чтобы сделать процесс более эффективным, чем модель, основанная на правилах.
В Великобритании все основные безопасные исследовательские среды в области социальных наук и общественного здравоохранения, за исключением Северной Ирландии, основаны на принципах. Сюда входит Служба безопасных данных Службы данных Великобритании , [15] Служба безопасных исследований Управления национальной статистики , Шотландские безопасные гавани, Secure Anonymized Information Linkage (SAIL) и OpenSAFELY .
Критика
[ редактировать ]Было показано, что многие современные методы контроля раскрытия статистических данных, такие как обобщение и подавление ячеек, уязвимы для атак со стороны гипотетического злоумышленника данных. Например, в 2009 году Кокс показал, что подавление комплементарных клеток обычно приводит к «чрезмерно защищенным» решениям из-за необходимости подавлять как первичные, так и комплементарные клетки, и даже в этом случае может привести к компрометации конфиденциальных данных, когда сообщаются точные интервалы. [16]
Многие правила носят произвольный характер и отражают нежелание владельцев данных отличаться от других, а не убедительные доказательства. Например, Ричи [17] продемонстрировали, что выбор минимального порога больше зависит от желания организации соответствовать другим, чем от какого-либо статистического обоснования.
Более существенная критика заключается в том, что теоретические модели, используемые для изучения мер контроля, не подходят для руководства к практическим действиям. [18] Хафнер и др. приводят практический пример того, как изменение точки зрения может привести к существенно отличающимся результатам. [3]
Выходные модели SDC и AI
[ редактировать ]Модели искусственного интеллекта и машинного обучения представляют разные риски для проверки выходных данных. [19] Проект GRAIMATTER https://dareuk.org.uk/sprint-examplar-project-graimatter/ предоставил некоторые первоначальные рекомендации и автоматические инструменты. Они были расширены и упрощены в рамках проекта SACRO (см. ниже), а также добавлены дополнительные рекомендации для сотрудников служб обработки данных. Это по-прежнему быстро развивающаяся область. Сеть сообщества SDC-REBOOT https://www.jiscmail.ac.uk/cgi-bin/webadmin?A0=SDC-REBOOT в настоящее время координирует текущую разработку инструментов и руководств.
Автоматизированные инструменты
[ редактировать ]Проверка выходных данных, как правило, трудоемка, поскольку требует наличия аналитиков, которые могут понять, на что они смотрят, и принять решение о том, публиковать ли выходные данные. Поэтому существует значительный интерес к автоматизированной проверке. Отчет по заказу Евростата [20] рассмотрел варианты проверки вывода, которые в основном сводятся к двум вариантам:
- Обзор завершения процесса (EoPR): обучение компьютера смотреть на выходные данные и понимать, что они показывают. Это имеет то преимущество, что не требует дополнительной подготовки исследователя. Однако любой автоматизированной системе может быть сложно объяснить, на что она смотрит; это может занять больше времени, чем проверка вывода вручную. tauArgus и sdcTable — это EoPR.
- внутрипроцессный анализ (WPR): инструмент проверки выходных данных вызывается одновременно с созданием выходных данных и имеет доступ к исходным данным; поэтому нет необходимости объяснять, как были созданы выходные данные. Недостатком этого подхода является то, что он может замедлить время обработки и требует включения в анализ необходимых команд для запуска инструмента проверки выходных данных. Однако основным преимуществом является то, что его не нужно обучать работе с данными.
тауАргус и sdcMicro
[ редактировать ]tau-Argus и sdcTable — это полностью автоматизированные инструменты EoPR с открытым исходным кодом для защиты табличных данных (таблицы частот и величин). Они предназначены для работы с несколькими таблицами. Необходимо настроить метаданные, описывающие выходные данные и параметры управления. Они предоставляют проверяющим результаты обширную информацию о потенциальных проблемах, включая вторичное раскрытие информации в таблицах. Они также могут проводить корректирующие мероприятия: от подавления и простого округления до вторичного подавления и контролируемого табличного округления. Они не имеют дело с нетабличными результатами.
Из-за необходимости переписывать метаданные для каждой таблицы эти инструменты плохо подходят для исследовательских целей. Однако в официальной статистике, где одни и те же таблицы создаются неоднократно и где вторичные различия считаются серьезной проблемой, инвестиции в создание инструментов могут быть очень рентабельными.
Программное обеспечение для обоих имеет открытый исходный код на GitHub https://github.com/sdcTools/tauargus и CRAN https://cran.r-project.org/web/packages/sdcTable/.
СВЯЩЕННЫЙ
[ редактировать ]SACRO (Полуавтономная проверка результатов исследований) — это инструмент WPR, первоначально заказанный (ACRO) Евростатом в 2020 году в качестве проверки концепции, демонстрирующей возможность разработки универсального инструмента проверки результатов исследований. [21] В 2023 году Совет медицинских исследований Великобритании заказал обобщенную версию (SACRO), которая будет работать с несколькими языками (с 2024 года: Stata, R и Python) и обеспечивать более удобный интерфейс. [22] SACRO напрямую реализует модель statbarns и основана на принципах; следовательно, он является «полуавтоматическим», поскольку позволяет пользователям запрашивать исключения, а средствам проверки вывода отменять автоматические рекомендации. Все безопасные учреждения социальных наук Великобритании и большинство безопасных учреждений общественного здравоохранения Великобритании планируют внедрить его.
Программное обеспечение доступно на Github по адресу https://github.com/AI-SDC , где также содержатся ссылки на оригинальный ACRO и инструменты для оценки моделей ИИ.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Скиннер, Крис (2009). «Контроль статистического раскрытия данных опроса» (PDF) . Справочник по статистике, том 29A: Выборочные обследования: дизайн, методы и приложения . Справочник по статистике. 29 : 381–396. дои : 10.1016/S0169-7161(08)00015-1 . ISBN 978-0-444-53124-7 . Проверено 8 марта 2016 г.
- ^ «Ссылки», Контроль статистической информации , Чичестер, Великобритания: John Wiley & Sons, Ltd, стр. 261–277, 05 июля 2012 г., doi : 10.1002/9781118348239.refs , ISBN 978-1-118-34823-9
- ^ Перейти обратно: а б Хафнер, Ханс-Петер; Ленц, Райнер; Ричи, Феликс (01 января 2019 г.). «Идентификация угроз, ориентированная на пользователя, для анонимных микроданных» (PDF) . Статистический журнал IAOS . 35 (4): 703–713. дои : 10.3233/SJI-190506 . ISSN 1874-7655 . S2CID 55976703 .
- ^ Перейти обратно: а б Ричи, Феликс (2007). Обнаружение раскрытия информации в исследовательской среде на практике. Документ, представленный на рабочей сессии ЕЭК ООН/Евростата по конфиденциальности статистических данных .
- ^ «ADRN »Безопасные результаты» . adrn.ac.uk. Проверено 8 марта 2016 г.
- ^ «Государственные статистические службы: контроль раскрытия статистической информации» . Проверено 8 марта 2016 г.
- ^ Темпл, Матиас; и др. (2014). «Международная сеть обследований домашних хозяйств» (PDF) . Рабочий документ IHSN . Проверено 8 марта 2016 г.
- ^ «Архив: Контроль раскрытия статистической информации УНС» . Управление национальной статистики. Архивировано из оригинала 05 января 2016 г. Проверено 8 марта 2016 г.
- ^ Ричи, Феликс; Грин, Элизабет; Смит, Джим; Тилбрук, Эми; Уайт, Пол (30 октября 2023 г.). «Руководство SACRO по проверке статистических данных» . дои : 10.5281/zenodo.10054629 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Перейти обратно: а б с Ричи, Феликс и Эллиот, Марк (2015). «Контроль раскрытия статистической информации на основе принципов и правил в средах удаленного доступа» (PDF) . IASSIST Ежеквартально . 39 (2): 5–13. дои : 10.29173/iq778 . S2CID 59043893 . Проверено 8 марта 2016 г.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Ричи, Феликс (1 января 2009 г.). «Практика публикации официальных микроданных в Великобритании» . Статистический журнал IAOS . 26 (3, 4): 103–111. дои : 10.3233/SJI-2009-0706 . ISSN 1874-7655 .
- ^ Перейти обратно: а б с д Алвес, Кайл; Ричи, Феликс (25 ноября 2020 г.). «Бегущие, ретрансляторы, незнакомцы и инопланетяне: внедрение эффективного контроля раскрытия информации» . Статистический журнал IAOS . 36 (4): 1281–1293. дои : 10.3233/SJI-200661 . S2CID 209455141 .
- ^ «Перепись 2001 года – Методика» (PDF) . Агентство статистики и исследований Северной Ирландии. 2001 . Проверено 8 марта 2016 г.
- ^ Управление национальной статистики. «Обучение безопасному исследователю» .
- ^ Афхамай, Реза; и др. (2013). «Практика контроля раскрытия статистической информации при безопасном доступе к службе данных Великобритании» (PDF) . Европейская экономическая комиссия ООН . Проверено 8 марта 2016 г.
- ^ Лоуренс Х. Кокс, Уязвимость дополнительного подавления клеток перед атакой злоумышленника, Журнал конфиденциальности и конфиденциальности (2009) 1, номер 2, стр. 235–251 http://repository.cmu.edu/jpc/vol1/iss2/8 /
- ^ Ричи, Феликс (2022). «10 — самое безопасное число, которое когда-либо существовало» . Сделки по конфиденциальности данных . 15 (2): 109–140.
- ^ Ричи, Феликс; Хафнер, Ханс-Петер; Ленц, Райнер; Велптон, Ричард (18 октября 2018 г.). «Обоснованный, открытый по умолчанию, управляемый рисками и ориентированный на пользователя доступ к данным» .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Ричи, Феликс; Тилбрук, Эми; Коул, Кристиан; Джефферсон, Эмили; Крюгер, Сьюзен; Мансури-Бенсасси, Эсма; Роджерс, Саймон; Смит, Джим (14 декабря 2023 г.). «Модели машинного обучения в надежных исследовательских средах – понимание операционных рисков» . Международный журнал демографических данных . 8 (1): 2165. doi : 10.23889/ijpds.v8i1.2165 . ISSN 2399-4908 . ПМЦ 10898318 . ПМИД 38414545 .
- ^ Грин, Элизабет; Ричи, Феликс; Смит, Джеймс (31 мая 2020 г.). «Понимание проверки вывода» .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Евростат (Европейская комиссия); Грин, Элизабет; Смит, Джеймс; Ричи, Феликс (2021). Автоматическая проверка результатов исследований (ACRO): инструмент для динамической проверки раскрытия информации: издание 2021 г. LU: Издательское бюро Европейского Союза. дои : 10.2785/75954 . ISBN 978-92-76-41529-9 .
- ^ Смит, Джим; Прин, Ричард; Альбашир, Маха; Ричи, Феликс; Грин, Элизабет; Дэви, Саймон; Стоукс, Пит; Бэкон, Себастьян (26 сентября 2023 г.). «SACRO: Полуавтоматическая проверка результатов исследований» .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь )