Квази-идентификация
Квазиидентификаторы — это фрагменты информации, которые сами по себе не являются уникальными идентификаторами , но достаточно хорошо коррелируют с объектом, поэтому их можно комбинировать с другими квазиидентификаторами для создания уникального идентификатора. [1]
Таким образом, квазиидентификаторы в сочетании могут стать информацией, идентифицирующей личность . Этот процесс называется повторной идентификацией . В качестве примера Латанья Суини показала, что, хотя ни пол , ни дата рождения , ни почтовый индекс однозначно не идентифицируют человека, комбинации всех трех достаточно, чтобы идентифицировать 87% людей в Соединенных Штатах. [2]
Этот термин был введен Торе Далениусом в 1986 году. [3] С тех пор квазиидентификаторы стали основой нескольких атак на опубликованные данные. Например, Суини связал медицинские записи с общедоступной информацией, чтобы найти больничные записи тогдашнего губернатора Массачусетса, используя уникальные идентифицирующие квазиидентификаторы. [4] [5] а Суини, Абу и Уинн использовали общедоступные записи избирателей для повторной идентификации участников проекта «Личный геном». [6] Кроме того, Арвинд Нараянан и Виталий Шматиков обсудили квазиидентификаторы для обозначения статистических условий деанонимизации данных, публикуемых Netflix. [7]
Мотвани и Ин предупреждают о потенциальных нарушениях конфиденциальности, которые могут возникнуть в результате публикации больших объемов правительственных и деловых данных, содержащих квазиидентификаторы. [8]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Словарь статистических терминов: квазиидентификатор» . ОЭСР. 10 ноября 2005 года . Проверено 29 сентября 2013 г.
- ^ Суини, Латанья. Простые демографические данные часто позволяют однозначно идентифицировать людей . Университет Карнеги-Меллон, 2000. http://dataprivacylab.org/projects/identifiability/paper1.pdf.
- ^ Далениус, Торе. Поиск иголки в стоге сена или выявление анонимных записей переписи населения . Журнал официальной статистики, том 2, № 3, 1986. стр. 329–336. http://www.jos.nu/Articles/abstract.asp?article=23329 Архивировано 8 августа 2017 г. в Wayback Machine.
- ^ Андерсон, Нейт. Анонимизированные данные на самом деле таковыми не являются, и вот почему. Ars Technica, 2009. https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/
- ^ Барт-Джонс, Дэниел К. Переидентификация медицинской информации губернатора Уильяма Уэлда: критический пересмотр рисков идентификации медицинских данных и защиты конфиденциальности тогда и сейчас. Тогда и сейчас (4 июня 2012 г.) (2012).
- ^ Суини, Латанья, Акуа Абу и Джулия Винн. «Определение участников проекта личного генома по именам». Доступно по номеру SSRN 2257732 (2013).
- ^ Нараянан, Арвинд и Шматиков, Виталий. Надежная деанонимизация больших разреженных наборов данных . Техасский университет в Остине, 2008 г. https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf.
- ^ Раджив Мотвани и Ин Сюй (2008). Эффективные алгоритмы маскировки и поиска квазиидентификаторов (PDF) . Материалы международного семинара SDM'08 по практическому интеллектуальному анализу данных с сохранением конфиденциальности.