Деидентификация
Деидентификация — это процесс, используемый для предотвращения чьей-либо личности раскрытия . Например, данные , полученные в ходе исследований на людях, могут быть обезличены, чтобы сохранить конфиденциальность участников исследования . Биологические данные могут быть обезличены в целях соблюдения правил HIPAA , которые определяют и предусматривают законы о конфиденциальности пациентов. [1]
Применительно к метаданным или общим данным об идентификации этот процесс также известен как анонимизация данных . Общие стратегии включают удаление или маскирование личных идентификаторов , таких как личное имя , а также подавление или обобщение квазиидентификаторов , таких как дата рождения. Обратный процесс использования обезличенных данных для идентификации людей известен как повторная идентификация данных . Успешная повторная идентификация [2] [3] [4] [5] поставить под сомнение эффективность деидентификации. Систематический обзор четырнадцати различных атак повторной идентификации выявил «высокий уровень повторной идентификации […], в котором преобладают небольшие исследования данных, которые не были обезличены в соответствии с существующими стандартами». [6]
Деидентификация принята в качестве одного из основных подходов к защите конфиденциальности данных . [7] Он широко используется в сферах связи, мультимедиа, биометрии, больших данных , облачных вычислений, интеллектуального анализа данных , Интернета, социальных сетей и аудио-видео наблюдения. [8]
Примеры [ править ]
При разработке опросов [ править ]
Когда проводятся опросы, такие как перепись населения , они собирают информацию об определенной группе людей. Чтобы стимулировать участие и защитить конфиденциальность респондентов опроса, исследователи пытаются спланировать опрос таким образом, чтобы, когда люди участвуют в опросе, было невозможно сопоставить индивидуальные ответы какого-либо участника с какими-либо опубликованными данными. [9]
Перед использованием информации [ править ]
Когда веб-сайт онлайн-покупок хочет узнать предпочтения и покупательские привычки своих пользователей, он решает извлечь данные о клиентах из своей базы данных и провести их анализ. Информация о персональных данных включает личные идентификаторы , которые были собраны непосредственно при создании клиентами своих учетных записей. Веб-сайту необходимо предварительно обработать данные с помощью методов деидентификации, прежде чем анализировать записи данных, чтобы не нарушать конфиденциальность своих клиентов.
Анонимизация [ править ]
Анонимизация означает необратимое отделение набора данных от личности участника исследования, чтобы предотвратить любую повторную идентификацию в будущем, даже со стороны организаторов исследования при любых условиях. [10] [11] Деидентификация может также включать сохранение идентифицирующей информации, которая может быть повторно связана только доверенной стороной в определенных ситуациях. [10] [11] [12] В технологическом сообществе ведутся споры о том, следует ли когда-либо считать обезличенными данные, которые могут быть повторно связаны, даже доверенной стороной. [13]
Техники [ править ]
Распространенными стратегиями деидентификации являются маскировка личных идентификаторов и обобщение квазиидентификаторов . Псевдонимизация является основным методом, используемым для маскировки личных идентификаторов из записей данных, а k-анонимизация обычно применяется для обобщения квазиидентификаторов .
Псевдонимизация [ править ]
Псевдонимизация осуществляется путем замены настоящих имен временным идентификатором. Он удаляет или маскирует личные идентификаторы, чтобы сделать людей неопознанными. Этот метод позволяет отслеживать запись человека с течением времени, даже если запись будет обновляться. Однако это не может помешать идентификации человека, если некоторые конкретные комбинации атрибутов в записи данных косвенно идентифицируют человека. [14]
k-анонимизация [ править ]
k-анонимизация определяет атрибуты, которые косвенно указывают на личность человека, как квазиидентификаторы (QI) и обрабатывает данные, заставляя по крайней мере k людей иметь некоторую комбинацию значений QI. [14] Значения QI обрабатываются в соответствии с конкретными стандартами. Например, k-анонимизация заменяет некоторые исходные данные в записях новыми значениями диапазона и сохраняет некоторые значения неизменными. Новая комбинация значений QI предотвращает идентификацию человека, а также позволяет избежать уничтожения записей данных.
Приложения [ править ]
Исследования в области деидентификации проводятся главным образом с целью защиты медицинской информации . [15] Некоторые библиотеки переняли методы, используемые в сфере здравоохранения, для сохранения конфиденциальности своих читателей. [15]
В больших данных деидентификация широко применяется отдельными лицами и организациями. [8] С развитием социальных сетей, электронной коммерции и больших данных иногда требуется деидентификация, которая часто используется для обеспечения конфиденциальности данных , когда личные данные пользователей собираются компаниями или сторонними организациями, которые анализируют их для личного использования. .
В умных городах деидентификация может потребоваться для защиты конфиденциальности жителей, работников и посетителей. Без строгого регулирования деидентификация может быть затруднена, поскольку датчики все равно могут собирать информацию без согласия. [16]
Ограничения [ править ]
Всякий раз, когда человек участвует в генетических исследованиях, донорство биологического образца часто приводит к созданию большого количества персонализированных данных. Такие данные однозначно сложно деидентифицировать. [17]
Анонимизация генетических данных особенно сложна из-за огромного количества генотипических данных.информация в биообразцах, [17] связи, которые образцы часто имеют с историей болезни, [18] и появление современных инструментов биоинформатики для интеллектуального анализа данных . [18] Было продемонстрировано, что данные об отдельных лицах в совокупных коллекциях наборов генотипических данных могут быть привязаны к личности доноров образцов. [19]
Некоторые исследователи полагают, что неразумно когда-либо обещать участникам генетических исследований сохранение анонимности, но вместо этого таких участников следует учить ограничениям использования закодированных идентификаторов в процессе деидентификации. [11]
в Соединенных Штатах Америки деидентификации о Законы
В мае 2014 года Совет советников президента США по науке и технологиям счел деидентификацию «в некоторой степени полезной в качестве дополнительной защиты», но не «полезной основой для политики», поскольку «она неустойчива к повторной идентификации в ближайшем будущем». методы». [20]
Правило конфиденциальности HIPAA обеспечивает механизмы для ответственного использования и раскрытия медицинских данных без необходимости согласия пациента. Эти механизмы основаны на двух стандартах деидентификации HIPAA – Safe Harbor и методе экспертного определения. «Безопасная гавань» предполагает удаление конкретных идентификаторов пациентов (например, имени, номера телефона, адреса электронной почты и т. д.), тогда как метод экспертного определения требует знаний и опыта работы с общепринятыми статистическими и научными принципами и методами для предоставления информации, не поддающейся индивидуальной идентификации. [21]
Безопасная гавань [ править ]
Метод « безопасной гавани» использует списочный подход к деидентификации и предъявляет два требования:
- Удаление или обобщение 18 элементов из данных.
- Защищенное лицо или деловой партнер не имеют фактической информации о том, что остаточная информация в данных может использоваться отдельно или в сочетании с другой информацией для идентификации физического лица. «Безопасная гавань» — это строго предписывающий подход к деидентификации. В соответствии с этим методом все даты должны быть обобщены до года, а почтовые индексы сокращены до трех цифр. Тот же подход используется к данным независимо от контекста. Даже если информация должна быть передана доверенному исследователю, который хочет проанализировать данные на предмет сезонных колебаний случаев острых респираторных заболеваний и, следовательно, требует месяца госпитализации, эта информация не может быть предоставлена; будет сохранен только год поступления.
Экспертное заключение [ править ]
Экспертное определение использует подход к деидентификации, основанный на оценке риска, который применяет текущие стандарты и передовой опыт исследований для определения вероятности того, что человека можно идентифицировать по его защищенной медицинской информации . Этот метод требует, чтобы лицо, обладающее соответствующими знаниями и опытом работы с общепринятыми статистическими и научными принципами и методами, предоставило информацию, не позволяющую идентифицировать личность. Это требует:
- Очень мал риск того, что информация может быть использована отдельно или в сочетании с другой разумно доступной информацией предполагаемым получателем для идентификации лица, являющегося субъектом информации;
- Документирует методы и результаты анализа, которые оправдывают такое определение.
умерших Исследования
Ключевым законом об исследованиях электронных медицинских записей является Правило конфиденциальности HIPAA . Этот закон разрешает использовать электронные медицинские карты умерших субъектов для исследований (Правило конфиденциальности HIPAA (раздел 164.512(i)(1)(iii)))). [22]
См. также [ править ]
- Состязательная стилометрия
- Генетическая конфиденциальность
- Статистический контроль раскрытия информации
Ссылки [ править ]
- ^ Права (OCR), Гражданское управление (07 сентября 2012 г.). «Методы деидентификации ЛМИ» . HHS.gov . Проверено 08.11.2020 .
- ^ Суини, Л. (2000). «Простые демографические данные часто однозначно идентифицируют людей». Рабочий документ по конфиденциальности данных . 3 .
- ^ де Монжуа, Ю.-А. (2013). «Уникальный в толпе: конфиденциальность человеческой мобильности» . Научные отчеты . 3 : 1376. Бибкод : 2013NatSR...3E1376D . дои : 10.1038/srep01376 . ПМЦ 3607247 . ПМИД 23524645 .
- ^ де Монжуа, Ю.-А.; Радаелли, Л.; Сингх, В.К.; Пентланд, AS (29 января 2015 г.). «Уникально в торговом центре: о переидентификации метаданных кредитных карт» . Наука . 347 (6221): 536–539. Бибкод : 2015Sci...347..536D . дои : 10.1126/science.1256297 . hdl : 1721.1/96321 . ПМИД 25635097 .
- ^ Нарайанан, А. (2006). «Как нарушить анонимность набора данных о призах Netflix». arXiv : cs/0610105 .
- ^ Эль Эмам, Халед (2011). «Систематический обзор атак повторной идентификации на данные о здоровье» . ПЛОС ОДИН . 10 (4): e28071. Бибкод : 2011PLoSO...628071E . дои : 10.1371/journal.pone.0028071 . ПМК 3229505 . ПМИД 22164229 .
- ^ Симсон., Гарфинкель. Деидентификация личной информации: рекомендации по переходу на использование криптографических алгоритмов и длины ключей . OCLC 933741839 .
- ^ Jump up to: Перейти обратно: а б Рибарич, Слободан; Арияииния, Аладдин; Павесич, Никола (сентябрь 2016 г.). «Деидентификация для защиты конфиденциальности в мультимедийном контенте: опрос» . Обработка сигналов: передача изображений . 47 : 131–151. дои : 10.1016/j.image.2016.05.020 . hdl : 2299/19652 .
- ^ Бхаскаран, Вивек (8 июня 2023 г.). «Обзорные исследования: определение, примеры и методы» . ВопросПро . Проверено 17 декабря 2023 г.
- ^ Jump up to: Перейти обратно: а б Годар, бакалавр; Шмидтке-младший; Кассиман, Джей-Джей; Эме, SGN (2003). «Хранение данных и банкинг ДНК для биомедицинских исследований: информированное согласие, конфиденциальность, проблемы качества, право собственности, возврат выгод. Профессиональный взгляд» . Европейский журнал генетики человека . 11 : С88–122. дои : 10.1038/sj.ejhg.5201114 . ПМИД 14718939 .
- ^ Jump up to: Перейти обратно: а б с Фуллертон, С.М.; Андерсон, Северная Каролина; Гузаускас Г.; Фриман, Д.; Фрайер-Эдвардс, К. (2010). «Решение проблем управления исследованиями биохранилищ следующего поколения» . Наука трансляционной медицины . 2 (15): 15см3. doi : 10.1126/scitranslmed.3000361 . ПМК 3038212 . ПМИД 20371468 .
- ^ Макмерри, Эй Джей; Гилберт, Калифорния; Рейс, BY; Чуэ, ХК; Кохане, И.С.; Мандл, К.Д. (2007). «Самомасштабируемая распределенная информационная архитектура для общественного здравоохранения, исследований и клинической помощи» . J Am Med Inform доц . 14 (4): 527–33. дои : 10.1197/jamia.M2371 . ПМК 2244902 . ПМИД 17460129 .
- ^ «Обезличивание данных» . Лаборатория по борьбе с бедностью Абдула Латифа Джамиля (J-PAL) . Проверено 17 декабря 2023 г.
- ^ Jump up to: Перейти обратно: а б Ито, Коичи; Когуре, Джун; Симояма, Такеши; Цуда, Хироши (2016). «Технологии деидентификации и шифрования для защиты личной информации» (PDF) . Научно-технический журнал Fujitsu . 52 (3): 28–36.
- ^ Jump up to: Перейти обратно: а б Николсон, С.; Смит, Калифорния (2005). «Использование уроков здравоохранения для защиты конфиденциальности пользователей библиотеки: Рекомендации по деидентификации библиотечных данных на основе HIPAA» (PDF) . Труды Американского общества информатики и технологий . 42 : н/д. дои : 10.1002/meet.1450420106 .
- ^ Куп, Алекс. «Решение Sidewalk Labs передать трудные решения по вопросам конфиденциальности третьей стороне неверно, — говорит ее бывший консультант» . Мир ИТ Канады . Проверено 27 июня 2019 г.
- ^ Jump up to: Перейти обратно: а б Макгуайр, Алабама; Гиббс, РА (2006). «ГЕНЕТИКА: больше не деидентифицирована» . Наука . 312 (5772): 370–371. дои : 10.1126/science.1125339 . ПМИД 16627725 .
- ^ Jump up to: Перейти обратно: а б Ториссон, Джорджия; Муилу, Дж.; Брукс, Эй Джей (2009). «Базы данных генотип-фенотип: проблемы и решения постгеномной эпохи» . Обзоры природы Генетика . 10 (1): 9–18. дои : 10.1038/nrg2483 . hdl : 2381/4584 . ПМИД 19065136 . S2CID 5964522 .
- ^ Гомер, Н.; Селингер, С.; Редман, М.; Дагган, Д.; Тембе, В.; Мюлинг, Дж.; Пирсон, СП; Стефан, Д.А.; Нельсон, Сан-Франциско; Крейг, Д.В. (2008). Вишер, Питер М. (ред.). «Выявление лиц, вносящих следовые количества ДНК в очень сложные смеси с использованием микрочипов для генотипирования SNP высокой плотности» . ПЛОС Генетика . 4 (8): e1000167. дои : 10.1371/journal.pgen.1000167 . ПМК 2516199 . ПМИД 18769715 .
- ^ ПКАСТ. «Доклад президенту – Большие данные и конфиденциальность: технологическая перспектива» (PDF) . Управление научно-технической политики . Проверено 28 марта 2016 г. - из Национального архива .
- ^ «Деидентификация 201» . Аналитика конфиденциальности . 2015.
- ^ 45 CFR 164.512)
Внешние ссылки [ править ]
- Симсон Л. Гарфинкель (16 декабря 2015 г.). «NISTIR 8053, Деидентификация личной информации» (PDF) . НИСТ . Проверено 3 января 2016 г.
- Серия тренингов Архивировано 13 ноября 2015 г. в Wayback Machine. по стандартам деидентификации правительства США.
- Руководство по методам деидентификации защищенной медицинской информации, заархивировано 10 декабря 2015 г. в Wayback Machine.
- Ом, Пол (2010). «Нарушенные обещания конфиденциальности: ответ на неожиданный провал анонимизации» (PDF) . Обзор права Калифорнийского университета в Лос-Анджелесе . 57 : 1701–77.
- Падилья-Лопес, Хосе Рамон; Чаарауи, Александр Эндрю; Флорес-Револьта, Франциско (июнь 2015 г.). «Визуальные методы защиты конфиденциальности: опрос» (PDF) . Экспертные системы с приложениями 42 (9): 4177–4195. дои : 10.1016/новый.2015.01.041 . hdl : 10045/44523 . S2CID 6794899 .
- Чаарауи, Александрос; Падилья-Лопес, Хосе; Феррандес-Пастор, Франциско; Ньето-Идальго, Марио; Флорес-Ревуэльта, Франциско (20 мая 2014 г.). «Система интеллектуального мониторинга на основе видения: анализ человеческого поведения и конфиденциальность в зависимости от контекста» . Датчики . 14 (5): 8895–8925. Бибкод : 2014Senso..14.8895C . дои : 10.3390/s140508895 . ПМК 4063058 . ПМИД 24854209 .