Повторная идентификация данных
Примеры и перспективы в этой статье касаются главным образом Соединенных Штатов и не отражают мировую точку зрения на этот вопрос . ( Май 2017 г. ) |
данных Повторная идентификация или деанонимизация — это практика сопоставления анонимных данных (также известных как обезличенные данные) с общедоступной информацией или вспомогательными данными с целью определения лица, которому принадлежат эти данные. [1] Это вызывает беспокойство, поскольку компании, имеющие политику конфиденциальности , поставщики медицинских услуг и финансовые учреждения могут публиковать собираемые ими данные после того, как данные прошли процесс деидентификации.
Процесс деидентификации включает маскирование, обобщение или удаление как прямых, так и косвенных идентификаторов ; определение этого процесса не является универсальным. Таким образом, информация, находящаяся в открытом доступе , даже, казалось бы, анонимная, может быть повторно идентифицирована в сочетании с другими частями доступных данных и базовыми методами информатики. В документе «Защита людей» (« Общее правило »), собранном несколькими федеральными агентствами и департаментами США, включая Министерство здравоохранения и социальных служб США , предупреждается, что повторная идентификация постепенно становится проще из-за « больших данных » — обилия и постоянный сбор и анализ информации наряду с развитием технологий и развитием алгоритмов. Однако другие утверждают, что деидентификация является безопасным и эффективным инструментом освобождения данных, и не рассматривают повторную идентификацию как проблему. [2] [ нейтралитет оспаривается ]
Все больше и больше данных становятся общедоступными через Интернет. Эти данные публикуются после применения некоторых методов анонимизации, таких как удаление личной информации (PII), такой как имена, адреса и номера социального страхования, для обеспечения конфиденциальности источников. Эта гарантия конфиденциальности позволяет правительству на законных основаниях передавать ограниченные наборы данных третьим лицам, не требуя письменного разрешения. Такие данные оказались очень ценными для исследователей, особенно в сфере здравоохранения.
Псевдонимизация, соответствующая требованиям GDPR, направлена на снижение риска повторной идентификации за счет использования отдельно хранимой «дополнительной информации». Подход основан на экспертной оценке набора данных для обозначения некоторых идентификаторов как «прямых», а некоторых — как «косвенных». Сторонники этого подхода утверждают, что повторной идентификации можно избежать, ограничив доступ к «дополнительной информации», которая хранится отдельно у контролера. Теория заключается в том, что для повторной идентификации требуется доступ к отдельно хранимой «дополнительной информации», а отнесение данных к конкретному субъекту данных может быть ограничено контролером только для поддержки законных целей. Этот подход является спорным, поскольку он не работает, если существуют дополнительные наборы данных, которые можно использовать для повторной идентификации. Такие дополнительные наборы данных могут быть неизвестны тем, кто сертифицирует псевдонимизацию в соответствии с GDPR, или могут отсутствовать на момент псевдонимизации, но могут появиться в какой-то момент в будущем.
Правовая защита данных в США
[ редактировать ]Существующие правила конфиденциальности обычно защищают информацию, которая была изменена, поэтому данные считаются анонимными или деидентифицированными. Что касается финансовой информации, Федеральная торговая комиссия разрешает ее обращение, если она обезличена и агрегирована. [3] Закон Грэма Лича-Блайли (GLBA), который обязывает финансовые учреждения предоставлять потребителям возможность отказаться от передачи их информации третьим лицам, не распространяется на обезличенные данные, если информация является совокупной и не содержит личных идентификаторов, поскольку это данные не рассматриваются как информация, позволяющая установить личность . [3]
Образовательные записи
[ редактировать ]Что касается университетских отчетов, власти как на уровне штата, так и на федеральном уровне продемонстрировали осведомленность о вопросах конфиденциальности в образовании и недовольство раскрытием информации учебными заведениями. Министерство образования США предоставило руководство по обсуждению и идентификации данных, поручив образовательным учреждениям быть чувствительными к риску повторной идентификации анонимных данных путем перекрестных ссылок со вспомогательными данными, чтобы минимизировать объем данных в открытом доступе путем уменьшения публикация справочной информации о студентах и персонале учебных заведений, а также быть последовательными в процессах деидентификации. [4]
Медицинские записи
[ редактировать ]Медицинская информация о пациентах становится все более доступной в Интернете, на бесплатных и общедоступных платформах, таких как HealthData.gov и PatientLikeMe , чему способствует государственная политика открытых данных и инициативы по обмену данными , возглавляемые частным сектором. Хотя такой уровень доступности дает множество преимуществ, опасения по поводу дискриминации и конфиденциальности. возникают [5] Защита медицинских записей и данных о потребителях из аптек более надежна по сравнению с защитой других видов данных о потребителях. Закон о переносимости и подотчетности медицинского страхования (HIPAA) защищает конфиденциальность идентифицируемых данных о здоровье, но разрешает передачу информации третьим лицам в случае обезличивания личности. Кроме того, он требует, чтобы пациенты получали уведомления о нарушениях, если существует более чем низкая вероятность того, что информация о пациенте была ненадлежащим образом раскрыта или использована без достаточного смягчения причиненного ему или ей вреда. [6] Вероятность повторной идентификации является фактором, определяющим вероятность того, что информация о пациенте была скомпрометирована. Обычно аптеки продают обезличенную информацию компаниям по сбору данных , которые, в свою очередь, продают ее фармацевтическим компаниям. [3]
Были приняты законы штатов, запрещающие интеллектуальный анализ медицинской информации, но они были отменены федеральными судами в штатах Мэн и Нью-Гэмпшир на основании Первой поправки. Другой федеральный суд по другому делу использовал слово «иллюзорный», чтобы описать опасения по поводу конфиденциальности пациентов, и не признал риски повторной идентификации. [3]
Биопрепарат
[ редактировать ]Уведомление о предлагаемых правилах, опубликованное агентствами общего правила в сентябре 2015 года, расширило общий термин «человек-субъект» в исследовании, включив в него биообразцы или материалы, взятые из человеческого тела - кровь, мочу, ткани и т. д. Это требует, чтобы исследователи, использующие биообразцы, должны соблюдать более строгие требования к проведению исследований на людях. Основанием для этого является повышенный риск повторной идентификации биообразцов. [7] Окончательные редакции подтвердили это правило. [8] [ нужны разъяснения ] [ нужна полная цитата ]
Усилия по повторной идентификации
[ редактировать ]Было предпринято немалое количество успешных попыток реидентификации в различных областях. Даже если непрофессионалу нелегко нарушить анонимность, как только шаги, необходимые для этого, раскрыты и изучены, для доступа к информации в базе данных нет необходимости в знаниях более высокого уровня . Иногда техническая экспертиза даже не требуется, если популяция имеет уникальную комбинацию идентификаторов. [3]
Медицинские записи
[ редактировать ]В середине 1990-х годов правительственное агентство Массачусетса под названием «Комиссия по групповому страхованию» (GIC), которое приобретало медицинскую страховку для сотрудников штата, решило бесплатно предоставить записи о посещениях больниц любому исследователю, который запросил эти данные. В GIC заверили, что конфиденциальность пациента не вызывает беспокойства, поскольку они удалили такие идентификаторы, как имя, адреса, номера социального страхования. Однако такая информация, как почтовые индексы, дата рождения и пол, осталась нетронутой. Заверения GIC были подкреплены тогдашним губернатором Массачусетса Уильямом Уэлдом. Латанья Суини , в то время аспирантка, задумалась о том, чтобы найти записи губернатора в данных GIC. Объединив данные GIC с базой данных избирателей города Кембридж, которую она купила за 20 долларов, послужной список губернатора Уэлда был легко обнаружен. [9]
В 1997 году исследователь успешно деанонимизировал медицинские записи, используя базы данных избирателей. [3]
В 2011 году профессор Латанья Суини снова использовала анонимные записи посещений больниц и записи голосований в штате Вашингтон и успешно сопоставила отдельных лиц в 43% случаев. [10]
Существуют существующие алгоритмы, используемые для повторной идентификации пациентов с информацией о рецептурных лекарствах. [3]
Потребительские привычки и практики
[ редактировать ]Двое исследователей из Техасского университета , Арвинд Нараянан и профессор Виталий Шматиков, смогли повторно идентифицировать некоторую часть анонимных данных о рейтинге фильмов Netflix с отдельными потребителями на потоковом веб-сайте. [11] [12] [13] Данные были опубликованы Netflix в 2006 году после деидентификации, которая заключалась в замене отдельных имен случайными числами и перемещении личных данных. Два исследователя деанонимизировали некоторые данные, сравнив их с рейтингами фильмов неанонимных пользователей IMDb (Интернет-база данных фильмов). Как выяснилось, для идентификации абонента требовалось очень мало информации из базы данных. [3] В результате исследования были сделаны поразительные открытия о том, насколько легко повторно идентифицировать пользователей Netflix. Например, простое знание данных только о двух фильмах, просмотренных пользователем, включая точную оценку и дату оценки плюс-минус три дня, позволяет добиться успеха в повторной идентификации в 68%. [9]
В 2006 году, после того как AOL опубликовала поисковые запросы своих пользователей (данные, которые были анонимизированы до публичной публикации), репортеры The New York Times успешно провели повторную идентификацию людей, взяв группы поисковых запросов, выполненных анонимными пользователями. [3] AOL попыталась скрыть идентифицирующую информацию, включая имена пользователей и IP-адреса, но заменила их уникальными идентификационными номерами, чтобы сохранить полезность этих данных для исследователей. Блогеры после публикации корпели над данными, пытаясь либо идентифицировать конкретных пользователей с этим контентом, либо указать на развлекательные, депрессивные или шокирующие поисковые запросы, примеры которых включают «как убить жену», «депрессия и медицинские уйти», «фотографии автокатастроф». Двум репортерам, Майклу Барбаро и Тому Зеллеру, удалось выследить 62-летнюю вдову по имени Тельма Арнольд, узнав ключи к разгадке личности пользователя 417729 в истории поиска. Арнольд признала, что она была автором обысков, подтвердив, что повторная идентификация возможна. [9]
Данные о местоположении
[ редактировать ]Данные о местонахождении — ряд географических положений во времени, которые описывают местонахождение и перемещения человека — представляют собой класс персональных данных, анонимность которых особенно сложно сохранить. Местоположение показывает повторяющиеся посещения часто посещаемых мест повседневной жизни, таких как дом, работа, магазины, медицинские учреждения или определенные графики свободного времени. [14] Только удаление личности человека из данных о местоположении не приведет к удалению идентифицируемых закономерностей, таких как ритмы поездок на работу, спальные или рабочие места. Сопоставляя координаты с адресами, данные о местоположении легко повторно идентифицировать. [15] или коррелирует с контекстом частной жизни человека. Потоки информации о местоположении играют важную роль в восстановлении личных идентификаторов на основе данных смартфона, к которым получают доступ приложения. [16]
Судебные решения
[ редактировать ]В 2019 году профессор Керстин Ноэль Вокингер и доктор Урс Якоб Мюлематер, два исследователя из Цюрихского университета , проанализировали дела Федерального верховного суда Швейцарии , чтобы оценить, какие фармацевтические компании и какие медицинские препараты были вовлечены в судебные иски против Федерального ведомства Швейцарии. Общественное здравоохранение (FOPH) относительно решений по ценообразованию на медицинские препараты. Как правило, вовлеченные частные стороны (например, фармацевтические компании) и информация, которая может раскрыть частную сторону (например, названия лекарств), согласно швейцарским решениям анонимизируются. Исследователи смогли повторно идентифицировать 84% соответствующих анонимных дел Федерального верховного суда Швейцарии, связав информацию из общедоступных баз данных. [17] [18] Это достижение было освещено в средствах массовой информации и положило начало дебатам о том, следует ли и каким образом делать судебные дела анонимными. [19] [20]
Обеспокоенность и последствия
[ редактировать ]В 1997 году Латанья Суини , изучая записи переписи населения, обнаружила, что до 87 процентов населения США можно идентифицировать, используя комбинацию пятизначного почтового индекса , пола и даты рождения. [21] [22]
Несанкционированная повторная идентификация на основе таких комбинаций не требует доступа к отдельно хранимой «дополнительной информации», находящейся под контролем контроллера данных, как сейчас требуется для псевдонимизации в соответствии с GDPR.
Лица, чьи данные повторно идентифицируются, также подвергаются риску продажи своей информации с указанием их личности организациям, которым они не хотят обладать частной информацией об их финансах, здоровье или предпочтениях. Публикация этих данных может вызвать беспокойство, стыд или смущение. Как только конфиденциальность человека была нарушена в результате повторной идентификации, будущие нарушения становятся намного проще: как только устанавливается связь между одним фрагментом данных и реальной личностью человека, любая связь между данными и анонимной личностью нарушает анонимность. человек. [3]
Повторная идентификация может подвергнуть компании и учреждения, которые обязались обеспечивать анонимность, увеличению ответственности за правонарушения и заставить их нарушать свою внутреннюю политику, политику публичной конфиденциальности, а также законы штата и федеральные законы, такие как законы, касающиеся финансовой конфиденциальности или медицинской конфиденциальности , путем раскрытия информации. информацию третьим лицам, которые могут идентифицировать пользователей после повторной идентификации. [3]
Средства правовой защиты
[ редактировать ]Для устранения рисков повторной идентификации было предложено несколько предложений:
- Более высокие стандарты и единое определение деидентификации при сохранении полезности данных: определение деидентификации должно сочетать защиту конфиденциальности с целью снижения риска повторной идентификации с отказом компаний удалять данные. [23]
- Повышенная защита конфиденциальности анонимной информации [3]
- Повышенная безопасность баз данных, в которых хранится анонимная информация. [3]
- Строгий запрет на злонамеренную повторную идентификацию, принятие более широкого законодательства по борьбе с дискриминацией и конфиденциальностью, которое обеспечивает защиту конфиденциальности, а также поощряет участие в проектах и усилиях по обмену данными, а также установление единых стандартов защиты данных в академических сообществах, например, в научное сообщество, чтобы свести к минимуму нарушения конфиденциальности [24]
- Создание политики раскрытия данных: обеспечение точности риторики деидентификации, составление контрактов, запрещающих попытки повторной идентификации и распространение конфиденциальной информации, создание анклавов данных и использование стратегий на основе данных для соответствия требуемым стандартам защиты до уровня риск. [25]
- Реализация дифференциальной конфиденциальности для запрошенных наборов данных
- Генерация синтетических данных , которые демонстрируют статистические свойства необработанных данных, не позволяя идентифицировать реальных людей.
Несмотря на призывы к полному запрету на повторную идентификацию, обеспечить его соблюдение будет сложно. Однако у законодателей есть способы бороться с попытками повторной идентификации и наказывать их, если и когда они будут раскрыты: сочетать запрет с более суровыми наказаниями и более строгим контролем со стороны Федеральной торговой комиссии и Федерального бюро расследований ; предоставить жертвам повторной идентификации право на иск против тех, кто их повторно идентифицирует; и обязать проводить аудит программного обеспечения для людей, которые используют и анализируют анонимные данные. Небольшой запрет на повторную идентификацию также может быть наложен на доверенных получателей определенных баз данных, таких как правительственные сборщики данных или исследователи. Этот запрет будет гораздо проще обеспечить, и он может препятствовать повторной идентификации. [9]
Примеры деанонимизации
[ редактировать ]- «Исследователи из Массачусетского технологического института и Католического университета Лувена в Бельгии проанализировали данные о 1,5 миллионах пользователей мобильных телефонов в небольшой европейской стране за 15 месяцев и обнаружили, что всего лишь четыре точки отсчета с довольно низким пространственным и временным разрешением были достаточно, чтобы однозначно идентифицировать 95 процентов из них. Другими словами, чтобы извлечь полную информацию о местоположении одного человека из «анонимизированного» набора данных, состоящего из более чем миллиона человек, все, что вам нужно сделать, это поместить его или ее в некий объект. несколько сотен ярдов передатчика мобильного телефона, где-то в течение часа, четыре раза в год. Несколько сообщений в Твиттере, вероятно, предоставят всю необходимую вам информацию, если они содержат конкретную информацию о местонахождении человека». [26]
- «Здесь мы сообщаем, что фамилии могут быть восстановлены из личных геномов путем профилирования коротких тандемных повторов на Y-хромосоме (Y-STR) и запроса баз данных развлекательной генетической генеалогии. Мы показываем, что комбинация фамилии с другими типами метаданных, такими как возраст и состояние могут быть использованы для триангуляции личности цели». [27]
См. также
[ редактировать ]- Деидентификация – предотвращение раскрытия личности.
- доксинг – публикация личных данных отдельных лиц, часто в Интернете.
- K-анонимность - свойство определенных анонимных данных.
- Защищенная медицинская информация – информация о состоянии здоровья человека.
- Контроль раскрытия статистики - метод, используемый в исследованиях, основанных на данных.
Ссылки
[ редактировать ]- ^ Педерсен, Торбен (2005). «HTTPS, безопасный HTTPS». Энциклопедия криптографии и безопасности . стр. 268–269. дои : 10.1007/0-387-23483-7_189 . ISBN 978-0-387-23473-1 .
- ^ Ричардсон, Виктор; Милам, Салли; Крайслер, Дениз (апрель 2015 г.). «Законно ли делиться обезличенными данными? Состояние законов о конфиденциальности общественного здравоохранения и их взаимодействие с методами ограничения статистического раскрытия». Журнал права, медицины и этики . 43 (1_приложение): 83–86. дои : 10.1111/jlme.12224 . hdl : 2027.42/111074AA . ISSN 1073-1105 . ПМИД 25846173 . S2CID 9384220 .
- ^ Перейти обратно: а б с д и ж г час я дж к л м Портер, Кристина (2008). «Конституционные и нормативные акты: обезличенные данные и интеллектуальный анализ данных третьих лиц: риск повторной идентификации личной информации» . Шидлер Журнал права, торговли и технологий . 5 (1).
- ^ Пельц, Ричард (2009). «От Башни из слоновой кости до Стеклянного дома: доступ к «обезличенным» записям о приеме в государственные университеты для изучения позитивных действий» (PDF) . Гарвардский юридический журнал BlackLetter . 25 : 181–197. ССНН 1495788 .
- ^ Хоффман, Шарона (2015). «Гражданская наука: закон и этика публичного доступа к большим медицинским данным». Журнал технологического права Беркли . дои : 10.15779/Z385Z78 .
- ^ Гринберг, Елена (2016). «Недавние события в делах: растущее признание «риска причинения вреда» как травмы, достаточной для того, чтобы гарантировать правоспособность в коллективных делах о утечке медицинских данных». Американский журнал права и медицины . 42 (1): 210–4. дои : 10.1177/0098858816644723 . ПМИД 27263268 . S2CID 77790820 .
- ^ Гроден, Саманта; Мартин, Лето; Меррилл, Ребекка (2016). «Предлагаемые изменения к общему правилу: противостояние между правами пациентов и научными достижениями?» . Журнал права в области здравоохранения и биологических наук . 9 (3).
- ^ 24 CFR § .104 2017 г.
- ^ Перейти обратно: а б с д Ом, Пол (август 2010 г.). «Нарушенные обещания конфиденциальности: ответ на неожиданный провал анонимизации» . Обзор права Калифорнийского университета в Лос-Анджелесе . 57 (6): 1701–1777. ISSN 0041-5650 . OCLC 670569859 – через EBSCO.
- ^ Суини, Латанья (28 сентября 2015 г.). «Только вы, ваш врач и многие другие могут знать» . Технологическая наука . 2015092903 . Проверено 12 июля 2024 г.
- ^ Роуз, Маргарет. «деанонимизация (деанонимизация)» . WhatIs.com . Проверено 19 января 2014 г.
- ^ Нарайанан, Арвинд; Шматиков, Виталий. «Надежная деанонимизация больших разреженных наборов данных» (PDF) . Проверено 19 января 2014 г.
- ^ Нарайанан, Арвинд; Шматиков, Виталий (22 ноября 2007 г.). «Как нарушить анонимность набора данных Netflix Prize». arXiv : cs/0610105 .
- ^ Фрич, Лотар (2008), «Профилирование и услуги на основе местоположения (LBS)», Профилирование гражданина Европы , Springer Нидерланды, стр. 147–168, doi : 10.1007/978-1-4020-6914-7_8 , ISBN 978-1-4020-6913-0
- ^ Роше, Люк; Хендрикс, Жюльен М.; де Монжуа, Ив-Александр (23 июля 2019 г.). «Оценка успеха повторной идентификации в неполных наборах данных с использованием генеративных моделей» . Природные коммуникации . 10 (1): 3069. Бибкод : 2019NatCo..10.3069R . дои : 10.1038/s41467-019-10933-3 . ISSN 2041-1723 . ПМК 6650473 . ПМИД 31337762 .
- ^ Фрич, Лотар; Момен, Нурул (2017). Производные частичные идентификаторы, созданные на основе разрешений приложения . Общество информатики, Бонн. ISBN 978-3-88579-671-8 .
- ^ Вокингер / Мюлематер, Керстин Ноэль / Урс Якоб (2 сентября 2019 г.). «Идентификация судебных решений посредством «связывания» баз данных» . Юслеттер (990).
- ^ Вокингер / Мюлематер, Керстин Ноэль / Урс Якоб. «Переидентификация судебных решений посредством «связывания» баз данных» .
- ^ Чендлер, Саймон (4 сентября 2019 г.). «Исследователи используют большие данные и искусственный интеллект для устранения юридической тайны» . Форбс . Проверено 10 декабря 2019 г.
- ^ «СРФ Тагешау» . SRF Швейцарского радио и телевидения. 2 сентября 2019 года . Проверено 10 декабря 2019 г.
- ^ «Насколько я уникален?» . Лаборатория конфиденциальности данных Гарвардского университета . Проверено 22 июля 2021 г.
- ^ Суини, Латанья. «Простые демографические данные часто позволяют однозначно идентифицировать людей» (PDF) . Университет Карнеги-Меллона, Рабочий документ по конфиденциальности данных 3 . Проверено 22 июля 2021 г.
- ^ Лагос, Янни (2014). «Извлечение личной информации из данных: смысл деидентификации» (PDF) . Обзор права Индианы . 48 : 187–203. ISSN 2169-320X . OCLC 56050778 .
- ^ Седжин, Ан (лето 2015 г.). «Чей это вообще геном?: Повторная идентификация и защита конфиденциальности в публичной и совместной геномике» . Обзор права Сан-Диего . 52 (3): 751–806. ISSN 2994-9599 . OCLC 47865544 .
- ^ Рубинштейн, Ира С.; Харцог, Вудро (июнь 2016 г.). «Анонимизация и риск» . Вашингтонский юридический обзор . 91 (2): 703–760. ISSN 0043-0617 . OCLC 3899779 – через EBSCO.
- ^ Хардести, Ларри (27 марта 2013 г.). «Насколько сложно «деанонимизировать» данные мобильного телефона?» . Новости МТИ . Проверено 14 января 2015 г.
- ^ Мелисса Гимрек; Эми Л. Макгуайр; Дэвид Голан; Эран Гальперин; Янив Эрлих (18 января 2013 г.). «Определение личных геномов по фамилии». Наука . 339 (6117): 321–4. Бибкод : 2013Sci...339..321G . дои : 10.1126/SCIENCE.1229566 . ISSN 0036-8075 . ПМИД 23329047 . Викиданные Q29619963 .