л - разнообразие
l -diversity , также записываемый как ℓ -diversity , представляет собой форму групповой анонимизации , которая используется для сохранения конфиденциальности в наборах данных за счет уменьшения детализации представления данных . Это сокращение является компромиссом, который приводит к некоторой потере эффективности алгоритмов управления данными или интеллектуального анализа ради обеспечения некоторой конфиденциальности. Модель l -разнообразия является расширением модели k- анонимности , которая снижает степень детализации представления данных с помощью методов, включая обобщение и подавление, так что любая данная запись сопоставляется как минимум с k-1 другими записями в данных. Модель l -разнообразия устраняет некоторые недостатки модели k- анонимности, когда защита идентичности до уровня k -индивидуалов не эквивалентна защите соответствующих чувствительных ценностей, которые были обобщены или подавлены, особенно когда чувствительные ценности внутри группы проявляются. однородность. Модель l -diversity добавляет поощрение внутригруппового разнообразия для чувствительных ценностей в механизме анонимизации.
Атаки на k- анонимность
[ редактировать ]Хотя k -анонимность является многообещающим подходом для групповой анонимизации, учитывая ее простоту и широкий набор алгоритмов, которые ее выполняют, тем не менее, она подвержена множеству атак. Когда злоумышленнику доступны базовые знания, такие атаки становятся еще более эффективными. К таким атакам относятся:
- Атака на однородность . Эта атака использует случай, когда все значения конфиденциального значения в наборе из k записей идентичны. В таких случаях, даже если данные были k -анонимизированы, чувствительное значение для набора из k записей может быть точно предсказано.
- Атака с использованием фоновых знаний . Эта атака использует связь между одним или несколькими атрибутами квазиидентификатора с конфиденциальным атрибутом, чтобы уменьшить набор возможных значений для конфиденциального атрибута. Например, Мачанавайджхала, Кифер, Герке и Венкитасубраманиам (2007) показали, что знание того, что сердечные приступы происходят с меньшей частотой у японских пациентов, можно использовать для сужения диапазона значений чувствительного признака заболевания пациента.
Формальное определение
[ редактировать ]Учитывая существование таких атак, при которых для данных k- анонимности могут быть выведены конфиденциальные атрибуты, был создан метод l -diversity для дальнейшей k -анонимности за счет дополнительного поддержания разнообразия конфиденциальных полей. Книга «Интеллектуальный анализ данных с сохранением конфиденциальности - модели и алгоритмы » (2008 г.) [1] определяет l -разнообразие как:
Пусть aq*-блок представляет собой набор кортежей, нечувствительные значения которых обобщаются на q*. q*-блок является l -разнообразным, если он содержит l «хорошо представленных» значений для чувствительного атрибута S. Таблица является l -разнообразной, если каждый q*-блок в ней l -разнообразен.
Статья t -Closeness: конфиденциальность за пределами k -анонимности и l -разнообразия (2007 г.) [2] определяет l -разнообразие как:
Принцип l -разнообразия . Говорят, что класс эквивалентности имеет l -разнообразие, если существует по крайней мере l «хорошо представленных» значений для чувствительного атрибута. Говорят, что таблица имеет l -разнообразие, если каждый класс эквивалентности таблицы имеет l -разнообразие.
Мачанавайджхала и др. (2007) [3] определить «хорошо представленный» тремя возможными способами:
- Различное l -разнообразие . Простейшее определение гарантирует, что существует как минимум l различных значений для чувствительного поля в каждом классе эквивалентности.
- Энтропия l -разнообразие . Наиболее сложное определение определяет энтропию эквивалентного класса E как отрицание суммирования s по области чувствительного атрибута p ( E , s )log( p ( E , s )) где p ( E , s ) — это доля записей в E , которые имеют чувствительное значение s . Таблица имеет энтропийное l когда для каждого эквивалентного класса E -разнообразие , энтропия ( E ) ≥ log( l ).
- Рекурсивное ( c - l )-разнообразие . Компромиссное определение, которое гарантирует, что наиболее распространенное значение не будет появляться слишком часто, а менее распространенные значения не будут появляться слишком редко.
Аггарвал и Ю (2008) отмечают, что когда имеется более одного чувствительного поля, проблема l -разнообразия становится более сложной из-за дополнительных размерностей.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Аггарвал, Чару К.; Ю, Филип С. (2008). «Общий обзор моделей и алгоритмов интеллектуального анализа данных, сохраняющих конфиденциальность» (PDF) . Интеллектуальный анализ данных с сохранением конфиденциальности – модели и алгоритмы . Спрингер. стр. 11–52. ISBN 978-0-387-70991-8 .
- ^ Ли, Нинхуэй; Ли, Тяньчэн; Венкатасубраманиан, С. (апрель 2007 г.). «Т-близость: конфиденциальность за пределами k-анонимности и l-разнообразия». 2007 г. 23-я Международная конференция IEEE по инженерии данных . стр. 106–115. CiteSeerX 10.1.1.158.6171 . дои : 10.1109/ICDE.2007.367856 . ISBN 978-1-4244-0802-3 . S2CID 2949246 .
- ^ Мачанавайджхала, Ашвин; Кифер, Дэниел; Герке, Йоханнес; Венкитасубраманиам, Мутурамакришнан (март 2007 г.). «L-разнообразие: конфиденциальность за пределами K-анонимности». Транзакции ACM по извлечению знаний из данных . 1 (1): 3–с. дои : 10.1145/1217299.1217302 . ISSN 1556-4681 . S2CID 679934 .
Атака фоновыми знаниями. У Алисы есть друг по переписке по имени Умэко, который находится в той же больнице, что и Боб, и чьи записи пациентов также представлены в таблице, показанной на рисунке 2. Алиса знает, что Умэко — 21-летняя японка, которая в настоящее время живет в почтовом индексе. 13068. На основании этой информации Алиса узнает, что информация об Умэко содержится в записи под номером 1,2,3 или 4. Без дополнительной информации Алиса не уверена, подхватила ли Умэко вирус или у нее болезнь сердца. Однако хорошо известно, что у японцев чрезвычайно низкая заболеваемость сердечно-сосудистыми заболеваниями. Поэтому Алиса почти с уверенностью приходит к выводу, что Умеко заражена вирусной инфекцией.