Jump to content

л - разнообразие

l -diversity , также записываемый как -diversity , представляет собой форму групповой анонимизации , которая используется для сохранения конфиденциальности в наборах данных за счет уменьшения детализации представления данных . Это сокращение является компромиссом, который приводит к некоторой потере эффективности алгоритмов управления данными или интеллектуального анализа ради обеспечения некоторой конфиденциальности. Модель l -разнообразия является расширением модели k- анонимности , которая снижает степень детализации представления данных с помощью методов, включая обобщение и подавление, так что любая данная запись сопоставляется как минимум с k-1 другими записями в данных. Модель l -разнообразия устраняет некоторые недостатки модели k- анонимности, когда защита идентичности до уровня k -индивидуалов не эквивалентна защите соответствующих чувствительных ценностей, которые были обобщены или подавлены, особенно когда чувствительные ценности внутри группы проявляются. однородность. Модель l -diversity добавляет поощрение внутригруппового разнообразия для чувствительных ценностей в механизме анонимизации.

Атаки на k- анонимность

[ редактировать ]

Хотя k -анонимность является многообещающим подходом для групповой анонимизации, учитывая ее простоту и широкий набор алгоритмов, которые ее выполняют, тем не менее, она подвержена множеству атак. Когда злоумышленнику доступны базовые знания, такие атаки становятся еще более эффективными. К таким атакам относятся:

  • Атака на однородность . Эта атака использует случай, когда все значения конфиденциального значения в наборе из k записей идентичны. В таких случаях, даже если данные были k -анонимизированы, чувствительное значение для набора из k записей может быть точно предсказано.
  • Атака с использованием фоновых знаний . Эта атака использует связь между одним или несколькими атрибутами квазиидентификатора с конфиденциальным атрибутом, чтобы уменьшить набор возможных значений для конфиденциального атрибута. Например, Мачанавайджхала, Кифер, Герке и Венкитасубраманиам (2007) показали, что знание того, что сердечные приступы происходят с меньшей частотой у японских пациентов, можно использовать для сужения диапазона значений чувствительного признака заболевания пациента.

Формальное определение

[ редактировать ]

Учитывая существование таких атак, при которых для данных k- анонимности могут быть выведены конфиденциальные атрибуты, был создан метод l -diversity для дальнейшей k -анонимности за счет дополнительного поддержания разнообразия конфиденциальных полей. Книга «Интеллектуальный анализ данных с сохранением конфиденциальности - модели и алгоритмы » (2008 г.) [1] определяет l -разнообразие как:

Пусть aq*-блок представляет собой набор кортежей, нечувствительные значения которых обобщаются на q*. q*-блок является l -разнообразным, если он содержит l «хорошо представленных» значений для чувствительного атрибута S. Таблица является l -разнообразной, если каждый q*-блок в ней l -разнообразен.

Статья t -Closeness: конфиденциальность за пределами k -анонимности и l -разнообразия (2007 г.) [2] определяет l -разнообразие как:

Принцип l -разнообразия . Говорят, что класс эквивалентности имеет l -разнообразие, если существует по крайней мере l «хорошо представленных» значений для чувствительного атрибута. Говорят, что таблица имеет l -разнообразие, если каждый класс эквивалентности таблицы имеет l -разнообразие.

Мачанавайджхала и др. (2007) [3] определить «хорошо представленный» тремя возможными способами:

  1. Различное l -разнообразие . Простейшее определение гарантирует, что существует как минимум l различных значений для чувствительного поля в каждом классе эквивалентности.
  2. Энтропия l -разнообразие . Наиболее сложное определение определяет энтропию эквивалентного класса E как отрицание суммирования s по области чувствительного атрибута p ( E , s )log( p ( E , s )) где p ( E , s ) — это доля записей в E , которые имеют чувствительное значение s . Таблица имеет энтропийное l когда для каждого эквивалентного класса E -разнообразие , энтропия ( E ) ≥ log( l ).
  3. Рекурсивное ( c - l )-разнообразие . Компромиссное определение, которое гарантирует, что наиболее распространенное значение не будет появляться слишком часто, а менее распространенные значения не будут появляться слишком редко.

Аггарвал и Ю (2008) отмечают, что когда имеется более одного чувствительного поля, проблема l -разнообразия становится более сложной из-за дополнительных размерностей.

См. также

[ редактировать ]
  1. ^ Аггарвал, Чару К.; Ю, Филип С. (2008). «Общий обзор моделей и алгоритмов интеллектуального анализа данных, сохраняющих конфиденциальность» (PDF) . Интеллектуальный анализ данных с сохранением конфиденциальности – модели и алгоритмы . Спрингер. стр. 11–52. ISBN  978-0-387-70991-8 .
  2. ^ Ли, Нинхуэй; Ли, Тяньчэн; Венкатасубраманиан, С. (апрель 2007 г.). «Т-близость: конфиденциальность за пределами k-анонимности и l-разнообразия». 2007 г. 23-я Международная конференция IEEE по инженерии данных . стр. 106–115. CiteSeerX   10.1.1.158.6171 . дои : 10.1109/ICDE.2007.367856 . ISBN  978-1-4244-0802-3 . S2CID   2949246 .
  3. ^ Мачанавайджхала, Ашвин; Кифер, Дэниел; Герке, Йоханнес; Венкитасубраманиам, Мутурамакришнан (март 2007 г.). «L-разнообразие: конфиденциальность за пределами K-анонимности». Транзакции ACM по извлечению знаний из данных . 1 (1): 3–с. дои : 10.1145/1217299.1217302 . ISSN   1556-4681 . S2CID   679934 . Атака фоновыми знаниями. У Алисы есть друг по переписке по имени Умэко, который находится в той же больнице, что и Боб, и чьи записи пациентов также представлены в таблице, показанной на рисунке 2. Алиса знает, что Умэко — 21-летняя японка, которая в настоящее время живет в почтовом индексе. 13068. На основании этой информации Алиса узнает, что информация об Умэко содержится в записи под номером 1,2,3 или 4. Без дополнительной информации Алиса не уверена, подхватила ли Умэко вирус или у нее болезнь сердца. Однако хорошо известно, что у японцев чрезвычайно низкая заболеваемость сердечно-сосудистыми заболеваниями. Поэтому Алиса почти с уверенностью приходит к выводу, что Умеко заражена вирусной инфекцией.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f915353f06217292df7024ad1224951a__1721228820
URL1:https://arc.ask3.ru/arc/aa/f9/1a/f915353f06217292df7024ad1224951a.html
Заголовок, (Title) документа по адресу, URL1:
l-diversity - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)