Статистическая база данных
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
— Статистическая база данных это база данных , используемая для целей статистического анализа. Это система OLAP (онлайн-аналитическая обработка), а не OLTP (онлайн-обработка транзакций). Современные решения и классические статистические базы данных часто ближе к реляционной модели, чем к многомерной модели, обычно используемой сегодня в системах OLAP .
Статистические базы данных обычно содержат данные о параметрах и данные измерений для этих параметров. Например, данные параметров состоят из разных значений для различных условий эксперимента (например, температуры, времени). Измеренные данные (или переменные) представляют собой измерения, проведенные в эксперименте в этих изменяющихся условиях.
Многие статистические базы данных разрежены и содержат множество нулевых или нулевых значений. Статистическая база данных нередко бывает разреженной на 40–50%. Есть два варианта справиться с разреженностью: (1) оставить там нулевые значения и использовать методы сжатия, чтобы выжать их, или (2) удалить записи, которые имеют только нулевые значения.
Статистические базы данных часто включают поддержку передовых методов статистического анализа, таких как корреляции, выходящих за рамки SQL . Они также создают уникальные проблемы безопасности , которые были в центре внимания многих исследований, особенно в конце 1970-х и начале-середине 1980-х годов.
Конфиденциальность в статистических базах данных
[ редактировать ]В статистической базе данных часто желательно разрешить доступ для запросов только к агрегированным данным, а не к отдельным записям. Защита такой базы данных является сложной проблемой, поскольку умные пользователи могут использовать комбинацию совокупных запросов для получения информации об одном человеке.
Некоторые общие подходы:
- разрешены только агрегатные запросы (SUM, COUNT, AVG, STDEV и т. д.)
- вместо того, чтобы возвращать точные значения для конфиденциальных данных, таких как доход, возвращайте только тот раздел, к которому они принадлежат (например, 35–40 тыс.)
- возвращать неточные подсчеты (например, вместо того, чтобы 141 запись соответствовала запросу, укажите только 130-150 записей).
- не допускайте слишком избирательного предложения WHERE
- проверять все запросы пользователей, чтобы можно было расследовать действия пользователей, неправильно использующих систему
- использовать интеллектуальные агенты для автоматического обнаружения ненадлежащего использования системы
На протяжении многих лет исследования в этой области застопорились, и в 1980 году считалось, что, цитируя:
- Вывод состоит в том, что статистические базы данных почти всегда подвергаются компрометации. Жесткие ограничения на допустимые размеры наборов запросов сделают базу данных бесполезной как источник статистической информации, но не обеспечат безопасность конфиденциальных записей. [1]
Но в 2006 году Синтия Дворк определила область дифференцированной конфиденциальности , используя работу, которая начала появляться в 2003 году. Показав, что некоторые семантические цели безопасности, связанные с работами Торе Далениуса , были невозможными, она определила новые методы ограничения повышенного риска конфиденциальности, возникающего в результате от включения частных данных в статистическую базу данных. Это позволяет во многих случаях предоставлять очень точную статистику из базы данных, сохраняя при этом высокий уровень конфиденциальности. [2] [3]
Ссылки
[ редактировать ]- ^ Дороти Э. Деннинг, Питер Дж. Деннинг и Майер Д. Шварц, «Трекер: угроза безопасности статистических баз данных», Транзакции ACM в системах баз данных (TODS), том 4, выпуск 1 (март 1979 г.), Страницы: 76 - 96, дои : 10.1145/320064.320069 .
- ^ ХИЛТОН, Майкл. «Дифференциальная конфиденциальность: исторический обзор» (PDF) . S2CID 16861132 . Архивировано из оригинала (PDF) 1 марта 2017 г.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Дворк, Синтия (25 апреля 2008 г.). «Дифференциальная конфиденциальность: обзор результатов» . В Агравале — Маниндра; Ду, Динчжу; Дуань, Чжэньхуа; Ли, Ангшэн (ред.). Теория и приложения моделей вычислений . Конспекты лекций по информатике. Том. 4978. Шпрингер Берлин Гейдельберг. стр. 1–19. дои : 10.1007/978-3-540-79228-4_1 . ISBN 9783540792277 .
Дальнейшее чтение
[ редактировать ]Важная серия конференций в этой области:
Некоторые ключевые документы в этой области:
- doi : 10.1145/320613.320616 - Дороти Э. Деннинг, Безопасные статистические базы данных с помощью запросов случайной выборки, Транзакции ACM в системах баз данных (TODS), том 5, выпуск 3 (сентябрь 1980 г.), страницы: 291–315
- doi : 10.1145/319830.319834 - Вибрен де Йонге, Компрометация статистических баз данных, отвечающих на запросы о средствах, Транзакции ACM в системах баз данных, том 8, выпуск 1 (март 1983 г.), страницы: 60–80
- doi : 10.1145/320128.320138 - Дороти Э. Деннинг, Ян Шлерер, Быстрая процедура поиска средства отслеживания в статистической базе данных, Транзакции ACM в системах баз данных, том 5, выпуск 1 (март 1980 г.). Страницы: 88 - 102
- А. Шошани, «Статистические базы данных: характеристики, проблемы и некоторые решения», в материалах 8-й Международной конференции по очень большим базам данных, Сан-Франциско, Калифорния, США, 1982, стр. 208–222.