Jump to content

Статистическая база данных

Статистическая база данных это база данных , используемая для целей статистического анализа. Это система OLAP (онлайн-аналитическая обработка), а не OLTP (онлайн-обработка транзакций). Современные решения и классические статистические базы данных часто ближе к реляционной модели, чем к многомерной модели, обычно используемой сегодня в системах OLAP .

Статистические базы данных обычно содержат данные о параметрах и данные измерений для этих параметров. Например, данные параметров состоят из разных значений для различных условий эксперимента (например, температуры, времени). Измеренные данные (или переменные) представляют собой измерения, проведенные в эксперименте в этих изменяющихся условиях.

Многие статистические базы данных разрежены и содержат множество нулевых или нулевых значений. Статистическая база данных нередко бывает разреженной на 40–50%. Есть два варианта справиться с разреженностью: (1) оставить там нулевые значения и использовать методы сжатия, чтобы выжать их, или (2) удалить записи, которые имеют только нулевые значения.

Статистические базы данных часто включают поддержку передовых методов статистического анализа, таких как корреляции, выходящих за рамки SQL . Они также создают уникальные проблемы безопасности , которые были в центре внимания многих исследований, особенно в конце 1970-х и начале-середине 1980-х годов.

Конфиденциальность в статистических базах данных

[ редактировать ]

В статистической базе данных часто желательно разрешить доступ для запросов только к агрегированным данным, а не к отдельным записям. Защита такой базы данных является сложной проблемой, поскольку умные пользователи могут использовать комбинацию совокупных запросов для получения информации об одном человеке.

Некоторые общие подходы:

  • разрешены только агрегатные запросы (SUM, COUNT, AVG, STDEV и т. д.)
  • вместо того, чтобы возвращать точные значения для конфиденциальных данных, таких как доход, возвращайте только тот раздел, к которому они принадлежат (например, 35–40 тыс.)
  • возвращать неточные подсчеты (например, вместо того, чтобы 141 запись соответствовала запросу, укажите только 130-150 записей).
  • не допускайте слишком избирательного предложения WHERE
  • проверять все запросы пользователей, чтобы можно было расследовать действия пользователей, неправильно использующих систему
  • использовать интеллектуальные агенты для автоматического обнаружения ненадлежащего использования системы

На протяжении многих лет исследования в этой области застопорились, и в 1980 году считалось, что, цитируя:

Вывод состоит в том, что статистические базы данных почти всегда подвергаются компрометации. Жесткие ограничения на допустимые размеры наборов запросов сделают базу данных бесполезной как источник статистической информации, но не обеспечат безопасность конфиденциальных записей. [1]

Но в 2006 году Синтия Дворк определила область дифференцированной конфиденциальности , используя работу, которая начала появляться в 2003 году. Показав, что некоторые семантические цели безопасности, связанные с работами Торе Далениуса , были невозможными, она определила новые методы ограничения повышенного риска конфиденциальности, возникающего в результате от включения частных данных в статистическую базу данных. Это позволяет во многих случаях предоставлять очень точную статистику из базы данных, сохраняя при этом высокий уровень конфиденциальности. [2] [3]

  1. ^ Дороти Э. Деннинг, Питер Дж. Деннинг и Майер Д. Шварц, «Трекер: угроза безопасности статистических баз данных», Транзакции ACM в системах баз данных (TODS), том 4, выпуск 1 (март 1979 г.), Страницы: 76 - 96, дои : 10.1145/320064.320069 .
  2. ^ ХИЛТОН, Майкл. «Дифференциальная конфиденциальность: исторический обзор» (PDF) . S2CID   16861132 . Архивировано из оригинала (PDF) 1 марта 2017 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  3. ^ Дворк, Синтия (25 апреля 2008 г.). «Дифференциальная конфиденциальность: обзор результатов» . В Агравале — Маниндра; Ду, Динчжу; Дуань, Чжэньхуа; Ли, Ангшэн (ред.). Теория и приложения моделей вычислений . Конспекты лекций по информатике. Том. 4978. Шпрингер Берлин Гейдельберг. стр. 1–19. дои : 10.1007/978-3-540-79228-4_1 . ISBN  9783540792277 .

Дальнейшее чтение

[ редактировать ]

Важная серия конференций в этой области:

Некоторые ключевые документы в этой области:

  1. doi : 10.1145/320613.320616 - Дороти Э. Деннинг, Безопасные статистические базы данных с помощью запросов случайной выборки, Транзакции ACM в системах баз данных (TODS), том 5, выпуск 3 (сентябрь 1980 г.), страницы: 291–315
  2. doi : 10.1145/319830.319834 - Вибрен де Йонге, Компрометация статистических баз данных, отвечающих на запросы о средствах, Транзакции ACM в системах баз данных, том 8, выпуск 1 (март 1983 г.), страницы: 60–80
  3. doi : 10.1145/320128.320138 - Дороти Э. Деннинг, Ян Шлерер, Быстрая процедура поиска средства отслеживания в статистической базе данных, Транзакции ACM в системах баз данных, том 5, выпуск 1 (март 1980 г.). Страницы: 88 - 102
  4. А. Шошани, «Статистические базы данных: характеристики, проблемы и некоторые решения», в материалах 8-й Международной конференции по очень большим базам данных, Сан-Франциско, Калифорния, США, 1982, стр. 208–222.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: cd3544bc81c33cd17a1d40ab7851eb6e__1720968480
URL1:https://arc.ask3.ru/arc/aa/cd/6e/cd3544bc81c33cd17a1d40ab7851eb6e.html
Заголовок, (Title) документа по адресу, URL1:
Statistical database - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)