Маскирование данных

Маскирование данных или запутывание данных — это процесс изменения конфиденциальных данных таким образом, чтобы они не представляли никакой ценности или имели незначительную ценность для несанкционированных злоумышленников, но при этом оставались пригодными для использования программным обеспечением или уполномоченным персоналом. Маскирование данных также можно назвать анонимизацией или токенизацией , в зависимости от контекста.

Основной причиной маскировки данных является защита информации, которая классифицируется как личная информация или критически важные данные. Однако данные должны оставаться пригодными для использования в целях проведения действительных циклов испытаний. Он также должен выглядеть реальным и последовательным. Чаще всего маскирование применяется к данным, представленным за пределами корпоративной производственной системы. Другими словами, там, где данные нужны для целей разработки приложений , построения программных расширений и проведения различных циклов тестирования . В корпоративных вычислениях обычной практикой является получение данных из производственных систем для заполнения компонента данных, необходимого для этих непроизводственных сред. Однако эта практика не всегда ограничивается непроизводственной средой. В некоторых организациях к данным, которые появляются на экранах терминалов операторам колл-центров, может быть применена динамическая маскировка на основе разрешений безопасности пользователя (например, запрет операторам колл-центров просматривать номера кредитных карт в биллинговых системах).

Основная проблема с точки зрения корпоративного управления ^[1] заключается в том, что персонал, выполняющий работу в этих непроизводственных средах, не всегда имеет допуск к работе с информацией, содержащейся в производственных данных. Такая практика представляет собой дыру в безопасности, при которой данные могут быть скопированы неавторизованным персоналом, а меры безопасности, связанные со стандартными средствами контроля на уровне производства, можно легко обойти. Это представляет собой точку доступа для нарушения безопасности данных .

Предыстория [ править ]

Данные, участвующие в любом маскировке или обфускации данных, должны оставаться значимыми на нескольких уровнях:

Данные должны оставаться значимыми для логики приложения. Например, если элементы адреса должны быть запутаны, а город и пригород заменены замещающими городами или пригородами, то, если в приложении есть функция, которая проверяет почтовый индекс или поиск почтового индекса, этой функции все равно должно быть разрешено работать без ошибку и действуйте как положено. То же самое справедливо и для проверок алгоритма кредитной карты и проверки номера социального страхования .
Данные должны претерпеть достаточное количество изменений, чтобы не было очевидно, что замаскированные данные взяты из источника производственных данных. Например, в организации может быть общеизвестно, что в ней 10 старших менеджеров, каждый из которых зарабатывает более 300 тысяч долларов. Если тестовая среда HR-системы организации также включает 10 личностей в одной и той же группе доходов, тогда можно собрать воедино другую информацию для обратного проектирования реальной личности. Теоретически, если данные явно замаскированы или запутаны, то для кого-то, намеревающегося взломать данные, было бы разумно предположить, что он мог бы провести обратный инжиниринг идентификационных данных, если бы он имел некоторую степень знания идентификационных данных в производственном наборе данных. Соответственно, запутывание данных или маскирование набора данных применяется таким образом, чтобы обеспечить защиту идентификационных и конфиденциальных записей данных, а не только отдельных элементов данных в отдельных полях и таблицах.
Маскированные значения могут быть согласованы в нескольких базах данных внутри организации, если каждая из баз данных содержит конкретный маскируемый элемент данных. Приложения могут первоначально обращаться к одной базе данных, а затем обращаться к другой для получения связанной информации, где внешний ключ был замаскирован (например, приложение колл-центра сначала извлекает данные из основной базы данных клиентов и, в зависимости от ситуации, впоследствии обращается к одной из нескольких других баз данных). базы данных с очень разными финансовыми продуктами.) Для этого требуется, чтобы применяемое маскирование было повторяемым (одно и то же входное значение алгоритма маскирования всегда дает одно и то же выходное значение), но не допускало возможности обратного проектирования для возврата к исходному значению. Дополнительные ограничения, упомянутые в пункте (1) выше, также могут применяться в зависимости от задействованного(их) элемента(ов) данных. Если в этом сценарии в базах данных, которые необходимо подключить, используются разные наборы символов, необходимо будет применить схему преобразования исходных значений в общее представление либо с помощью самого алгоритма маскировки, либо до вызова указанного алгоритма.

Техники [ править ]

Замена [ править ]

Замена — это один из наиболее эффективных методов маскировки данных, позволяющий сохранить аутентичный внешний вид записей данных.

Это позволяет выполнять маскирование таким образом, что существующее значение может быть заменено другим аутентичным значением. ^[2] Существует несколько типов полей данных, где этот подход обеспечивает оптимальную выгоду при маскировке общего подмножества данных относительно того, является ли он маскированным набором данных или нет. Например, если вы имеете дело с исходными данными, которые содержат записи о клиентах, реальная фамилия или имя могут быть случайным образом заменены из предоставленного или настроенного файла поиска. Если первый проход замены позволяет применять мужское имя ко всем именам, то второй проход должен разрешить применение женского имени ко всем именам, где пол равен «F». Используя этот подход, мы могли бы легко поддерживать гендерный состав в структуре данных, применять анонимность к записям данных, а также поддерживать реалистично выглядящую базу данных, которую нелегко было бы идентифицировать как базу данных, состоящую из замаскированных данных.

Этот метод замены необходимо применять для многих полей, которые есть в структурах баз данных по всему миру, таких как номера телефонов , почтовые индексы и почтовые индексы, а также номера кредитных карт и номера других типов карт, таких как номера социального страхования и номера Medicare , где эти числа на самом деле должны соответствовать проверке контрольной суммы алгоритма Луна .

В большинстве случаев файлы подстановки должны быть достаточно обширными, поэтому наличие больших наборов данных подстановки, а также возможность применять индивидуальные наборы подстановок данных должны быть ключевым элементом критериев оценки для любого решения по маскировке данных.

Перетасовка [ править ]

Метод перетасовки — очень распространенная форма запутывания данных. Он аналогичен методу подстановки, но извлекает набор подстановок из того же столбца данных, который маскируется. Проще говоря, данные в столбце перемешиваются случайным образом. ^[3] Однако при изолированном использовании любой человек, обладающий какими-либо знаниями об исходных данных, может затем применить сценарий «что, если» к набору данных, а затем собрать воедино реальную личность. Метод перетасовки также можно отменить, если удастся расшифровать алгоритм перетасовки. ^{[ нужна ссылка ]}

Перетасовка данных позволяет преодолеть сомнения по поводу использования искаженных или измененных конфиденциальных данных, поскольку она сохраняет все желаемые свойства искажения, но при этом работает лучше, чем другие методы маскировки, как с точки зрения полезности данных, так и с точки зрения риска раскрытия. ^[3]

Однако в определенных областях перетасовка имеет некоторые реальные преимущества. Если, например, цифры финансовой информации на конец года находятся в тестовой базе данных, можно замаскировать имена поставщиков, а затем перетасовать значения счетов по всей замаскированной базе данных. Крайне маловероятно, что кто-либо, даже тот, кто хорошо знаком с исходными данными, сможет вернуть истинную запись данных к ее исходным значениям.

Разница в числе и дате [ править ]

Метод числового отклонения очень полезен для применения к финансовым и дата-ориентированным информационным полям. Фактически, метод, использующий этот способ маскировки, все же может оставить значимый диапазон в наборе финансовых данных, таких как расчет заработной платы. Если примененное отклонение составляет около +/- 10%, то это по-прежнему очень значимый набор данных с точки зрения диапазонов заработной платы, выплачиваемой получателям.

То же самое относится и к информации о дате. Если общий набор данных должен сохранять целостность демографических и актуарных данных, то применение случайного числового отклонения +/- 120 дней к дате в полях сохранит распределение дат, но все равно предотвратит возможность отслеживания обратного пути к известному объекту на основе его известных данных. фактическая дата или рождение или известное значение даты для любой маскируемой записи.

Шифрование [ править ]

Шифрование часто является наиболее сложным подходом к решению проблемы маскировки данных. шифрования Алгоритм часто требует применения «ключа» для просмотра данных на основе прав пользователя. Часто это кажется лучшим решением, но на практике ключ может быть передан персоналу без соответствующих прав на просмотр данных. Тогда это противоречит цели маскировочного упражнения. Старые базы данных могут затем быть скопированы с исходными учетными данными предоставленного ключа, и та же неконтролируемая проблема сохранится.

Недавно проблема шифрования данных с сохранением свойств объектов получила признание и вновь приобрела интерес среди поставщиков и научных кругов. Новая задача породила алгоритмы, выполняющие шифрование с сохранением формата . Они основаны на принятом алгоритмическом режиме Advanced Encryption Standard (AES), признанном NIST . ^[4]

Обнуление или удаление [ править ]

Иногда применяется очень упрощенный подход к маскировке путем применения нулевого значения к определенному полю. Подход с нулевым значением на самом деле полезен только для предотвращения видимости элемента данных.

Почти во всех случаях это снижает степень целостности данных , сохраняемую в маскированном наборе данных. Это нереалистичное значение, и в таком случае он не сможет выполнить любую проверку логики приложения, которая могла быть применена во внешнем программном обеспечении тестируемой системы. Это также указывает всем, кто желает провести реверс-инжиниринг любых идентификационных данных, о том, что к набору данных в той или иной степени была применена маскировка данных.

Маскировка [ править ]

Скремблирование символов или маскирование определенных полей также является еще одним упрощенным, но очень эффективным методом предотвращения просмотра конфиденциальной информации. На самом деле это расширение предыдущего метода обнуления, но здесь больше внимания уделяется сохранению реальных данных, а не их полной маскировки.

Обычно это применяется к данным кредитных карт в производственных системах. Например, оператор колл-центра может выставить счет за товар на кредитную карту клиента. Затем они указывают платежную ссылку на карту, содержащую последние 4 цифры XXXX XXXX xxxx 6789. Как оператор, они могут видеть только последние 4 цифры номера карты, но как только биллинговая система передает данные клиента для оплаты, полная номер раскрывается системам платежных шлюзов.

Эта система не очень эффективна для тестовых систем, но очень полезна для описанного выше сценария выставления счетов. Он также широко известен как метод динамического маскирования данных. ^[5]^[6]

Дополнительные сложные правила [ править ]

Дополнительные правила также могут быть включены в любое решение по маскировке независимо от того, как построены методы маскировки. Официальные документы, не зависящие от продукта ^[7] являются хорошим источником информации для изучения некоторых из наиболее распространенных сложных требований к корпоративным решениям по маскировке, которые включают правила внутренней синхронизации строк, правила внутренней синхронизации таблиц и таблицы. ^[8] к Правилам синхронизации таблиц.

Различные типы [ править ]

Маскирование данных тесно связано с данными испытаний здания. Двумя основными типами маскировки данных являются статическая и оперативная маскировка данных.

Статическое маскирование данных [ править ]

Статическое маскирование данных обычно выполняется для золотой копии базы данных, но также может применяться к значениям в других источниках, включая файлы. В средах БД администраторы производственных баз данных обычно загружают резервные копии таблиц в отдельную среду, сокращают набор данных до подмножества, содержащего данные, необходимые для определенного раунда тестирования (метод, называемый «подмножество»), применяют правила маскировки данных во время их обработки. в стазисе примените необходимые изменения кода из системы управления версиями и/или переместите данные в нужную среду. ^[9]

данных Детерминированное маскирование

Детерминированное маскирование — это процесс замены значения в столбце тем же значением, будь то в той же строке, той же таблице, той же базе данных/схеме и между экземплярами/серверами/типами баз данных. Пример. В базе данных есть несколько таблиц, каждая из которых имеет столбец с именем. При детерминированной маскировке имя всегда будет заменяться одним и тем же значением — «Линн» всегда станет «Дениз» — где бы «Линн» ни находилась в базе данных. ^[10]

данных Обфускация статистических

Существуют также альтернативы статическому маскированию данных, которые основаны на стохастических возмущениях данных, сохраняющих некоторые статистические свойства исходных данных. Примеры методов запутывания статистических данных включают дифференциальную конфиденциальность. ^[11]и метод DataSifter . ^[12]

Маскирование данных на лету [ править ]

Маскирование данных на лету ^[13] происходит в процессе передачи данных из среды в среду без соприкосновения данных с диском на своем пути. Тот же метод применяется к «Динамическому маскированию данных», но по одной записи за раз. Этот тип маскировки данных наиболее полезен для сред, в которых выполняется непрерывное развертывание, а также для сильно интегрированных приложений. Организации, использующие методы непрерывного развертывания или непрерывной доставки , не имеют времени, необходимого для создания резервной копии и загрузки ее в золотую копию базы данных. Таким образом, важна непрерывная отправка меньших поднаборов (дельт) маскированных данных тестирования из производства. В сильно интегрированных приложениях разработчики получают данные из других производственных систем в самом начале разработки, а маскирование этих каналов либо игнорируется, либо не закладывается в бюджет до более позднего периода, что приводит к несоответствию организаций требованиям. Наличие маскировки данных на лету становится необходимым.

Динамическое маскирование данных [ править ]

Динамическое маскирование данных похоже на оперативное маскирование данных, но отличается тем, что оперативное маскирование данных заключается в копировании данных из одного источника в другой, чтобы последний можно было использовать совместно. Динамическое маскирование данных происходит во время выполнения, динамически и по требованию, поэтому не требуется второй источник данных для динамического хранения замаскированных данных.

Динамическое маскирование данных допускает несколько сценариев, многие из которых связаны со строгими правилами конфиденциальности, например, Валютным управлением Сингапура или правилами конфиденциальности в Европе.

Динамическое маскирование данных основано на атрибутах и политиках. Политика включает в себя:

Врачи могут просматривать медицинские записи пациентов, к которым они прикреплены (фильтрация данных)
Врачи не могут просматривать поле SSN внутри медицинской карты (маскирование данных).

Динамическое маскирование данных также можно использовать для шифрования или дешифрования значений на лету, особенно при использовании шифрования с сохранением формата .

В последние годы появилось несколько стандартов для реализации динамической фильтрации и маскировки данных. Например, политики XACML можно использовать для маскировки данных внутри баз данных.

Существует шесть возможных технологий применения динамической маскировки данных:

В базе данных: База данных получает SQL-запрос и применяет перезапись к возвращаемому маскированному набору результатов. Применимо для разработчиков и администраторов баз данных, но не для приложений (поскольку пулы соединений, кэширование приложений и шина данных скрывают личность пользователя приложения от базы данных и также могут привести к повреждению данных приложения).
Сетевой прокси между приложением и базой данных: захватывает SQL и применяет перезапись к запросу выбора. Применимо для разработчиков и администраторов баз данных с простыми запросами выбора, но не для хранимых процедур (которые прокси-сервер идентифицирует только исполнителя) и приложений (поскольку пулы соединений, кэширование приложений и шина данных скрывают идентификатор пользователя приложения от базы данных и могут также привести к повреждению данных приложения).
Прокси базы данных: разновидность сетевого прокси. Прокси-сервер базы данных обычно развертывается между приложениями/пользователями и базой данных. Приложения и пользователи подключаются к базе данных через прокси-сервер безопасности базы данных. В способе подключения приложений и пользователей к базе данных изменений нет. Также нет необходимости устанавливать агент на сервере базы данных. Запросы sql были переписаны, но после реализации этот тип динамического маскировки данных также поддерживается в процедурах хранения и функциях базы данных.
Сетевой прокси между конечным пользователем и приложением: определение текстовых строк и их замена. Этот метод неприменим для сложных приложений, поскольку он легко может привести к повреждению при непреднамеренном применении замены строки в реальном времени.
Изменения кода в приложениях и XACML: изменения кода обычно сложно выполнить, невозможно поддерживать и они неприменимы для упакованных приложений.
Во время выполнения приложения: путем инструментирования времени выполнения приложения определяются политики для перезаписи набора результатов, возвращаемого из источников данных, при полной видимости для пользователя приложения. Этот метод является единственным применимым способом динамической маскировки сложных приложений, поскольку он позволяет контролировать запрос данных, результат данных и результат пользователя.
Поддерживается плагином браузера: в случае SaaS или локальных веб-приложений надстройки браузера можно настроить для маскировки полей данных, соответствующих точным селекторам CSS . Этого можно добиться либо путем маркировки конфиденциальных полей в приложении, например, с помощью класса HTML , либо путем поиска правильных селекторов, которые идентифицируют поля, которые необходимо замаскировать или замаскировать.

Маскирование данных и облако [ править ]

В последние годы организации все чаще разрабатывают свои новые приложения в облаке, независимо от того, будут ли конечные приложения размещаться в облаке или локально. Облачные решения на данный момент позволяют организациям использовать инфраструктуру как услугу , платформу как услугу и программное обеспечение как услугу . Существуют различные режимы создания тестовых данных и их перемещения из локальных баз данных в облако или между различными средами внутри облака. Динамическое маскирование данных становится еще более важным в облаке, когда клиентам необходимо защитить данные PII, полагаясь на поставщиков облачных услуг для администрирования своих баз данных.Маскирование данных неизменно становится частью этих процессов в жизненном цикле разработки систем (SLA) сред разработки (SDLC), поскольку соглашения об уровне обслуживания обычно не столь строги, как соглашения об уровне обслуживания производственных сред, независимо от того, размещается ли приложение в облаке. или локально.

См. также [ править ]

Маскировка и разоблачение спецслужб

Ссылки [ править ]

^ «Специалисты по управлению информацией» . ГБТ . Проверено 24 августа 2017 г.
^ Кобб, Майкл. «Что такое маскирование данных? Методы, типы и лучшие практики» . Поисковая безопасность . Проверено 17 ноября 2022 г.
^ Jump up to: ^а ^б Муралидхар, Кришнамурти; Сарати, Ратиндра (1 мая 2006 г.). «Перетасовка данных: новый подход к маскировке числовых данных» . Наука управления . 52 (5): 658–670. дои : 10.1287/mnsc.1050.0503 . ISSN 0025-1909 .
^ «Системы обработки данных с механизмами шифрования и дешифрования, сохраняющими формат» . Проверено 24 августа 2017 г.
^ «Решения IRI для динамического маскирования данных» . Проверено 24 августа 2017 г.
^ «Динамическое маскирование данных с помощью IBM Optim» . Проверено 24 августа 2017 г.
^ «Маскировка данных: что вам нужно знать» (PDF) . ООО «Нет2000» . Проверено 24 августа 2017 г.
^ «Объяснение правил синхронизации и сложного маскирования данных» . Проверено 24 августа 2017 г.
^ «Функции статического маскирования данных» . ИРИ . Проверено 24 августа 2017 г.
^ «Детерминированное маскирование данных» . ДАТПРОФ . 19 марта 2020 г. Проверено 29 апреля 2020 г.
^ US 7698250 , Синтия Дворк и Фрэнк МакШерри, «Дифференциальная конфиденциальность данных», опубликовано 13 апреля 2010 г., передано Microsoft Corp (оригинал) и Microsoft Technology Licensing LLC (текущий)
^ Марино, Симеоне; Чжоу, Нина; Чжао, И; Чжоу, Нина; У, Цючэн; Динов, Иво (2018). «DataSifter: статистическое запутывание электронных медицинских карт и других конфиденциальных наборов данных» . Журнал статистических вычислений и моделирования . 89 (2): 249–271. дои : 10.1080/00949655.2018.1545228 . ПМК 6450541 . ПМИД 30962669 .
^ «Устранение комплаенс-рисков — маскирование данных в облаке» . Проверено 24 августа 2017 г.

[1] «Специалисты по управлению информацией» . ГБТ . Проверено 24 августа 2017 г.

[2] Кобб, Майкл. «Что такое маскирование данных? Методы, типы и лучшие практики» . Поисковая безопасность . Проверено 17 ноября 2022 г.

[:0-3] Jump up to: ^а ^б Муралидхар, Кришнамурти; Сарати, Ратиндра (1 мая 2006 г.). «Перетасовка данных: новый подход к маскировке числовых данных» . Наука управления . 52 (5): 658–670. дои : 10.1287/mnsc.1050.0503 . ISSN 0025-1909 .

[4] «Системы обработки данных с механизмами шифрования и дешифрования, сохраняющими формат» . Проверено 24 августа 2017 г.

[5] «Решения IRI для динамического маскирования данных» . Проверено 24 августа 2017 г.

[6] «Динамическое маскирование данных с помощью IBM Optim» . Проверено 24 августа 2017 г.

[7] «Маскировка данных: что вам нужно знать» (PDF) . ООО «Нет2000» . Проверено 24 августа 2017 г.

[8] «Объяснение правил синхронизации и сложного маскирования данных» . Проверено 24 августа 2017 г.

[9] «Функции статического маскирования данных» . ИРИ . Проверено 24 августа 2017 г.

[10] «Детерминированное маскирование данных» . ДАТПРОФ . 19 марта 2020 г. Проверено 29 апреля 2020 г.

[11] US 7698250 , Синтия Дворк и Фрэнк МакШерри, «Дифференциальная конфиденциальность данных», опубликовано 13 апреля 2010 г., передано Microsoft Corp (оригинал) и Microsoft Technology Licensing LLC (текущий)

[12] Марино, Симеоне; Чжоу, Нина; Чжао, И; Чжоу, Нина; У, Цючэн; Динов, Иво (2018). «DataSifter: статистическое запутывание электронных медицинских карт и других конфиденциальных наборов данных» . Журнал статистических вычислений и моделирования . 89 (2): 249–271. дои : 10.1080/00949655.2018.1545228 . ПМК 6450541 . ПМИД 30962669 .

[13] «Устранение комплаенс-рисков — маскирование данных в облаке» . Проверено 24 августа 2017 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

v т и Информационная безопасность
Связанные категории безопасности	Компьютерная безопасность Автомобильная безопасность Киберпреступность Киберсекс-торговля Компьютерное мошенничество Кибергеддон Кибертерроризм Кибервойна Электромагнитная война Информационная война Интернет-безопасность Мобильная безопасность Сетевая безопасность Защита от копирования Управление цифровыми правами	vectorial version
Угрозы	Рекламное ПО Расширенная постоянная угроза Выполнение произвольного кода Бэкдоры Аппаратные бэкдоры Внедрение кода Криминальное ПО Межсайтовый скриптинг Межсайтовые утечки Затирание DOM Обнюхивание истории криптоджекинг Ботнеты Утечка данных Загрузка для проезда Вспомогательные объекты браузера Вирусы Парсинг данных Атака типа «отказ в обслуживании» Подслушивание Мошенничество по электронной почте Подмена электронной почты Эксплойты Хактивизм Небезопасная прямая ссылка на объект Регистраторы нажатий клавиш Логические бомбы Бомбы замедленного действия Вилочные бомбы Зип-бомбы Мошеннические дозвонщики Вредоносное ПО Полезная нагрузка Фишинг Голос Полиморфный движок Повышение привилегий программы-вымогатели Руткиты пугающие программы Шеллкод Спам Социальная инженерия Шпионское ПО Программные ошибки Троянские кони Аппаратные трояны Трояны удаленного доступа Уязвимость Веб-оболочки Стеклоочиститель Черви SQL-инъекция Мошенническое программное обеспечение безопасности Зомби
Защита	Безопасность приложений Безопасное кодирование Безопасно по умолчанию Безопасность благодаря дизайну Случай неправильного использования Контроль доступа к компьютеру Аутентификация Многофакторная аутентификация Авторизация Программное обеспечение компьютерной безопасности Антивирусное программное обеспечение Операционная система, ориентированная на безопасность Безопасность, ориентированная на данные Обфускация (программное обеспечение) Маскирование данных Шифрование Брандмауэр Система обнаружения вторжений Хост-система обнаружения вторжений (HIDS) Обнаружение аномалий Управление информацией о безопасности и событиями (SIEM) Мобильный безопасный шлюз Самозащита приложений во время выполнения Изоляция сайта