Jump to content

Нечеткое хеширование

Нечеткое хеширование , также известное как хеширование по сходству. [1] — это метод обнаружения данных, которые похожи , но не совсем совпадают с другими данными. В этом отличие от криптографических хэш-функций , которые разработаны так, чтобы иметь существенно разные хеш-функции даже при незначительных различиях. Нечеткое хеширование использовалось для идентификации вредоносного ПО [2] [3] и имеет потенциал для других приложений, таких как предотвращение потери данных и обнаружение нескольких версий кода. [4] [5]

Хэш -функция — это математический алгоритм, который сопоставляет данные произвольного размера с выходными данными фиксированного размера. Многие решения используют криптографические хэш-функции, такие как SHA-256, для обнаружения дубликатов или проверки известных файлов в большой коллекции файлов. [4] Однако криптографические хэш-функции нельзя использовать для определения того, похож ли файл на известный файл, поскольку одно из требований криптографической хэш-функции состоит в том, что небольшое изменение входных данных должно изменить хеш-значение настолько сильно, что новое хеш-значение выглядит некоррелированным со старым значением хеш-функции ( лавинный эффект ) [6]

Нечеткое хеширование существует для решения проблемы обнаружения данных, которые похожи, но не совсем совпадают с другими данными. Алгоритмы нечеткого хеширования специально используют алгоритмы, в которых два одинаковых входных сигнала генерируют два одинаковых значения хеш-функции. Это свойство является полной противоположностью лавинного эффекта, желаемого в криптографических хэш-функциях.

Нечеткое хеширование также можно использовать для определения того, содержится ли один объект внутри другого. [1]

Подходы к нечеткому хешированию

[ редактировать ]

Существует несколько подходов, используемых для построения алгоритмов нечеткого хеширования: [7] [5]

Известные инструменты и алгоритмы нечеткого хеширования

[ редактировать ]
  • spamsum — это инструмент, написанный Эндрю Триджелом , который использует нечеткое хеширование, чтобы определить, похоже ли электронное письмо на известный спам. Он работает путем создания нечеткого хеша для электронного письма, который сравнивается с нечеткими хэшами известных спам-сообщений, чтобы получить результат соответствия от 0 (полное несоответствие) до 100 (идеальное совпадение). Если результат совпадения достаточно высок, электронное письмо классифицируется как спам. [9] [10]
  • Nilsimsa Hash — это алгоритм хеширования, ориентированный на защиту от спама и зависящий от местоположения .
  • ssdeep — это инструмент нечеткого хеширования, основанный на кусочно-зависимом хешировании для сравнения файлов. [4]
  • sdhash — это инструмент нечеткого хеширования, основанный на использовании фильтров Блума для определения того, содержится ли один файл в другом или насколько два файла похожи друг на друга. [11]
  • TLSH — это схема хеширования с учетом местоположения для сравнения файлов на предмет схожести друг с другом, которая используется для кластеризации вредоносных программ. [12]

См. также

[ редактировать ]
  1. ^ Jump up to: Перейти обратно: а б Брайтингер, Франк (май 2014 г.). «Специальная публикация NIST 800-168» (PDF) . Публикации НИСТ . дои : 10.6028/NIST.SP.800-168 . Проверено 11 января 2023 г.
  2. ^ Пагани, Фабио; Делл'Амико, Маттео; Бальзаротти, Давиде (13 марта 2018 г.). «За пределами точности и отзыва» (PDF) . Материалы восьмой конференции ACM по безопасности и конфиденциальности данных и приложений . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 354–365. дои : 10.1145/3176258.3176306 . ISBN  9781450356329 . Проверено 12 декабря 2022 г.
  3. ^ Сарантинос, Николаос; Бензаид, Чафика; Арабиат, Омар (2016). «Судебно-медицинский анализ вредоносных программ: ценность алгоритмов нечеткого хеширования в выявлении сходств» . IEEE Trustcom/BigDataSE/ISPA, 2016 г. (PDF) . стр. 1782–1787. дои : 10.1109/TrustCom.2016.0274 . ISBN  978-1-5090-3205-1 . S2CID   32568938 . 10.1109/ТрастКом.2016.0274.
  4. ^ Jump up to: Перейти обратно: а б с Корнблюм, Джесси (2006). «Идентификация почти идентичных файлов с использованием контекстно-зависимого кусочного хеширования» . Цифровое расследование . 3, Приложение (сентябрь 2006 г.): 91–97. дои : 10.1016/j.diin.2006.06.015 . Проверено 30 июня 2022 г.
  5. ^ Jump up to: Перейти обратно: а б Оливер, Джонатан; Ченг, Чун; Чен, Янгуй (2013). «TLSH — хэш, чувствительный к местоположению» (PDF) . 2013 Четвертый семинар по киберпреступности и надежным вычислениям . IEEE. стр. 7–13. дои : 10.1109/ctc.2013.9 . ISBN  978-1-4799-3076-0 . Проверено 12 декабря 2022 г.
  6. ^ Оливер, Джонатан; Хаген, Иосия (2021). «Проектирование элементов схемы нечеткого хеширования» (PDF) . 2021 IEEE 19-я Международная конференция по встраиваемым и повсеместным вычислениям (EUC) . IEEE. стр. 1–6. дои : 10.1109/euc53437.2021.00028 . ISBN  978-1-6654-0036-7 . Архивировано из оригинала (PDF) 14 апреля 2021 года . Проверено 14 апреля 2021 г.
  7. ^ «Дайджесты сходства с открытым исходным кодом DFRWS, август 2016 г.» (PDF) . tlsh.org . Проверено 11 декабря 2022 г.
  8. ^ «Спам README» . Самба.орг . Проверено 11 декабря 2022 г.
  9. ^ "спамсум.с" . Самба.орг . Проверено 11 декабря 2022 г.
  10. ^ Руссев, Василий (2010). «Отпечатки данных с помощью дайджестов сходства». Достижения в цифровой криминалистике VI . ИФИП: Достижения в области информационных и коммуникационных технологий. Том. 337. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 207–226. дои : 10.1007/978-3-642-15506-2_15 . ISBN  978-3-642-15505-5 . ISSN   1868-4238 .
  11. ^ «Быстрая кластеризация многомерных данных. Кластеризация набора данных базара вредоносного ПО» (PDF) . tlsh.org . Проверено 11 декабря 2022 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 846a5e48b33024998f098bde1365acb5__1714241940
URL1:https://arc.ask3.ru/arc/aa/84/b5/846a5e48b33024998f098bde1365acb5.html
Заголовок, (Title) документа по адресу, URL1:
Fuzzy hashing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)