CRM114 (программа)
CRM114 (полное название: «Дискриминатор CRM114») — это программа, основанная на статистическом подходе к классификации данных и особенно используемая для фильтрации спама в электронной почте .
Происхождение имени
[ редактировать ]Название происходит от дискриминатора CRM-114 из Стэнли Кубрика фильма «Доктор Стрейнджлав» — радиооборудования, предназначенного для фильтрации сообщений, не имеющих определенного кодового префикса.
Операция
[ редактировать ]В то время как другие используют статистическую байесовскую фильтрацию спама на основе частоты появления отдельных слов в электронной почте, CRM114 достигает более высокого уровня распознавания спама за счет создания обращений на основе фраз длиной до пяти слов. Эти фразы используются для формирования марковского случайного поля, представляющего входящие тексты. Благодаря этому дополнительному контекстному распознаванию это один из наиболее точных доступных спам-фильтров. Первоначальное тестирование в 2002 году автором Биллом Еразунисом. [1] дал точность 99,87%; [2] Холден [3] и ТРЕК 2005 и 2006 гг. [4] [5] дали результаты выше 99% со значительными вариациями в зависимости от конкретного корпуса.
CRM114 Классификатор также можно переключить на использование алгоритма Литтлстоуна Winnow , посимвольной корреляции , варианта классификации KNN ( алгоритма K-ближайшего соседа ), называемого Hyperspace, бит-энтропийного классификатора, который использует энтропийное кодирование для определения сходства, SVM , по взаимной сжимаемости, рассчитанной с помощью модифицированного алгоритма LZ77 , и других более экспериментальных классификаторов. Фактические сопоставленные функции основаны на обобщении скип-грамм .
Алгоритмы CRM114 являются многоязычными (совместимы с кодировками UTF-8 ) и безопасными для нулевых значений. Было продемонстрировано, что набор классификаторов CRM114 с голосованием обнаруживает конфиденциальные и неконфиденциальные документы, написанные на японском языке, с уровнем обнаружения выше 99,9% и уровнем ложных тревог 5,3%. [6]
CRM114 — хороший пример программного обеспечения для распознавания образов , демонстрирующий, как машинное обучение может быть реализовано с помощью достаточно простого алгоритма. Исходный код программы на языке C доступен под лицензией GPL .
На более глубоком уровне CRM114 также является языком сопоставления строковых шаблонов, похожим на grep или даже Perl ; хотя он является полным по Тьюрингу, он хорошо настроен на сопоставление текста, и даже простое (рекурсивное) определение факториала занимает почти десять строк. Частично это связано с тем, что синтаксис языка crm114 является не позиционным , а склонительным . Как язык программирования, он может использоваться для многих других приложений, помимо обнаружения спама. CRM114 использует TRE приблизительного соответствия механизм регулярных выражений , поэтому можно писать программы, правильное функционирование которых не зависит от совпадения абсолютно идентичных строк.
CRM114 применен для фильтрации электронной почты в клиенте KMail. [7] [8] и ряд других приложений, включая обнаружение ботов в Twitter и Yahoo, [9] [10] а также фильтр первого уровня в системе обнаружения дефектов транспортных средств Министерства транспорта США. [11] Он также использовался в качестве метода прогнозирования для классификации склонных к сбоям программных модулей. [12]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Гарретсон, Кара (19 марта 2007 г.). «Антиспамщик» . Сетевой мир .
- ^ «CRM114 получает 99,87%» . Пола Грэма Веб-сайт . 16 октября 2002 г.
- ^ Фильтрация спама II
- ^ Обзор отслеживания спама (2005 г.) - TREC 2005 г.
- ^ Обзор отслеживания спама (2006 г.) - TREC 2005 г.
- ^ «Архивная копия» (PDF) . media.blackhat.com . Архивировано из оригинала (PDF) 8 июля 2011 г.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка ) - ^ «Удаление спама с помощью CRM114 и KMail» . Архивировано из оригинала 01 октября 2019 г. Проверено 1 октября 2019 г.
- ^ «kmail.antispamrc в KDE/kdepim-addons» . Гитхаб . 12 июня 2022 г.
- ^ Чу, Цзы; Джанвеккьо, Стивен; Ван, Хайнин; Яйодиа, Сушил (ноябрь 2012 г.). «Обнаружение автоматизации учетных записей Twitter: вы человек, бот или киборг?» . Транзакции IEEE для надежных и безопасных вычислений . 9 (6): 811–824. дои : 10.1109/TDSC.2012.75 . ISSN 1545-5971 . S2CID 351844 .
- ^ «Измерение и классификация людей и ботов в интернет-чате» . Усеникс . Проверено 16 января 2023 г.
- ^ Сковель III, Кэлвин Л. (18 июня 2015 г.). Неадекватные данные и анализ подрывают усилия NHTSA по выявлению и расследованию проблем безопасности транспортных средств (PDF) (Отчет). Офис Генерального инспектора – Министерство транспорта США.
- ^ Мизуно, Осаму; Иками, Сиро; Накаичи, Сюя; Кикуно, Тору (май 2007 г.). «Подход на основе спам-фильтра для поиска уязвимых программных модулей» . Четвертый международный семинар по репозиториям программного обеспечения для майнинга (MSR'07:ICSE Workshops 2007) . п. 4. дои : 10.1109/MSR.2007.29 . ISBN 978-0-7695-2950-9 . S2CID 5867386 .