Jump to content

CRM114 (программа)

CRM114 (полное название: «Дискриминатор CRM114») — это программа, основанная на статистическом подходе к классификации данных и особенно используемая для фильтрации спама в электронной почте .

Происхождение имени

[ редактировать ]

Название происходит от дискриминатора CRM-114 из Стэнли Кубрика фильма «Доктор Стрейнджлав» — радиооборудования, предназначенного для фильтрации сообщений, не имеющих определенного кодового префикса.

Операция

[ редактировать ]

В то время как другие используют статистическую байесовскую фильтрацию спама на основе частоты появления отдельных слов в электронной почте, CRM114 достигает более высокого уровня распознавания спама за счет создания обращений на основе фраз длиной до пяти слов. Эти фразы используются для формирования марковского случайного поля, представляющего входящие тексты. Благодаря этому дополнительному контекстному распознаванию это один из наиболее точных доступных спам-фильтров. Первоначальное тестирование в 2002 году автором Биллом Еразунисом. [1] дал точность 99,87%; [2] Холден [3] и ТРЕК 2005 и 2006 гг. [4] [5] дали результаты выше 99% со значительными вариациями в зависимости от конкретного корпуса.

CRM114 Классификатор также можно переключить на использование алгоритма Литтлстоуна Winnow , посимвольной корреляции , варианта классификации KNN ( алгоритма K-ближайшего соседа ), называемого Hyperspace, бит-энтропийного классификатора, который использует энтропийное кодирование для определения сходства, SVM , по взаимной сжимаемости, рассчитанной с помощью модифицированного алгоритма LZ77 , и других более экспериментальных классификаторов. Фактические сопоставленные функции основаны на обобщении скип-грамм .

Алгоритмы CRM114 являются многоязычными (совместимы с кодировками UTF-8 ) и безопасными для нулевых значений. Было продемонстрировано, что набор классификаторов CRM114 с голосованием обнаруживает конфиденциальные и неконфиденциальные документы, написанные на японском языке, с уровнем обнаружения выше 99,9% и уровнем ложных тревог 5,3%. [6]

CRM114 — хороший пример программного обеспечения для распознавания образов , демонстрирующий, как машинное обучение может быть реализовано с помощью достаточно простого алгоритма. Исходный код программы на языке C доступен под лицензией GPL .

На более глубоком уровне CRM114 также является языком сопоставления строковых шаблонов, похожим на grep или даже Perl ; хотя он является полным по Тьюрингу, он хорошо настроен на сопоставление текста, и даже простое (рекурсивное) определение факториала занимает почти десять строк. Частично это связано с тем, что синтаксис языка crm114 является не позиционным , а склонительным . Как язык программирования, он может использоваться для многих других приложений, помимо обнаружения спама. CRM114 использует TRE приблизительного соответствия механизм регулярных выражений , поэтому можно писать программы, правильное функционирование которых не зависит от совпадения абсолютно идентичных строк.

CRM114 применен для фильтрации электронной почты в клиенте KMail. [7] [8] и ряд других приложений, включая обнаружение ботов в Twitter и Yahoo, [9] [10] а также фильтр первого уровня в системе обнаружения дефектов транспортных средств Министерства транспорта США. [11] Он также использовался в качестве метода прогнозирования для классификации склонных к сбоям программных модулей. [12]

См. также

[ редактировать ]
  1. ^ Гарретсон, Кара (19 марта 2007 г.). «Антиспамщик» . Сетевой мир .
  2. ^ «CRM114 получает 99,87%» . Пола Грэма Веб-сайт . 16 октября 2002 г.
  3. ^ Фильтрация спама II
  4. ^ Обзор отслеживания спама (2005 г.) - TREC 2005 г.
  5. ^ Обзор отслеживания спама (2006 г.) - TREC 2005 г.
  6. ^ «Архивная копия» (PDF) . media.blackhat.com . Архивировано из оригинала (PDF) 8 июля 2011 г. {{cite web}}: CS1 maint: архивная копия в заголовке ( ссылка )
  7. ^ «Удаление спама с помощью CRM114 и KMail» . Архивировано из оригинала 01 октября 2019 г. Проверено 1 октября 2019 г.
  8. ^ «kmail.antispamrc в KDE/kdepim-addons» . Гитхаб . 12 июня 2022 г.
  9. ^ Чу, Цзы; Джанвеккьо, Стивен; Ван, Хайнин; Яйодиа, Сушил (ноябрь 2012 г.). «Обнаружение автоматизации учетных записей Twitter: вы человек, бот или киборг?» . Транзакции IEEE для надежных и безопасных вычислений . 9 (6): 811–824. дои : 10.1109/TDSC.2012.75 . ISSN   1545-5971 . S2CID   351844 .
  10. ^ «Измерение и классификация людей и ботов в интернет-чате» . Усеникс . Проверено 16 января 2023 г.
  11. ^ Сковель III, Кэлвин Л. (18 июня 2015 г.). Неадекватные данные и анализ подрывают усилия NHTSA по выявлению и расследованию проблем безопасности транспортных средств (PDF) (Отчет). Офис Генерального инспектора – Министерство транспорта США.
  12. ^ Мизуно, Осаму; Иками, Сиро; Накаичи, Сюя; Кикуно, Тору (май 2007 г.). «Подход на основе спам-фильтра для поиска уязвимых программных модулей» . Четвертый международный семинар по репозиториям программного обеспечения для майнинга (MSR'07:ICSE Workshops 2007) . п. 4. дои : 10.1109/MSR.2007.29 . ISBN  978-0-7695-2950-9 . S2CID   5867386 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 41cff9d05dd311c0367e3bc3be414357__1716004500
URL1:https://arc.ask3.ru/arc/aa/41/57/41cff9d05dd311c0367e3bc3be414357.html
Заголовок, (Title) документа по адресу, URL1:
CRM114 (program) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)