Jump to content

Анализ данных для выявления мошенничества

Мошенничество представляет собой серьезную проблему для правительств и предприятий, и для выявления мошенничества с их использованием необходимы специальные методы анализа. Некоторые из этих методов включают обнаружение знаний в базах данных (KDD), интеллектуальный анализ данных , машинное обучение и статистику . Они предлагают применимые и успешные решения в различных областях электронного мошенничества. [1]

В целом, основной причиной использования методов анализа данных является борьба с мошенничеством, поскольку многие системы внутреннего контроля имеют серьезные недостатки. Например, в настоящее время преобладающий подход, используемый многими правоохранительными органами для выявления компаний, замешанных в потенциальных случаях мошенничества, заключается в получении косвенных доказательств или жалоб от информаторов. [2] В результате большое количество случаев мошенничества остаются незамеченными и не расследованными. Чтобы эффективно тестировать, обнаруживать, проверять, исправлять ошибки и контролировать системы управления на предмет мошеннических действий, предприятия и организации полагаются на специализированные методы анализа данных, такие как интеллектуальный анализ данных, сопоставление данных, функции , регрессионный анализ, кластерный анализ и т. д. анализ пробелов. [3] Методы, используемые для обнаружения мошенничества, делятся на два основных класса: статистические методы и искусственный интеллект . [4]

Статистические методы

[ редактировать ]

Примерами методов статистического анализа данных являются:

  • Методы предварительной обработки данных для обнаружения, проверки, исправления ошибок и заполнения отсутствующих или неверных данных.
  • Расчет различных статистических параметров, таких как средние значения , квантили , показатели производительности, распределения вероятностей и т. д. Например, средние значения могут включать среднюю продолжительность звонка, среднее количество звонков в месяц и средние задержки оплаты счетов.
  • Модели и распределения вероятностей различных видов деловой активности либо с точки зрения различных параметров, либо с точки зрения распределения вероятностей.
  • Вычисление профилей пользователей .
  • Анализ временных рядов данных, зависящих от времени. [5]
  • Кластеризация и классификация для поиска закономерностей и связей между группами данных. [5]
  • Сопоставление данных Сопоставление данных используется для сравнения двух наборов собранных данных. Процесс может выполняться на основе алгоритмов или запрограммированных циклов. Попытка сопоставить наборы данных друг с другом или сравнение сложных типов данных. Сопоставление данных используется для удаления повторяющихся записей и выявления связей между двумя наборами данных для маркетинга, безопасности или других целей. [3]
  • Похоже, функция используется для поиска значений, которые звучат похоже. Фонетическое сходство — это один из способов обнаружения возможных повторяющихся значений или непоследовательного написания в данных, введенных вручную. Функция «soundex» преобразует строки сравнения в четырехсимвольные американские коды Soundex, которые основаны на первой букве и первых трех согласных после первой буквы в каждой строке. [3]
  • Регрессионный анализ позволяет изучить взаимосвязь между двумя или более интересующими переменными. Регрессионный анализ оценивает отношения между независимыми переменными и зависимой переменной. Этот метод можно использовать для понимания и выявления взаимосвязей между переменными и прогнозирования фактических результатов. [3]
  • Анализ пробелов используется для определения того, выполняются ли бизнес-требования, а если нет, то какие шаги следует предпринять для успешного удовлетворения.
  • Алгоритмы сопоставления для обнаружения аномалий в поведении транзакций или пользователей по сравнению с ранее известными моделями и профилями. Также необходимы методы для устранения ложных тревог , оценки рисков и прогнозирования будущего текущих транзакций или пользователей.

Некоторые судебные бухгалтеры специализируются на судебной аналитике , которая представляет собой сбор и анализ электронных данных для реконструкции, обнаружения или иного подтверждения заявления о финансовом мошенничестве. Основными этапами судебной аналитики являются сбор данных , подготовка данных , анализ данных и составление отчетов. Например, судебно-медицинская аналитика может использоваться для проверки действий сотрудника по карточке покупок , чтобы оценить, были ли какие-либо покупки перенаправлены или могут быть перенаправлены для личного использования.

Искусственный интеллект

[ редактировать ]

Обнаружение мошенничества является наукоемкой деятельностью. Основные методы искусственного интеллекта, используемые для обнаружения мошенничества, включают:

  • Интеллектуальный анализ данных для классификации, кластеризации и сегментирования данных, а также автоматического поиска в данных ассоциаций и правил, которые могут указывать на интересные закономерности, в том числе связанные с мошенничеством.
  • Экспертные системы для кодирования опыта обнаружения мошенничества в форме правил.
  • Распознавание образов для обнаружения приблизительных классов, кластеров или шаблонов подозрительного поведения либо автоматически (без присмотра), либо в соответствии с заданными входными данными.
  • Методы машинного обучения для автоматического выявления характеристик мошенничества.
  • Нейронные сети позволяют независимо генерировать классификацию, кластеризацию, обобщение и прогнозирование, которые затем можно сравнить с выводами, полученными в ходе внутреннего аудита или официальных финансовых документов, таких как 10-Q . [5]

другие методы, такие как анализ ссылок , байесовские сети , теория принятия решений и сопоставление последовательностей . Для обнаружения мошенничества также используются [4] Там, где доступны ранговые данные, также использовался новый и новый метод, называемый подходом свойств системы. [6]

Статистический анализ данных исследований является наиболее полным методом определения наличия мошенничества с данными. Мошенничество с данными по определению Управления целостности исследований (ORI) включает в себя фальсификацию, фальсификацию и плагиат.

Машинное обучение и интеллектуальный анализ данных

[ редактировать ]

Ранние методы анализа данных были ориентированы на извлечение количественных и статистических характеристик данных. Эти методы облегчают полезную интерпретацию данных и помогают лучше понять процессы, лежащие в основе этих данных. Хотя традиционные методы анализа данных могут косвенно привести нас к знаниям, они по-прежнему создаются аналитиками-людьми. [7]

Чтобы выйти за рамки, система анализа данных должна быть оснащена значительным объемом базовых знаний и быть в состоянии выполнять задачи рассуждения, включающие эти знания и предоставленные данные. [7] Стремясь достичь этой цели, исследователи обратились к идеям из области машинного обучения. Это естественный источник идей, поскольку задачу машинного обучения можно описать как превращение базовых знаний и примеров (входные данные) в знания (выходные данные).

Если интеллектуальный анализ данных приводит к обнаружению значимых закономерностей, данные превращаются в информацию. Информация или закономерности, которые являются новыми, действительными и потенциально полезными, являются не просто информацией, а знаниями. Говорят об открытии знаний, ранее скрытых в огромном количестве данных, а теперь раскрытых.

Решения машинного обучения и искусственного интеллекта можно разделить на две категории: «контролируемое» и «неконтролируемое» обучение. Эти методы ищут учетные записи, клиентов, поставщиков и т. д., которые ведут себя «необычно», чтобы вывести оценки подозрительности, правила или визуальные аномалии, в зависимости от метода. [8]

Независимо от того, используются ли контролируемые или неконтролируемые методы, обратите внимание, что выходные данные дают нам только представление о вероятности мошенничества. Никакой отдельный статистический анализ не может гарантировать, что конкретный объект является мошенническим, но он может идентифицировать его с очень высокой степенью точности. В результате эффективное сотрудничество между моделью машинного обучения и аналитиками имеет жизненно важное значение для успеха приложений по обнаружению мошенничества. [9]

Обучение под присмотром

[ редактировать ]

При обучении с учителем берется случайная подвыборка всех записей и вручную классифицируется как «мошеннические» или «не мошеннические» (задача может быть разложена на большее количество классов в соответствии с требованиями алгоритма). Для относительно редких событий, таких как мошенничество, возможно, потребуется избыточная выборка, чтобы получить достаточно большой размер выборки. [10] Эти вручную классифицированные записи затем используются для обучения контролируемого алгоритма машинного обучения. После построения модели с использованием этих обучающих данных алгоритм должен иметь возможность классифицировать новые записи как мошеннические или немошеннические.

Контролируемые нейронные сети, нечеткие нейронные сети и комбинации нейронных сетей и правил широко исследовались и использовались для обнаружения мошенничества в сетях мобильной связи и мошенничества с финансовой отчетностью. [11] [12]

Нейронная сеть байесовского обучения реализована для обнаружения мошенничества с кредитными картами, телекоммуникационного мошенничества, обнаружения мошенничества с автоматическими заявлениями и мошенничества с медицинским страхованием. [13]

Гибридные системы знаний/статистики, в которых экспертные знания интегрированы со статистической мощью, используют ряд методов интеллектуального анализа данных с целью обнаружения мошенничества с сотовыми клонами. В частности, реализована программа изучения правил для выявления признаков мошеннического поведения в большой базе данных транзакций клиентов. [14]

Кэхилл и др. (2000) разработали сигнатуру мошенничества на основе данных мошеннических вызовов для обнаружения мошенничества в сфере телекоммуникаций. Для оценки звонка о мошенничестве его вероятность под подписью учетной записи сравнивается с его вероятностью под подписью мошенничества. Сигнатура мошенничества обновляется последовательно, что позволяет обнаруживать мошенничество на основе событий.

Анализ ссылок предполагает другой подход. Он связывает известных мошенников с другими лицами, используя методы связывания записей и социальных сетей. [15] [16]

Этот тип обнаружения способен обнаруживать только мошенничества, аналогичные тем, которые происходили ранее и были классифицированы человеком. Для обнаружения нового типа мошенничества может потребоваться использование неконтролируемого алгоритма машинного обучения.

Обучение без присмотра

[ редактировать ]

Напротив, неконтролируемые методы не используют помеченные записи.

Болтон и Хэнд используют анализ групп коллег и анализ точек останова, применяемые к покупательскому поведению на счетах кредитных карт. [17] Анализ одноранговой группы обнаруживает отдельные объекты, которые начинают вести себя иначе, чем объекты, на которые они ранее были похожи. Еще один инструмент, разработанный Болтоном и Хэндом для обнаружения поведенческого мошенничества, — это анализ точек останова. [17] В отличие от анализа групп коллег, анализ точек останова работает на уровне аккаунта. Точка останова — это наблюдение, при котором обнаруживается аномальное поведение для конкретной учетной записи. Оба инструмента применяются к покупательскому поведению на счетах кредитных карт.

Комбинация неконтролируемых и контролируемых методов обнаружения мошенничества с кредитными картами описана в Carcillo et al (2019). [18]

Геолокация

[ редактировать ]

Интернет-магазины и платежные системы используют геолокацию для обнаружения возможного мошенничества с кредитными картами , сравнивая местоположение пользователя с платежным адресом в учетной записи или предоставленным адресом доставки. Несоответствие – например, заказ, размещенный из США на номер счета из Токио – является сильным индикатором потенциального мошенничества. Геолокацию IP-адреса также можно использовать при обнаружении мошенничества для сопоставления почтового индекса или кода города платежного адреса. [19] Банки могут предотвратить « фишинговые » атаки, отмывание денег и другие нарушения безопасности, определяя местоположение пользователя в рамках процесса аутентификации. Базы данных Whois также могут помочь проверить IP-адреса и владельцев регистрации. [20]

Правительства, правоохранительные органы и службы корпоративной безопасности используют геолокацию в качестве инструмента расследования, отслеживая интернет-маршруты онлайн-злоумышленников, чтобы найти преступников и предотвратить будущие атаки из того же места.

Доступные наборы данных

[ редактировать ]

Основным ограничением для проверки существующих методов обнаружения мошенничества является отсутствие общедоступных наборов данных. [21] Одним из немногих примеров является набор данных по обнаружению мошенничества с кредитными картами. [22] предоставлен Группой машинного обучения ULB. [23]

См. также

[ редактировать ]
  1. ^ Чуприна Роман (13 апреля 2020 г.). «Углубленное руководство по обнаружению мошенничества в электронной торговле на 2020 год» . www.datasciencecentral.com . Проверено 24 мая 2020 г.
  2. ^ ВЕЛАСКО, Рафаэль Б.; КАРПАНЕЗЕ, Игорь; Интериан, Рубенс; Пауло Нето, Отавио CG; Рибейро, Селсу К. (28 мая 2020 г.). «Система поддержки принятия решений по выявлению мошенничества в сфере государственных закупок» . Международные труды по исследованию операций . 28 :27–47. дои : 10.1111/itor.12811 . ISSN   0969-6016 .
  3. ^ Jump up to: а б с д Болтон Р. и Хэнд Д. (2002). Статистическое выявление мошенничества: обзор . Статистическая наука 17 (3), стр. 235-255.
  4. ^ Jump up to: а б Г.К. Палшикар, Скрытая правда – мошенничество и контроль над ним: критическое приложение для бизнес-аналитики, Intelligent Enterprise, vol. 5, нет. 9, 28 мая 2002 г., стр. 46–51.
  5. ^ Jump up to: а б с Аль-Хатиб, Аднан М. (2012). «Методы обнаружения мошенничества с электронными платежами». Журнал «Мир компьютерных наук и информационных технологий» . 2 . S2CID   214778396 .
  6. ^ Вани, ГК (февраль 2018 г.). «Как обнаружить мошенничество при сборе данных с использованием подхода, основанного на свойствах системы» . Мультилогика в науке . VII (СПЕЦИАЛЬНЫЙ ВЫПУСК ICAAASTSD-2018). ISSN   2277-7601 . Проверено 2 февраля 2019 г.
  7. ^ Jump up to: а б Михальский Р.С., И. Братко и М. Кубат (1998). Машинное обучение и интеллектуальный анализ данных – методы и приложения. Джон Уайли и сыновья, ООО
  8. ^ Болтон, Р. и Хэнд, Д. (2002). Статистическое обнаружение мошенничества: обзор (с обсуждением). Статистическая наука 17 (3): 235–255.
  9. ^ Такс, Н. и де Врис, К.Дж. и де Йонг, М. и Досоула, Н. и ван ден Аккер, Б. и Смит, Дж. и Туонг, О. и Бернарди, Л. Машинное обучение для обнаружения мошенничества в E -Коммерция: программа исследований. Материалы международного семинара KDD по развертываемому машинному обучению для защиты безопасности (шапка ML). Спрингер, Чам, 2021 г.
  10. ^ Даль Поццоло, А., Кэлен, О., Ле Борнь, Ю., Уотершут, С. и Бонтемпи, Г. (2014). Извлеченные уроки по выявлению мошенничества с кредитными картами с точки зрения практикующего специалиста . Экспертные системы с приложениями 41:10 4915–4928.
  11. ^ Грин, Б. и Чой, Дж. (1997). Оценка риска мошенничества со стороны руководства с помощью технологии нейронных сетей. Одитинг 16(1): 14–28.
  12. ^ Эстевес, П., К. Хелд и К. Перес (2006). Предотвращение мошенничества при подписке в телекоммуникациях с использованием нечетких правил и нейронных сетей . Экспертные системы с приложениями 31, 337–344.
  13. ^ Бхоумик, Рекха Бхоумик. «35 методов интеллектуального анализа данных для обнаружения мошенничества» . Журнал цифровой криминалистики, безопасности и права . Техасский университет в Далласе.
  14. ^ Фосетт, Т. (1997). Подходы искусственного интеллекта к обнаружению мошенничества и управлению рисками : материалы семинара AAAI 1997 года. Технический отчет WS-97-07. АААИ Пресс.
  15. ^ Фуа, К.; Ли, В.; Смит-Майлз, К.; Гейлер, Р. (2005). «Комплексный обзор исследований по обнаружению мошенничества на основе интеллектуального анализа данных». arXiv : 1009.6119 . дои : 10.1016/j.chb.2012.01.002 . S2CID   50458504 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  16. ^ Кортес, К. и Прегибон, Д. (2001). Сигнатурные методы для потоков данных. Интеллектуальный анализ данных и обнаружение знаний 5: 167–182.
  17. ^ Jump up to: а б Болтон Р. и Хэнд Д. (2001). Неконтролируемые методы профилирования для обнаружения мошенничества. Кредитный скоринг и кредитный контроль VII.
  18. ^ Карсильо, Фабрицио; Ле Борнь, Янн-Аэль; Кэлен, Оливье; Кессагги, Ягин; Обле, Фредерик; Бонтемпи, Джанлука (16 мая 2019 г.). «Сочетание неконтролируемого и контролируемого обучения в области обнаружения мошенничества с кредитными картами» . Информационные науки . 557 : 317–331. дои : 10.1016/j.ins.2019.05.042 . ISSN   0020-0255 . S2CID   181839660 .
  19. ^ Вакка, Джон Р. (2003). Кража личных данных . Прентис Холл Профессионал . п. 400. ИСБН  9780130082756 .
  20. ^ Барба, Роберт (18 ноября 2017 г.). «Поделиться своим местоположением с банком кажется неприятным, но это полезно» . Утренний звонок . Архивировано из оригинала 11 января 2018 г. Проверено 10 января 2018 г.
  21. ^ Ле Борнь, Янн-Аэль; Бонтемпи, Джанлука (2021). «Машинное обучение для обнаружения мошенничества с кредитными картами. Практическое руководство» . Проверено 26 апреля 2021 г.
  22. ^ «Обнаружение мошенничества с кредитными картами» . kaggle.com .
  23. ^ «Группа машинного обучения ULB» . mlg.ulb.ac.be .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 689106d8cd083b21a8ec8323cebd2fba__1722000540
URL1:https://arc.ask3.ru/arc/aa/68/ba/689106d8cd083b21a8ec8323cebd2fba.html
Заголовок, (Title) документа по адресу, URL1:
Data analysis for fraud detection - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)