Анализ данных для выявления мошенничества
![]() | Эта статья написана как личное размышление, личное эссе или аргументативное эссе , в котором излагаются личные чувства редактора Википедии или представлен оригинальный аргумент по определенной теме. ( Апрель 2010 г. ) |
Мошенничество представляет собой серьезную проблему для правительств и предприятий, и для выявления мошенничества с их использованием необходимы специальные методы анализа. Некоторые из этих методов включают обнаружение знаний в базах данных (KDD), интеллектуальный анализ данных , машинное обучение и статистику . Они предлагают применимые и успешные решения в различных областях электронного мошенничества. [1]
В целом, основной причиной использования методов анализа данных является борьба с мошенничеством, поскольку многие системы внутреннего контроля имеют серьезные недостатки. Например, в настоящее время преобладающий подход, используемый многими правоохранительными органами для выявления компаний, замешанных в потенциальных случаях мошенничества, заключается в получении косвенных доказательств или жалоб от информаторов. [2] В результате большое количество случаев мошенничества остаются незамеченными и не расследованными. Чтобы эффективно тестировать, обнаруживать, проверять, исправлять ошибки и контролировать системы управления на предмет мошеннических действий, предприятия и организации полагаются на специализированные методы анализа данных, такие как интеллектуальный анализ данных, сопоставление данных, функции , регрессионный анализ, кластерный анализ и т. д. анализ пробелов. [3] Методы, используемые для обнаружения мошенничества, делятся на два основных класса: статистические методы и искусственный интеллект . [4]
Статистические методы
[ редактировать ]Примерами методов статистического анализа данных являются:
- Методы предварительной обработки данных для обнаружения, проверки, исправления ошибок и заполнения отсутствующих или неверных данных.
- Расчет различных статистических параметров, таких как средние значения , квантили , показатели производительности, распределения вероятностей и т. д. Например, средние значения могут включать среднюю продолжительность звонка, среднее количество звонков в месяц и средние задержки оплаты счетов.
- Модели и распределения вероятностей различных видов деловой активности либо с точки зрения различных параметров, либо с точки зрения распределения вероятностей.
- Вычисление профилей пользователей .
- Анализ временных рядов данных, зависящих от времени. [5]
- Кластеризация и классификация для поиска закономерностей и связей между группами данных. [5]
- Сопоставление данных Сопоставление данных используется для сравнения двух наборов собранных данных. Процесс может выполняться на основе алгоритмов или запрограммированных циклов. Попытка сопоставить наборы данных друг с другом или сравнение сложных типов данных. Сопоставление данных используется для удаления повторяющихся записей и выявления связей между двумя наборами данных для маркетинга, безопасности или других целей. [3]
- Похоже, функция используется для поиска значений, которые звучат похоже. Фонетическое сходство — это один из способов обнаружения возможных повторяющихся значений или непоследовательного написания в данных, введенных вручную. Функция «soundex» преобразует строки сравнения в четырехсимвольные американские коды Soundex, которые основаны на первой букве и первых трех согласных после первой буквы в каждой строке. [3]
- Регрессионный анализ позволяет изучить взаимосвязь между двумя или более интересующими переменными. Регрессионный анализ оценивает отношения между независимыми переменными и зависимой переменной. Этот метод можно использовать для понимания и выявления взаимосвязей между переменными и прогнозирования фактических результатов. [3]
- Анализ пробелов используется для определения того, выполняются ли бизнес-требования, а если нет, то какие шаги следует предпринять для успешного удовлетворения.
- Алгоритмы сопоставления для обнаружения аномалий в поведении транзакций или пользователей по сравнению с ранее известными моделями и профилями. Также необходимы методы для устранения ложных тревог , оценки рисков и прогнозирования будущего текущих транзакций или пользователей.
Некоторые судебные бухгалтеры специализируются на судебной аналитике , которая представляет собой сбор и анализ электронных данных для реконструкции, обнаружения или иного подтверждения заявления о финансовом мошенничестве. Основными этапами судебной аналитики являются сбор данных , подготовка данных , анализ данных и составление отчетов. Например, судебно-медицинская аналитика может использоваться для проверки действий сотрудника по карточке покупок , чтобы оценить, были ли какие-либо покупки перенаправлены или могут быть перенаправлены для личного использования.
Искусственный интеллект
[ редактировать ]Обнаружение мошенничества является наукоемкой деятельностью. Основные методы искусственного интеллекта, используемые для обнаружения мошенничества, включают:
- Интеллектуальный анализ данных для классификации, кластеризации и сегментирования данных, а также автоматического поиска в данных ассоциаций и правил, которые могут указывать на интересные закономерности, в том числе связанные с мошенничеством.
- Экспертные системы для кодирования опыта обнаружения мошенничества в форме правил.
- Распознавание образов для обнаружения приблизительных классов, кластеров или шаблонов подозрительного поведения либо автоматически (без присмотра), либо в соответствии с заданными входными данными.
- Методы машинного обучения для автоматического выявления характеристик мошенничества.
- Нейронные сети позволяют независимо генерировать классификацию, кластеризацию, обобщение и прогнозирование, которые затем можно сравнить с выводами, полученными в ходе внутреннего аудита или официальных финансовых документов, таких как 10-Q . [5]
другие методы, такие как анализ ссылок , байесовские сети , теория принятия решений и сопоставление последовательностей . Для обнаружения мошенничества также используются [4] Там, где доступны ранговые данные, также использовался новый и новый метод, называемый подходом свойств системы. [6]
Статистический анализ данных исследований является наиболее полным методом определения наличия мошенничества с данными. Мошенничество с данными по определению Управления целостности исследований (ORI) включает в себя фальсификацию, фальсификацию и плагиат.
Машинное обучение и интеллектуальный анализ данных
[ редактировать ]Ранние методы анализа данных были ориентированы на извлечение количественных и статистических характеристик данных. Эти методы облегчают полезную интерпретацию данных и помогают лучше понять процессы, лежащие в основе этих данных. Хотя традиционные методы анализа данных могут косвенно привести нас к знаниям, они по-прежнему создаются аналитиками-людьми. [7]
Чтобы выйти за рамки, система анализа данных должна быть оснащена значительным объемом базовых знаний и быть в состоянии выполнять задачи рассуждения, включающие эти знания и предоставленные данные. [7] Стремясь достичь этой цели, исследователи обратились к идеям из области машинного обучения. Это естественный источник идей, поскольку задачу машинного обучения можно описать как превращение базовых знаний и примеров (входные данные) в знания (выходные данные).
Если интеллектуальный анализ данных приводит к обнаружению значимых закономерностей, данные превращаются в информацию. Информация или закономерности, которые являются новыми, действительными и потенциально полезными, являются не просто информацией, а знаниями. Говорят об открытии знаний, ранее скрытых в огромном количестве данных, а теперь раскрытых.
Решения машинного обучения и искусственного интеллекта можно разделить на две категории: «контролируемое» и «неконтролируемое» обучение. Эти методы ищут учетные записи, клиентов, поставщиков и т. д., которые ведут себя «необычно», чтобы вывести оценки подозрительности, правила или визуальные аномалии, в зависимости от метода. [8]
Независимо от того, используются ли контролируемые или неконтролируемые методы, обратите внимание, что выходные данные дают нам только представление о вероятности мошенничества. Никакой отдельный статистический анализ не может гарантировать, что конкретный объект является мошенническим, но он может идентифицировать его с очень высокой степенью точности. В результате эффективное сотрудничество между моделью машинного обучения и аналитиками имеет жизненно важное значение для успеха приложений по обнаружению мошенничества. [9]
Обучение под присмотром
[ редактировать ]При обучении с учителем берется случайная подвыборка всех записей и вручную классифицируется как «мошеннические» или «не мошеннические» (задача может быть разложена на большее количество классов в соответствии с требованиями алгоритма). Для относительно редких событий, таких как мошенничество, возможно, потребуется избыточная выборка, чтобы получить достаточно большой размер выборки. [10] Эти вручную классифицированные записи затем используются для обучения контролируемого алгоритма машинного обучения. После построения модели с использованием этих обучающих данных алгоритм должен иметь возможность классифицировать новые записи как мошеннические или немошеннические.
Контролируемые нейронные сети, нечеткие нейронные сети и комбинации нейронных сетей и правил широко исследовались и использовались для обнаружения мошенничества в сетях мобильной связи и мошенничества с финансовой отчетностью. [11] [12]
Нейронная сеть байесовского обучения реализована для обнаружения мошенничества с кредитными картами, телекоммуникационного мошенничества, обнаружения мошенничества с автоматическими заявлениями и мошенничества с медицинским страхованием. [13]
Гибридные системы знаний/статистики, в которых экспертные знания интегрированы со статистической мощью, используют ряд методов интеллектуального анализа данных с целью обнаружения мошенничества с сотовыми клонами. В частности, реализована программа изучения правил для выявления признаков мошеннического поведения в большой базе данных транзакций клиентов. [14]
Кэхилл и др. (2000) разработали сигнатуру мошенничества на основе данных мошеннических вызовов для обнаружения мошенничества в сфере телекоммуникаций. Для оценки звонка о мошенничестве его вероятность под подписью учетной записи сравнивается с его вероятностью под подписью мошенничества. Сигнатура мошенничества обновляется последовательно, что позволяет обнаруживать мошенничество на основе событий.
Анализ ссылок предполагает другой подход. Он связывает известных мошенников с другими лицами, используя методы связывания записей и социальных сетей. [15] [16]
Этот тип обнаружения способен обнаруживать только мошенничества, аналогичные тем, которые происходили ранее и были классифицированы человеком. Для обнаружения нового типа мошенничества может потребоваться использование неконтролируемого алгоритма машинного обучения.
Обучение без присмотра
[ редактировать ]Напротив, неконтролируемые методы не используют помеченные записи.
Болтон и Хэнд используют анализ групп коллег и анализ точек останова, применяемые к покупательскому поведению на счетах кредитных карт. [17] Анализ одноранговой группы обнаруживает отдельные объекты, которые начинают вести себя иначе, чем объекты, на которые они ранее были похожи. Еще один инструмент, разработанный Болтоном и Хэндом для обнаружения поведенческого мошенничества, — это анализ точек останова. [17] В отличие от анализа групп коллег, анализ точек останова работает на уровне аккаунта. Точка останова — это наблюдение, при котором обнаруживается аномальное поведение для конкретной учетной записи. Оба инструмента применяются к покупательскому поведению на счетах кредитных карт.
Комбинация неконтролируемых и контролируемых методов обнаружения мошенничества с кредитными картами описана в Carcillo et al (2019). [18]
Геолокация
[ редактировать ]Интернет-магазины и платежные системы используют геолокацию для обнаружения возможного мошенничества с кредитными картами , сравнивая местоположение пользователя с платежным адресом в учетной записи или предоставленным адресом доставки. Несоответствие – например, заказ, размещенный из США на номер счета из Токио – является сильным индикатором потенциального мошенничества. Геолокацию IP-адреса также можно использовать при обнаружении мошенничества для сопоставления почтового индекса или кода города платежного адреса. [19] Банки могут предотвратить « фишинговые » атаки, отмывание денег и другие нарушения безопасности, определяя местоположение пользователя в рамках процесса аутентификации. Базы данных Whois также могут помочь проверить IP-адреса и владельцев регистрации. [20]
Правительства, правоохранительные органы и службы корпоративной безопасности используют геолокацию в качестве инструмента расследования, отслеживая интернет-маршруты онлайн-злоумышленников, чтобы найти преступников и предотвратить будущие атаки из того же места.Доступные наборы данных
[ редактировать ]Основным ограничением для проверки существующих методов обнаружения мошенничества является отсутствие общедоступных наборов данных. [21] Одним из немногих примеров является набор данных по обнаружению мошенничества с кредитными картами. [22] предоставлен Группой машинного обучения ULB. [23]
См. также
[ редактировать ]- Мошенничество
- Предотвращение мошенничества
- Профилирование (информатика)
- Интеллектуальный анализ данных
- Программное обеспечение для геолокации
- Нейронные сети
- Искусственный интеллект
- Узоры
- Кластеризация данных
- Статистика
- Маркировка
- Обучение дереву решений
- Регрессионный анализ
- Синтетические данные
- Закон Бенфорда
- Бенейш M-оценка
Ссылки
[ редактировать ]- ^ Чуприна Роман (13 апреля 2020 г.). «Углубленное руководство по обнаружению мошенничества в электронной торговле на 2020 год» . www.datasciencecentral.com . Проверено 24 мая 2020 г.
- ^ ВЕЛАСКО, Рафаэль Б.; КАРПАНЕЗЕ, Игорь; Интериан, Рубенс; Пауло Нето, Отавио CG; Рибейро, Селсу К. (28 мая 2020 г.). «Система поддержки принятия решений по выявлению мошенничества в сфере государственных закупок» . Международные труды по исследованию операций . 28 :27–47. дои : 10.1111/itor.12811 . ISSN 0969-6016 .
- ^ Jump up to: а б с д Болтон Р. и Хэнд Д. (2002). Статистическое выявление мошенничества: обзор . Статистическая наука 17 (3), стр. 235-255.
- ^ Jump up to: а б Г.К. Палшикар, Скрытая правда – мошенничество и контроль над ним: критическое приложение для бизнес-аналитики, Intelligent Enterprise, vol. 5, нет. 9, 28 мая 2002 г., стр. 46–51.
- ^ Jump up to: а б с Аль-Хатиб, Аднан М. (2012). «Методы обнаружения мошенничества с электронными платежами». Журнал «Мир компьютерных наук и информационных технологий» . 2 . S2CID 214778396 .
- ^ Вани, ГК (февраль 2018 г.). «Как обнаружить мошенничество при сборе данных с использованием подхода, основанного на свойствах системы» . Мультилогика в науке . VII (СПЕЦИАЛЬНЫЙ ВЫПУСК ICAAASTSD-2018). ISSN 2277-7601 . Проверено 2 февраля 2019 г.
- ^ Jump up to: а б Михальский Р.С., И. Братко и М. Кубат (1998). Машинное обучение и интеллектуальный анализ данных – методы и приложения. Джон Уайли и сыновья, ООО
- ^ Болтон, Р. и Хэнд, Д. (2002). Статистическое обнаружение мошенничества: обзор (с обсуждением). Статистическая наука 17 (3): 235–255.
- ^ Такс, Н. и де Врис, К.Дж. и де Йонг, М. и Досоула, Н. и ван ден Аккер, Б. и Смит, Дж. и Туонг, О. и Бернарди, Л. Машинное обучение для обнаружения мошенничества в E -Коммерция: программа исследований. Материалы международного семинара KDD по развертываемому машинному обучению для защиты безопасности (шапка ML). Спрингер, Чам, 2021 г.
- ^ Даль Поццоло, А., Кэлен, О., Ле Борнь, Ю., Уотершут, С. и Бонтемпи, Г. (2014). Извлеченные уроки по выявлению мошенничества с кредитными картами с точки зрения практикующего специалиста . Экспертные системы с приложениями 41:10 4915–4928.
- ^ Грин, Б. и Чой, Дж. (1997). Оценка риска мошенничества со стороны руководства с помощью технологии нейронных сетей. Одитинг 16(1): 14–28.
- ^ Эстевес, П., К. Хелд и К. Перес (2006). Предотвращение мошенничества при подписке в телекоммуникациях с использованием нечетких правил и нейронных сетей . Экспертные системы с приложениями 31, 337–344.
- ^ Бхоумик, Рекха Бхоумик. «35 методов интеллектуального анализа данных для обнаружения мошенничества» . Журнал цифровой криминалистики, безопасности и права . Техасский университет в Далласе.
- ^ Фосетт, Т. (1997). Подходы искусственного интеллекта к обнаружению мошенничества и управлению рисками : материалы семинара AAAI 1997 года. Технический отчет WS-97-07. АААИ Пресс.
- ^ Фуа, К.; Ли, В.; Смит-Майлз, К.; Гейлер, Р. (2005). «Комплексный обзор исследований по обнаружению мошенничества на основе интеллектуального анализа данных». arXiv : 1009.6119 . дои : 10.1016/j.chb.2012.01.002 . S2CID 50458504 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Кортес, К. и Прегибон, Д. (2001). Сигнатурные методы для потоков данных. Интеллектуальный анализ данных и обнаружение знаний 5: 167–182.
- ^ Jump up to: а б Болтон Р. и Хэнд Д. (2001). Неконтролируемые методы профилирования для обнаружения мошенничества. Кредитный скоринг и кредитный контроль VII.
- ^ Карсильо, Фабрицио; Ле Борнь, Янн-Аэль; Кэлен, Оливье; Кессагги, Ягин; Обле, Фредерик; Бонтемпи, Джанлука (16 мая 2019 г.). «Сочетание неконтролируемого и контролируемого обучения в области обнаружения мошенничества с кредитными картами» . Информационные науки . 557 : 317–331. дои : 10.1016/j.ins.2019.05.042 . ISSN 0020-0255 . S2CID 181839660 .
- ^ Вакка, Джон Р. (2003). Кража личных данных . Прентис Холл Профессионал . п. 400. ИСБН 9780130082756 .
- ^ Барба, Роберт (18 ноября 2017 г.). «Поделиться своим местоположением с банком кажется неприятным, но это полезно» . Утренний звонок . Архивировано из оригинала 11 января 2018 г. Проверено 10 января 2018 г.
- ^ Ле Борнь, Янн-Аэль; Бонтемпи, Джанлука (2021). «Машинное обучение для обнаружения мошенничества с кредитными картами. Практическое руководство» . Проверено 26 апреля 2021 г.
- ^ «Обнаружение мошенничества с кредитными картами» . kaggle.com .
- ^ «Группа машинного обучения ULB» . mlg.ulb.ac.be .