Лифт (интеллектуальный анализ данных)
В интеллектуальном анализе данных и изучении правил ассоциации подъем является мерой эффективности модели таргетинга ( правила ассоциации) при прогнозировании или классификации случаев как имеющих повышенный ответ (по отношению к популяции в целом), измеренной по сравнению с таргетингом случайного выбора. модель. Модель таргетинга работает хорошо, если ответ в пределах цели ( ) намного лучше, чем базовый уровень ( ) в среднем по населению в целом. Подъем — это просто соотношение этих значений: целевой отклик, разделенный на средний отклик. Математически,
Например, предположим, что в группе средний уровень ответов составляет 5%, но определенная модель (или правило) определила сегмент с уровнем ответов 20%. Тогда рост этого сегмента составит 4,0 (20%/5%).
Приложения
[ редактировать ]Обычно разработчик модели стремится разделить генеральную совокупность на квантили и ранжировать квантили по подъему. Затем организации могут рассмотреть каждый квантиль и, сопоставив прогнозируемую частоту откликов (и связанную с этим финансовую выгоду) с затратами, они могут решить, следует ли продавать этот квантиль или нет.
Кривую подъема также можно рассматривать как вариацию кривой рабочей характеристики приемника (ROC), и она также известна в эконометрике как кривая Лоренца или кривая мощности. [1]
Пример
[ редактировать ]Предположим, что добываемый набор данных:
Антецедент | Последующий |
---|---|
А | 0 |
А | 0 |
А | 1 |
А | 0 |
Б | 1 |
Б | 0 |
Б | 1 |
где антецедент — это входная переменная, которой мы можем управлять, а консеквент — это переменная, которую мы пытаемся предсказать. Реальные проблемы майнинга обычно имеют более сложные предшественники, но обычно фокусируются на однозначных последствиях.
Большинство алгоритмов майнинга определяют следующие правила (модели таргетинга):
- Правило 1: А подразумевает 0
- Правило 2: B подразумевает 1
потому что это просто наиболее распространенные закономерности, обнаруженные в данных. Простой обзор приведенной выше таблицы должен сделать эти правила очевидными.
Поддержка B. правила 1 составляет 3/7, поскольку это количество элементов в наборе данных, в котором антецедентом является A, а консеквентом 0. Поддержка правила 2 равна 2/7, поскольку две из семи записей соответствуют антецеденту и консеквент 1. Опоры можно записать как:
Доверие . для правила 1 составляет 3/4, поскольку три из четырех записей, соответствующих антецеденту A, соответствуют консеквенту 0. Доверие для правила 2 составляет 2/3, поскольку две из трех записей, соответствующих антецеденту B, соответствуют консеквенту 0 является следствием 1. Доверительные данные можно записать как:
Подъем можно найти, разделив уверенность на безусловную вероятность консеквента или разделив поддержку на вероятность антецедента, умноженную на вероятность консеквента, таким образом:
- Подъем для Правила 1 составляет (3/4)/(4/7) = (3*7)/(4 * 4) = 21/16 ≈ 1,31.
- Подъем для Правила 2 составляет (2/3)/(3/7) = (2*7)/(3 * 3) = 14/9 ≈ 1,56.
Если бы какое-то правило имело подъем 1, это означало бы, что вероятность появления антецедента и консеквента не зависят друг от друга. Когда два события независимы друг от друга, невозможно составить какое-либо правило, касающееся этих двух событий.
Если подъем > 1, как здесь для правил 1 и 2, это позволяет нам узнать, в какой степени эти два события зависят друг от друга, и делает эти правила потенциально полезными для прогнозирования консеквента в будущих наборах данных.
Обратите внимание: хотя Правило 1 имеет более высокую достоверность, оно имеет меньшую подъемную силу. Интуитивно кажется, что Правило 1 более ценно из-за его большей достоверности — оно кажется более точным (лучше поддерживается). Но точность правила, независимая от набора данных, может ввести в заблуждение. Ценность подъема заключается в том, что он учитывает как достоверность правила, так и общий набор данных.
Ссылки
[ редактировать ]- ^ Тюффери, Стефан (2011); Интеллектуальный анализ данных и статистика для принятия решений , Чичестер, Великобритания: John Wiley & Sons, перевод с французского Data Mining et statistique décisionnelle (Éditions Technip, 2008).
- Коппок, Дэвид С. (21 июня 2002 г.). «Почему лифт?» . Проверено 5 июля 2015 г.