Jump to content

Лифт (интеллектуальный анализ данных)

В интеллектуальном анализе данных и изучении правил ассоциации подъем является мерой эффективности модели таргетинга ( правила ассоциации) при прогнозировании или классификации случаев как имеющих повышенный ответ (по отношению к популяции в целом), измеренной по сравнению с таргетингом случайного выбора. модель. Модель таргетинга работает хорошо, если ответ в пределах цели ( ) намного лучше, чем базовый уровень ( ) в среднем по населению в целом. Подъем — это просто соотношение этих значений: целевой отклик, разделенный на средний отклик. Математически,

Например, предположим, что в группе средний уровень ответов составляет 5%, но определенная модель (или правило) определила сегмент с уровнем ответов 20%. Тогда рост этого сегмента составит 4,0 (20%/5%).

Приложения

[ редактировать ]

Обычно разработчик модели стремится разделить генеральную совокупность на квантили и ранжировать квантили по подъему. Затем организации могут рассмотреть каждый квантиль и, сопоставив прогнозируемую частоту откликов (и связанную с этим финансовую выгоду) с затратами, они могут решить, следует ли продавать этот квантиль или нет.

Кривую подъема также можно рассматривать как вариацию кривой рабочей характеристики приемника (ROC), и она также известна в эконометрике как кривая Лоренца или кривая мощности. [1]

Предположим, что добываемый набор данных:

Антецедент Последующий
А 0
А 0
А 1
А 0
Б 1
Б 0
Б 1

где антецедент — это входная переменная, которой мы можем управлять, а консеквент — это переменная, которую мы пытаемся предсказать. Реальные проблемы майнинга обычно имеют более сложные предшественники, но обычно фокусируются на однозначных последствиях.

Большинство алгоритмов майнинга определяют следующие правила (модели таргетинга):

  • Правило 1: А подразумевает 0
  • Правило 2: B подразумевает 1

потому что это просто наиболее распространенные закономерности, обнаруженные в данных. Простой обзор приведенной выше таблицы должен сделать эти правила очевидными.

Поддержка B. правила 1 составляет 3/7, поскольку это количество элементов в наборе данных, в котором антецедентом является A, а консеквентом 0. Поддержка правила 2 равна 2/7, поскольку две из семи записей соответствуют антецеденту и консеквент 1. Опоры можно записать как:

Доверие . для правила 1 составляет 3/4, поскольку три из четырех записей, соответствующих антецеденту A, соответствуют консеквенту 0. Доверие для правила 2 составляет 2/3, поскольку две из трех записей, соответствующих антецеденту B, соответствуют консеквенту 0 является следствием 1. Доверительные данные можно записать как:

Подъем можно найти, разделив уверенность на безусловную вероятность консеквента или разделив поддержку на вероятность антецедента, умноженную на вероятность консеквента, таким образом:

  • Подъем для Правила 1 составляет (3/4)/(4/7) = (3*7)/(4 * 4) = 21/16 ≈ 1,31.
  • Подъем для Правила 2 составляет (2/3)/(3/7) = (2*7)/(3 * 3) = 14/9 ≈ 1,56.

Если бы какое-то правило имело подъем 1, это означало бы, что вероятность появления антецедента и консеквента не зависят друг от друга. Когда два события независимы друг от друга, невозможно составить какое-либо правило, касающееся этих двух событий.

Если подъем > 1, как здесь для правил 1 и 2, это позволяет нам узнать, в какой степени эти два события зависят друг от друга, и делает эти правила потенциально полезными для прогнозирования консеквента в будущих наборах данных.

Обратите внимание: хотя Правило 1 имеет более высокую достоверность, оно имеет меньшую подъемную силу. Интуитивно кажется, что Правило 1 более ценно из-за его большей достоверности — оно кажется более точным (лучше поддерживается). Но точность правила, независимая от набора данных, может ввести в заблуждение. Ценность подъема заключается в том, что он учитывает как достоверность правила, так и общий набор данных.

  1. ^ Тюффери, Стефан (2011); Интеллектуальный анализ данных и статистика для принятия решений , Чичестер, Великобритания: John Wiley & Sons, перевод с французского Data Mining et statistique décisionnelle (Éditions Technip, 2008).
  • Коппок, Дэвид С. (21 июня 2002 г.). «Почему лифт?» . Проверено 5 июля 2015 г.

См. также

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9a126930200cc962de7b3a99426778c4__1656070620
URL1:https://arc.ask3.ru/arc/aa/9a/c4/9a126930200cc962de7b3a99426778c4.html
Заголовок, (Title) документа по адресу, URL1:
Lift (data mining) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)