Обучение контрастному набору

Обучение контрастному набору — это форма обучения ассоциативным правилам , которая направлена на выявление значимых различий между отдельными группами путем обратного проектирования ключевых предикторов, которые идентифицируются для каждой конкретной группы. Например, при наличии набора характеристик для группы студентов (помеченных по типу степени) учащийся из контрастного набора определит контрастирующие черты между студентами, претендующими на степень бакалавра, и теми, кто работает над получением степени доктора философии.

Обзор

Распространенной практикой интеллектуального анализа данных является классификация , просмотр атрибутов объекта или ситуации и предположение, к какой категории принадлежит наблюдаемый элемент. По мере изучения новых данных (обычно путем подачи обучающего набора обучения в алгоритм ) эти предположения уточняются и улучшаются. Обучение контрастному набору работает в противоположном направлении. В то время как классификаторы считывают набор данных и собирают информацию, которая используется для размещения новых данных в ряде дискретных категорий, обучение контрастному набору берет категорию, к которой принадлежит элемент, и пытается перепроектировать статистические данные, которые идентифицируют элемент как элемент. класса. То есть учащиеся из контрастного набора ищут правила, связывающие значения атрибутов с изменениями в распределении классов. ^[1] Они стремятся определить ключевые предикторы, которые отличают одну классификацию от другой.

Например, аэрокосмический инженер может записывать данные об испытательных запусках новой ракеты. Измерения будут проводиться через регулярные промежутки времени на протяжении всего запуска с учетом таких факторов, как траектория ракеты, рабочие температуры, внешнее давление и так далее. Если запуск ракеты не удался после ряда успешных испытаний, инженер может использовать обучение контрастному набору, чтобы отличить успешные и неудачные испытания. Учащийся с контрастным набором создаст набор ассоциативных правил, которые при применении укажут ключевые предикторы каждого неудачного теста по сравнению с успешными (слишком высокая температура, слишком сильное давление ветра и т. д.).

Обучение контрастному набору — это форма обучения ассоциативным правилам . ^[2] Обучающиеся правилам ассоциации обычно предлагают правила, связывающие атрибуты, обычно встречающиеся вместе в обучающем наборе (например, люди, которые обучаются по четырехлетним программам и проходят полный курс обучения, как правило, также живут недалеко от кампуса). Вместо поиска правил, описывающих текущую ситуацию, учащиеся с контрастным набором ищут правила, которые существенно различаются по своему распределению по группам (и, таким образом, могут использоваться в качестве предикторов для этих групп). ^[3] Например, учащийся с контрастным набором может спросить: «Каковы ключевые идентификаторы человека со степенью бакалавра или человека с докторской степенью и чем отличаются люди со степенями доктора философии и бакалавра?»

Стандартные алгоритмы классификатора , такие как C4.5 , не имеют понятия важности класса (то есть они не знают, является ли класс «хорошим» или «плохим»). Такие учащиеся не могут смещать или фильтровать свои прогнозы в сторону определенных желаемых классов. Поскольку цель обучения контрастному набору состоит в том, чтобы обнаружить значимые различия между группами, полезно иметь возможность ориентировать изученные правила на определенные классификации. Несколько учащихся с контрастным набором, например MINWAL. ^[4] или семейство алгоритмов TAR, ^[5]^[6]^[7] присвойте веса каждому классу, чтобы сфокусировать изученные теории на результатах, представляющих интерес для конкретной аудитории. Таким образом, обучение на контрастных наборах можно рассматривать как форму взвешенного обучения в классе. ^[8]

Пример: покупки в супермаркете.

Различия между стандартной классификацией, обучением правилам ассоциации и обучением контрастному набору можно проиллюстрировать простой метафорой супермаркета. В следующем небольшом наборе данных каждая строка представляет собой транзакцию в супермаркете, и каждая цифра «1» указывает на то, что товар был куплен («0» указывает на то, что товар не был куплен):

Гамбургер	Картофель	Фуа-гра	Лук	шампанское	Цель покупок
1	1	0	1	0	кулинария
1	1	0	1	0	кулинария
0	0	1	0	1	Годовщина
1	1	0	1	0	кулинария
1	1	0	0	1	Братская вечеринка

Учитывая эти данные,

Изучение правил ассоциации может обнаружить, что покупатели, покупающие лук и картофель вместе, скорее всего, также купят мясо для гамбургера.
Классификация может обнаружить, что покупатели, купившие лук, картофель и мясо для гамбургеров, покупали продукты для приготовления пищи.
Изучение набора контрастов может обнаружить, что основная разница между покупателями, покупающими еду для приготовления еды, и покупателями, покупающими еду для юбилейного ужина, заключается в том, что покупатели, приобретающие продукты для вечеринки, покупают лук, картофель и мясо для гамбургеров (и не покупают фуа-гра или шампанское).

Обучение лечению

Обучение лечению — это форма обучения с использованием взвешенного набора контрастов, при которой одна желательная группа сравнивается с остальными нежелательными группами (уровень желательности представлен взвешенными классами). ^[5] Итоговое «лечение» предполагает набор правил, применение которых приведет к желаемому результату.

Обучение лечению отличается от обучения стандартному контрастному набору следующими ограничениями:

Вместо того, чтобы искать различия между всеми группами, обучение лечению определяет конкретную группу, на которой следует сосредоточиться, присваивает вес этой желаемой группе и объединяет оставшиеся группы в одну «нежелательную» категорию.
Обучение лечению имеет заявленный акцент на минимальных теориях. На практике лечение ограничивается максимум четырьмя ограничениями (т. е. вместо того, чтобы указывать все причины, по которым ракета отличается от скейтборда, учащийся, обучающийся лечению, указывает от одного до четырех основных различий, которые прогнозируют ракеты на высоком статистическом уровне). значение).

Акцент на простоте является важной целью для изучающих лечение. Обучение лечению направлено на поиск наименьших изменений, которые оказывают наибольшее влияние на распределение классов. ^[8]

Концептуально, учащиеся, обучающиеся лечению, исследуют все возможные подмножества диапазона значений всех атрибутов. На практике такой поиск часто неосуществим, поэтому обучение лечению часто фокусируется вместо этого на быстром сокращении и игнорировании диапазонов атрибутов, которые, если их применить, приводят к распределению классов, при котором желаемый класс находится в меньшинстве. ^[7]

Пример: данные о жилье в Бостоне

В следующем примере показаны выходные данные обучающегося метода TAR3 на наборе данных о жилье из города Бостон (нетривиальный общедоступный набор данных с более чем 500 примерами). В этом наборе данных для каждого дома собирается ряд факторов, и каждый дом классифицируется в соответствии с его качеством (низкое, средне-низкое, средне-высокое и высокое). классу Желаемому присваивается значение «высокий», а все остальные классы объединяются как нежелательные.

Результат обучения учащегося лечения выглядит следующим образом:

Baseline class distribution:
low: 29%
medlow: 29%
medhigh: 21%
high: 21%

Suggested Treatment: [PTRATIO=[12.6..16), RM=[6.7..9.78)]

New class distribution:
low: 0%
medlow: 0%
medhigh: 3%
high: 97%

Без применения процедур (правил) желаемый класс составляет только 21% распределения классов. Однако если отфильтровать набор данных по домам с числом комнат от 6,7 до 9,78 и соотношением родителей и учителей в районе от 12,6 до 16, то 97% оставшихся примеров попадут в желаемый класс (дома высокого качества).

Алгоритмы

Существует ряд алгоритмов, выполняющих обучение контрастному набору. В следующих подразделах описаны два примера.

ШТУКАТУРКА

Обучаемый контрастный набор STUCCO ^[1]^[3] рассматривает задачу обучения на контрастных наборах как задачу поиска в дереве , где корневым узлом дерева является пустой контрастный набор. Дочерние элементы добавляются путем специализации набора с помощью дополнительных элементов, выбранных посредством канонического порядка атрибутов (чтобы избежать повторного посещения одних и тех же узлов). Дочерние элементы образуются путем добавления терминов, следующих за всеми существующими терминами в заданном порядке. Сформированное дерево просматривается в ширину. Учитывая узлы на каждом уровне, набор данных сканируется и поддержка подсчитывается для каждой группы. Затем каждый узел исследуется, чтобы определить, является ли он значительным и большим, следует ли его сократить и нужно ли создавать новые дочерние узлы. После того, как все значимые наборы контрастов обнаружены, постпроцессор выбирает подмножество для показа пользователю — сначала отображаются более простые результаты низкого порядка, а затем результаты более высокого порядка, которые «удивительны и существенно отличаются». ^[3]"

Расчет поддержки основан на проверке нулевой гипотезы о том, что поддержка контрастного набора одинакова во всех группах (т. е. что поддержка контрастного набора не зависит от членства в группе ). Число поддержки для каждой группы представляет собой значение частоты, которое можно проанализировать в таблице непредвиденных обстоятельств, где каждая строка представляет значение истинности набора контрастов, а каждая переменная столбца указывает частоту членства в группе. Если существует разница в пропорциях между частотами контрастного набора и частотами нулевой гипотезы, алгоритм должен затем определить, представляют ли различия в пропорциях связь между переменными или ее можно объяснить случайными причинами. Это можно определить с помощью теста хи-квадрат, сравнивающего наблюдаемое количество частот с ожидаемым количеством.

Узлы удаляются из дерева, когда все специализации узла никогда не могут привести к значительному и большому контрастному набору. Решение об обрезке принимается на основании:

Минимальный размер отклонения: максимальная разница между поддержкой любых двух групп должна быть больше порогового значения, указанного пользователем.
Ожидаемые частоты ячеек. Ожидаемые частоты ячеек таблицы непредвиденных обстоятельств могут только уменьшаться, поскольку набор контрастов специализирован. Когда эти частоты слишком малы, достоверность теста хи-квадрат нарушается.
$\chi ^{2}$ границы: верхняя граница сохраняется для распределения статистики, рассчитанной, когда нулевая гипотеза верна. Узлы обрезаются, когда соблюдение этого ограничения больше невозможно.

ТАР3

ТАР3 ^[6]^[9] Учащийся с набором взвешенных контрастов основан на двух фундаментальных концепциях – подъеме и поддержке набора правил.

Поднятие набора правил — это изменение, которое какое-то решение вносит в набор примеров после введения этого решения (т. е. то, как смещается распределение классов в ответ на введение правила). TAR3 ищет наименьший набор правил, который вызывает наибольшие изменения в сумме весов, присвоенных каждому классу, умноженной на частоту появления каждого класса. Повышение рассчитывается путем деления оценки набора, в котором применяется набор правил, на оценку базового набора (т. е. правила не применяются). Обратите внимание, что, обратив функцию оценки подъема, учащийся TAR3 также может выбрать оставшиеся классы и отклонить целевой класс.

Трудно полагаться только на отмену набора правил. Неправильный или вводящий в заблуждение шум данных, если он коррелирует с неудачными примерами, может привести к переобучению набора правил. Такая переоснащенная модель может иметь большой показатель подъема, но она неточно отражает преобладающие условия в наборе данных. Чтобы избежать переобучения, TAR3 использует порог поддержки и отклоняет все правила, находящиеся за пределами этого порога. Для целевого класса порог поддержки представляет собой значение, предоставляемое пользователем (обычно 0,2), которое сравнивается с отношением частоты целевого класса, когда набор правил был применен, к частоте этого класса в общем наборе данных. TAR3 отклоняет все наборы правил с поддержкой ниже этого порога.

Требуя как высокого подъема, так и высокой поддержки, TAR3 не только возвращает идеальные наборы правил, но и отдает предпочтение меньшим наборам правил. Чем меньше правил будет принято, тем больше будет доказательств в поддержку этих правил.

Алгоритм TAR3 создает наборы правил только из диапазонов значений атрибутов с высокой эвристической ценностью. Алгоритм определяет, какие диапазоны использовать, сначала определяя оценку подъема диапазонов значений каждого атрибута. Эти отдельные оценки затем сортируются и преобразуются в кумулятивное распределение вероятностей. TAR3 случайным образом выбирает значения из этого распределения, а это означает, что диапазоны с низкими оценками вряд ли будут выбраны. Чтобы создать набор правил-кандидатов, выбираются и объединяются несколько диапазонов. Эти возможные наборы правил затем оцениваются и сортируются. Если после заданного пользователем количества раундов улучшения не наблюдается, алгоритм завершает работу и возвращает наборы правил с наивысшим результатом.

Ссылки

^ Перейти обратно: ^а ^б Стивен Бэй; Майкл Паццани (2001). «Обнаружение групповых различий: анализ наборов контрастов» (PDF) . Интеллектуальный анализ данных и обнаружение знаний . 5 (3): 213–246. дои : 10.1023/А:1011429418057 . S2CID 2941550 .
^ Г.И. Уэбб; С. Батлер; Д. Ньюлендс (2003). Об обнаружении различий между группами . KDD'03 Материалы девятой Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных.
^ Перейти обратно: ^а ^б ^с Стивен Бэй; Майкл Паццани (1999). Обнаружение изменений в категориальных данных: анализ наборов контрастов . KDD '99 Материалы пятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных.
^ CH Цай; AWC Фу; Чэн Ченг; WW Квонг (1998). Правила горнодобывающей ассоциации с взвешенными элементами (PDF) . Материалы Международного симпозиума по разработке баз данных и приложениям (IDEAS 98).
^ Перейти обратно: ^а ^б Ю. Ху (2003). Обучение лечению: внедрение и применение (магистерская диссертация). Департамент электротехники Университета Британской Колумбии.
^ Перейти обратно: ^а ^б К. Ганди-Берле; Дж. Шуман; Т. Барретт; Т. Мензис (2007). Параметрический анализ алгоритмов наведения при входе в атмосферу ANTARES с использованием расширенной генерации тестов и анализа данных . На 9-м Международном симпозиуме по искусственному интеллекту, робототехнике и автоматизации в космосе.
^ Перейти обратно: ^а ^б Грегори Гей; Тим Мензис; Мисти Дэвис; Карен Ганди-Берлет (2010). «Автоматический поиск управляющих переменных для поведения сложной системы» (PDF) . Автоматизированная разработка программного обеспечения . 17 (4).
^ Перейти обратно: ^а ^б Т. Мензис; Ю. Ху (2003). «Интеллектуальный анализ данных для очень занятых людей» (PDF) . IEEE-компьютер . 36 (11): 22–29. дои : 10.1109/mc.2003.1244531 .
^ Дж. Шуман; К. Ганди-Берле; К. Пасареану ; Т. Мензис; А. Барретт (2009). Поддержка V&V программного обеспечения путем параметрического анализа больших систем моделирования программного обеспечения . Материалы аэрокосмической конференции IEEE 2009 г.

[bay01-1] Перейти обратно: ^а ^б Стивен Бэй; Майкл Паццани (2001). «Обнаружение групповых различий: анализ наборов контрастов» (PDF) . Интеллектуальный анализ данных и обнаружение знаний . 5 (3): 213–246. дои : 10.1023/А:1011429418057 . S2CID 2941550 .

[webb03-2] Г.И. Уэбб; С. Батлер; Д. Ньюлендс (2003). Об обнаружении различий между группами . KDD'03 Материалы девятой Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных.

[bay99-3] Перейти обратно: ^а ^б ^с Стивен Бэй; Майкл Паццани (1999). Обнаружение изменений в категориальных данных: анализ наборов контрастов . KDD '99 Материалы пятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных.

[cai98-4] CH Цай; AWC Фу; Чэн Ченг; WW Квонг (1998). Правила горнодобывающей ассоциации с взвешенными элементами (PDF) . Материалы Международного симпозиума по разработке баз данных и приложениям (IDEAS 98).

[hu03-5] Перейти обратно: ^а ^б Ю. Ху (2003). Обучение лечению: внедрение и применение (магистерская диссертация). Департамент электротехники Университета Британской Колумбии.

[burlet07-6] Перейти обратно: ^а ^б К. Ганди-Берле; Дж. Шуман; Т. Барретт; Т. Мензис (2007). Параметрический анализ алгоритмов наведения при входе в атмосферу ANTARES с использованием расширенной генерации тестов и анализа данных . На 9-м Международном симпозиуме по искусственному интеллекту, робототехнике и автоматизации в космосе.

[gay10-7] Перейти обратно: ^а ^б Грегори Гей; Тим Мензис; Мисти Дэвис; Карен Ганди-Берлет (2010). «Автоматический поиск управляющих переменных для поведения сложной системы» (PDF) . Автоматизированная разработка программного обеспечения . 17 (4).

[menzies03-8] Перейти обратно: ^а ^б Т. Мензис; Ю. Ху (2003). «Интеллектуальный анализ данных для очень занятых людей» (PDF) . IEEE-компьютер . 36 (11): 22–29. дои : 10.1109/mc.2003.1244531 .

[schumann09-9] Дж. Шуман; К. Ганди-Берле; К. Пасареану ; Т. Мензис; А. Барретт (2009). Поддержка V&V программного обеспечения путем параметрического анализа больших систем моделирования программного обеспечения . Материалы аэрокосмической конференции IEEE 2009 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]