Jump to content

Концептуальная кластеризация

Концептуальная кластеризация — это парадигма машинного обучения для классификации без учителя , которая была определена Рышардом С. Михальски в 1980 году (Фишер 1987, Михальски 1980) и развивалась в основном в 1980-х годах. Он отличается от обычной кластеризации данных тем, что генерирует описание концепции для каждого сгенерированного класса. Большинство методов концептуальной кластеризации способны генерировать иерархические структуры категорий; см. в разделе «Категоризация» дополнительную информацию об иерархии . Концептуальная кластеризация тесно связана с анализом формальных концепций , обучением дерева решений и обучением смешанной модели .

Концептуальная кластеризация и кластеризация данных

[ редактировать ]

Концептуальная кластеризация, очевидно, тесно связана с кластеризацией данных; однако при концептуальной кластеризации движущей силой формирования кластера является не только внутренняя структура данных, но и язык описания , доступный учащемуся. Таким образом, обучающийся может не суметь выделить статистически сильную группировку данных, если преобладающий язык описания концепций не способен описать эту конкретную закономерность . В большинстве реализаций язык описания ограничивался объединением признаков , хотя в COBWEB (см. « COBWEB » ниже) язык признаков является вероятностным .

Список опубликованных алгоритмов

[ редактировать ]

Для концептуальной кластеризации было предложено достаточное количество алгоритмов. Некоторые примеры приведены ниже:

  • КЛАСТЕР/2 (Михальский и Степп, 1983)
  • ПАУТИНКА (Фишер, 1987)
  • СИР (Колоднер, 1983)
  • ГАЛУА (Карпинето и Романо, 1993),
  • ЗКФ (Талавера и Бехар, 2001)
  • ИНК (Хадзикадич и Юн, 1989)
  • ИТЕРАЦИЯ (Бисвас, Вайнберг и Фишер 1998),
  • ЛАБИРИНТ (Томпсон и Лэнгли, 1989)
  • ПОДЧИНИТЬ (Джоньер, Кук и Холдер, 2001).
  • UNIMEM (Лебовиц, 1987)
  • ВИТТ (Хэнсон и Бауэр, 1989),

Более общие обсуждения и обзоры концептуальной кластеризации можно найти в следующих публикациях:

  • Михальский (1980)
  • Дженнари, Лэнгли и Фишер (1989)
  • Фишер и Паццани (1991)
  • Фишер и Лэнгли (1986)
  • Степп и Михальски (1986)

Пример. Базовый алгоритм концептуальной кластеризации.

[ редактировать ]

В этом разделе обсуждаются основы концептуального алгоритма кластеризации COBWEB. Существует множество других алгоритмов, использующих различные эвристики и критерии оценки категорий , но COBWEB — один из самых известных. читатель отсылается к библиографии Для ознакомления с другими методами .

Представление знаний

[ редактировать ]

Структура данных COBWEB представляет собой иерархию (дерево), в которой каждый узел представляет определенную концепцию . Каждая концепция представляет собой набор (на самом деле мультимножество или пакет) объектов, причем каждый объект представляется в виде списка свойств с двоичными значениями. Данные, связанные с каждым узлом дерева (т. е. концепцией), представляют собой целочисленные значения свойств объектов в этой концепции. Например, (см. рисунок), пусть понятие содержать следующие четыре объекта (повторяющиеся объекты разрешены).

Пример представления знаний COBWEB, иерархия вероятностных концепций. В синих прямоугольниках указаны фактические объекты, в фиолетовых — количество атрибутов. Подробности смотрите в тексте. Примечание . Эта диаграмма предназначена только для иллюстрации структуры данных COBWEB; оно не обязательно представляет собой «хорошее» концептуальное дерево или дерево, которое COBWEB фактически построил бы на основе реальных данных.
  1. [1 0 1]
  2. [0 1 1]
  3. [0 1 0]
  4. [0 1 1]

Этими тремя свойствами могут быть, например, [is_male, has_wings, is_nocturnal]. Тогда в этом концептуальном узле хранится количество свойств. [1 3 3], что указывает на то, что 1 объект в концепции — мужчина, 3 объекта имеют крылья и 3 объекта ведут ночной образ жизни. понятия Описание – это категориально-условная вероятность (правдоподобие) свойств в узле. Таким образом, учитывая, что объект является членом категории (понятия) , вероятность того, что это мужчина, равна . Аналогично, вероятность того, что у объекта есть крылья, и вероятность того, что объект ведет ночной образ жизни, или и то, и другое равна . Таким образом, описание концепции можно просто дать в виде [.25 .75 .75], что соответствует -условная вероятность признака, т.е. .

На рисунке справа показано дерево концепций с пятью концепциями. — это корневая концепция, содержащая все десять объектов в наборе данных. Концепции и дети , первый из которых содержит четыре объекта, а второй — шесть объектов. Концепция также является родителем концепций , , и , которые содержат три, два и один объект соответственно. Обратите внимание, что каждый родительский узел (относительное вышестоящее понятие) содержит все объекты, содержащиеся в его дочерних узлах (относительные подчиненные понятия). В описании COBWEB Фишером (1987) он указывает, что в узлах хранятся только общие значения атрибутов (а не условные вероятности и не списки объектов). Любые вероятности вычисляются на основе количества атрибутов по мере необходимости.

Язык COBWEB

[ редактировать ]

Язык описания COBWEB является «языком» только в широком смысле, поскольку, будучи полностью вероятностным, он способен описать любую концепцию. Однако если наложить ограничения на диапазоны вероятностей, которые могут представлять понятия, то получится более сильный язык. Например, мы могли бы разрешить только концепции, в которых хотя бы одна вероятность отличается от 0,5 более чем на . При этом ограничении с такое понятие, как [.6 .5 .7] не мог быть построен учащимся; однако такое понятие, как [.6 .5 .9] будет доступен, поскольку хотя бы одна вероятность отличается от 0,5 более чем . Таким образом, при таких ограничениях мы получаем нечто вроде традиционного языка понятий. В предельном случае, когда для каждого признака и, следовательно, каждой вероятности в понятии, должно быть равно 0 или 1, результатом является язык признаков, основанный на конъюнкции; то есть каждое понятие, которое может быть представлено, затем может быть описано как совокупность признаков (и их отрицаний), а понятия, которые не могут быть описаны таким образом, не могут быть представлены.

Критерий оценки

[ редактировать ]

В описании COBWEB Фишером (1987) мерой, которую он использует для оценки качества иерархии, является мера категории полезности (CU) Глюка и Кортера (1985), которую он повторно выводит в своей статье. Мотивация для этой меры очень похожа на меру « получения информации », введенную Куинланом для обучения дерева решений. Ранее было показано, что CU для классификации на основе признаков совпадает с взаимной информацией между переменными признака и переменной класса (Gluck & Corter, 1985; Corter & Gluck, 1992), и поскольку эта мера гораздо лучше известна Здесь мы исходим из взаимной информации как меры категории «добро».

Мы хотим оценить общую полезность группировки объектов в определенную иерархическую структуру категоризации. Учитывая набор возможных классификационных структур, нам нужно определить, лучше ли одна из них, чем другая.

  • Бисвас, Г.; Вайнберг, Дж.Б.; Фишер, Дуглас Х. (1998). «Итерация: концептуальный алгоритм кластеризации для интеллектуального анализа данных». Транзакции IEEE в системах, человеке и кибернетике. Часть C: Приложения и обзоры . 28 (2): 100–111. дои : 10.1109/5326.669556 .
  • Джоньер, И.; Кук, диджей; Холдер, Л.Б. (2001). «Иерархическая концептуальная кластеризация на основе графов». Журнал исследований машинного обучения . 2 : 19–43. дои : 10.1162/153244302760185234 .
  • Талавера, Л.; Бежар, Дж. (2001). «Концептуальная кластеризация на основе общности с вероятностными концепциями». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 23 (2): 196–206. дои : 10.1109/34.908969 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d78ee385ef1abe718f34098f4a51c620__1667278080
URL1:https://arc.ask3.ru/arc/aa/d7/20/d78ee385ef1abe718f34098f4a51c620.html
Заголовок, (Title) документа по адресу, URL1:
Conceptual clustering - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)