Коллективная классификация
В сетей теории коллективная классификация — это одновременное предсказание меток для нескольких объектов, где каждая метка прогнозируется с использованием информации о наблюдаемых функциях объекта , наблюдаемых функциях и метках его соседей, а также ненаблюдаемых метках его соседей. [1] Проблемы коллективной классификации определяются в терминах сетей случайных величин, где структура сети определяет взаимосвязь между случайными величинами. Вывод выполняется одновременно для нескольких случайных величин, обычно путем распространения информации между узлами сети для выполнения приблизительного вывода. Подходы, использующие коллективную классификацию, могут использовать реляционную информацию при выполнении вывода. Примеры коллективной классификации включают прогнозирование атрибутов (например, пола, возраста, политической принадлежности) людей в социальной сети , классификацию веб-страниц во Всемирной паутине и определение области исследования статьи в наборе данных научных публикаций.
Мотивация и предыстория
[ редактировать ]Традиционно основным направлением машинного обучения является решение задач классификации . (Например, учитывая набор электронных писем, мы хотим определить, какие из них являются спамом , а какие нет.) Многие модели машинного обучения для выполнения этой задачи будут пытаться классифицировать каждый элемент независимо и сосредоточиться на прогнозировании меток классов отдельно. . Однако точность прогнозирования меток, значения которых необходимо вывести, можно повысить, если знать правильные метки классов для связанных элементов. Например, легче предсказать тему веб-страницы, если мы знаем темы веб-страниц, которые ссылаются на нее. Точно так же вероятность того, что конкретное слово является глаголом, увеличивается, если мы знаем, что предыдущее слово в предложении — существительное; знание первых нескольких символов слова может значительно облегчить идентификацию остальных символов. Многие исследователи предложили методы, которые пытаются классифицировать образцы совместным или коллективным образом вместо того, чтобы рассматривать каждый образец по отдельности; эти методы позволили значительно повысить точность классификации. [1] [2]
Пример
[ редактировать ]Рассмотрим задачу вывода о политической принадлежности пользователей в социальной сети, где какая-то часть этой принадлежности наблюдается, а остальная часть не наблюдается. У каждого пользователя есть локальные функции, такие как информация его профиля, а также существуют связи между пользователями, которые являются друзьями в этой социальной сети. Подход, который не классифицирует пользователей коллективно, будет рассматривать каждого пользователя в сети независимо и использовать его локальные особенности для определения партийной принадлежности. Подход, который выполняет коллективную классификацию, может предполагать, что друзья-пользователи, как правило, имеют схожие политические взгляды, и затем может совместно сделать вывод обо всей ненаблюдаемой партийной принадлежности, используя при этом богатую реляционную структуру социальной сети.
Определение
[ редактировать ]Рассмотрим задачу полуконтролируемого обучения по присвоению меток узлам сети, используя знание подмножества меток узлов. В частности, нам дана сеть, представленная графом с набором узлов и набор кромок представление отношений между узлами. Каждый узел описывается своими атрибутами: вектором признаков и его метка (или класс) .
далее можно разделить на два набора узлов: , набор узлов, для которых мы знаем правильные значения меток (наблюдаемые переменные) и , узлы, метки которых должны быть выведены. Задача коллективной классификации состоит в том, чтобы пометить узлы в с этикеткой из набора этикеток .
В таких условиях традиционные алгоритмы классификации предполагают, что данные извлекаются независимо и одинаково из некоторого распределения (iid). Это означает, что метки, выведенные для узлов, метка которых не наблюдается, независимы друг от друга. Это предположение не делается при выполнении коллективной классификации. Вместо этого существует три различных типа корреляций, которые можно использовать для определения классификации или обозначения :
- Корреляции между меткой и наблюдаемые атрибуты . Традиционные классификаторы iid, использующие векторы признаков, являются примером подходов, использующих эту корреляцию.
- Корреляции между меткой и наблюдаемые атрибуты (включая наблюдаемые метки) узлов в окрестностях .
- Корреляции между меткой и ненаблюдаемые метки объектов в окрестностях .
Коллективная классификация представляет собой комбинированную классификацию набора взаимосвязанных объектов с использованием трех вышеуказанных типов информации.
Методы
[ редактировать ]Существует несколько существующих подходов к коллективной классификации. Двумя основными методами являются итеративные методы и методы, основанные на вероятностных графических моделях . [3]
Итерационные методы
[ редактировать ]Общая идея итеративных методов заключается в итеративном объединении и пересмотре прогнозов отдельных узлов для достижения равновесия. Если обновление прогнозов для отдельных узлов является быстрой операцией, сложность этих итерационных методов будет равна количеству итераций, необходимых для сходимости. Хотя сходимость и оптимальность не всегда гарантированы математически, на практике эти подходы обычно быстро сходятся к хорошему решению, в зависимости от структуры графа и сложности задачи. Методы, представленные в этом разделе, являются типичными для этого итеративного подхода.
Распространение меток
[ редактировать ]Естественным предположением при классификации сетей является то, что соседние узлы, скорее всего, будут иметь один и тот же ярлык (т. е. заражение или гомофилия ). Предиктор для узла используя метод распространения меток, представляет собой средневзвешенное значение соседних меток [4]
Итеративные алгоритмы классификации (ICA)
[ редактировать ]Хотя распространение меток на удивление эффективно, иногда оно может не отражать сложную реляционную динамику. Более сложные подходы могут использовать более богатые предикторы. Предположим, у нас есть классификатор который был обучен классифицировать узел учитывая его особенности и особенности и этикетки своих соседей . Применяется итеративная классификация, использующая локальный классификатор для каждого узла, который использует информацию о текущих прогнозах и достоверную информацию о соседях узла, и выполняет итерации до тех пор, пока локальные прогнозы не сойдутся к глобальному решению. Итеративная классификация представляет собой «алгоритмическую структуру», поскольку она не зависит от выбора предиктора; это делает его очень универсальным инструментом коллективной классификации. [5] [6] [7]
Коллективная классификация с графическими моделями
[ редактировать ]Другой подход к коллективной классификации состоит в том, чтобы представить проблему с помощью графической модели и использовать методы обучения и вывода для подхода графического моделирования для получения правильных классификаций. Графические модели — это инструменты для совместного вероятностного вывода, что делает их идеальными для коллективной классификации. Они характеризуются графическим представлением распределения вероятностей. , в котором случайные величины являются узлами графа . Графические модели можно в общих чертах разделить на категории по тому, является ли основной граф направленным (например, байесовские сети или наборы локальных классификаторов) или неориентированным (например, марковские случайные поля (MRF)).
Выборка Гиббса
[ редактировать ]Выборка Гиббса — это общая основа аппроксимации распределения. Это алгоритм Монте-Карло цепи Маркова , поскольку он итеративно производит выборку из текущей оценки распределения, создавая цепь Маркова, которая сходится к целевому (стационарному) распределению. Основная идея выборки Гиббса состоит в том, чтобы получить наилучшую оценку метки для учитывая все значения для узлов в используя локальный классификатор за фиксированное количество итераций. После этого мы отбираем этикетки для каждого и вести статистику подсчета количества раз, когда мы брали образцы с этикетки для узла . Собрав заранее определенное количество таких выборок, мы выводим лучшее назначение метки для узла. выбрав метку, которая была назначена максимальное количество раз при сборе образцов. [8] [9]
Зацикленное распространение убеждений
[ редактировать ]Для некоторых ненаправленных графических моделей можно эффективно выполнять точные выводы посредством передачи сообщений или алгоритмов распространения убеждений . [10] Эти алгоритмы следуют простой итеративной схеме: каждая переменная передает свои «представления» о маргинальных распределениях своих соседей, а затем использует входящие сообщения о своем собственном значении для обновления своих убеждений. Сходимость к истинным маргиналам гарантируется для MRF с древовидной структурой, но не гарантируется для MRF с циклами.
Связанное со статистическим реляционным обучением (SRL)
[ редактировать ]Статистическое реляционное обучение часто используется для решения проблем коллективной классификации. К коллективной классификации применялись различные методы SRL. Некоторые из методов включают прямые методы, такие как вероятностные реляционные модели (PRM), [11] связанные условные модели, такие как классификация на основе ссылок, [12] и косвенные методы, такие как логические сети Маркова (MLN). [13] и вероятностная мягкая логика (PSL). [14]
Приложения
[ редактировать ]Коллективная классификация применяется во многих областях, демонстрирующих реляционную структуру, таких как:
- Анализ социальных сетей , где коллективные подходы к задачам классификации узлов, таким как обнаружение злонамеренных пользователей, могут использовать информацию об отношениях между узлами. [15] [16]
- Разрешение сущностей , где можно использовать отношения соавторства для идентификации авторов статей. [17]
- Распознавание именованных объектов , где некоторые подходы рассматривают это как проблему маркировки текстовой последовательности и совместно выводят метки каждого слова в предложении, обычно с использованием условного случайного поля , которое моделирует линейную цепочку зависимостей между метками соседних слов в предложении. . [18]
- Классификация документов , где, например, семантические сходства между документами могут коллективно использоваться как сигналы о принадлежности определенных документов к одному и тому же классу. [19]
- Вычислительная биология , где графические модели, такие как случайные поля Маркова, используются для совместного вывода отношений между биологическими объектами, такими как гены. [20]
- Компьютерное зрение , где, например, коллективная классификация может применяться для одновременного распознавания нескольких объектов. [21]
См. также
[ редактировать ]- Машинное обучение
- Классификация
- Сходство (сетевая наука)
- Граф (дискретная математика)
- Статистическое реляционное обучение
- Байесовские сети
- Марковское случайное поле
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Сен, Притхвирадж; Намата, Галилей; Билгич, Мустафа; Гетур, Лиза; Галлихер, Брайан; Элиасси-Рад, Тина (2008). «Коллективная классификация сетевых данных» . Журнал ИИ . 29 (3): 93. дои : 10.1609/aimag.v29i3.2157 . hdl : 1903/7546 . ISSN 0738-4602 .
- ^ Кайданович, Томаш; Казиенко, Пшемыслав (2018). «Коллективная классификация». Энциклопедия анализа социальных сетей и майнинга . стр. 253–265. дои : 10.1007/978-1-4939-7131-2_45 . ISBN 978-1-4939-7130-5 .
- ^ Лондон, Бен; Гетур, Лиза (2014). «Коллективная классификация сетевых данных». Классификация данных: алгоритмы и приложения . 29 : 399–416.
- ^ Чжу, Сяоцзинь (2002). Обучение на маркированных и немаркированных данных с помощью распространения меток (технический отчет). CiteSeerX 10.1.1.14.3864 .
- ^ Невилл, Дженнифер; Дженсен, Дэвид (2000). Итеративная классификация в реляционных данных (PDF) . Семинар AAAI по изучению статистических моделей на основе реляционных данных (SRL). АААИ. п. 8.
- ^ Чакрабарти, Сумен; Дом, Байрон; Индик, Петр (1998). Улучшенная категоризация гипертекста с использованием гиперссылок . Материалы Международной конференции ACM SIGMOD 1998 г. по управлению данными. Ассоциация вычислительной техники (ACM). стр. 307–318. дои : 10.1145/276304.276332 .
- ^ Дженсен, Дэвид; Невилл, Дженнифер; Галлахер, Дэвид (2000). Почему коллективный вывод улучшает реляционную классификацию . Международная конференция ACM SIGKDD по открытию знаний и интеллектуальному анализу данных. Ассоциация вычислительной техники (ACM). п. 5. дои : 10.1145/1014052.1014125 .
- ^ Макскасси, Софус; Провост, Фостер (2007). «Классификация сетевых данных: набор инструментов и одномерное исследование» (PDF) . Журнал исследований машинного обучения : 935–983.
- ^ Жеман, Стюарт; Дональд, Фостер (1990). «Стохастическая релаксация, распределения Гиббса и байесовское восстановление изображений». Чтение по неопределенным рассуждениям . Morgan Kaufmann Publishers Inc., стр. 452–472.
- ^ Едидия, Дж.С.; Фриман, WT; Ю. (январь 2003 г.). «Понимание распространения убеждений и его обобщений» . В Лакмейере, Герхард; Небель, Бернхард (ред.). Исследование искусственного интеллекта в новом тысячелетии . Морган Кауфманн. стр. 239–236. ISBN 978-1-55860-811-5 . Проверено 30 марта 2009 г.
- ^ Гетур, Лиза; Фридман, Нир; Коллер, Дафна; Таскар, Бенджамин (2002). «Изучение вероятностных моделей ссылочной структуры» . Дж. Мах. Учиться. Рез . 3 : 679–707.
- ^ Лу, Цин; Гетур, Лиза (2003). Классификация на основе ссылок (PDF) . Международная конференция по машинному обучению (ICML).
- ^ Ричардсон, Мэтью; Домингос, Педро М. (2006). «Марковские логические сети». Мах. Учиться . 62 (1–2): 107–136. дои : 10.1007/S10994-006-5833-1 .
- ^ Бах, Стивен; Брохелер, Матиас; Хуанг, Берт; Гетур, Лиза (2017). «Марковские случайные поля с шарнирными потерями и вероятностная мягкая логика». Журнал исследований машинного обучения . 18 : 1–67.
- ^ Джаафор, Омар; Биррега, Бабига (31 июля 2017 г.). «Коллективная классификация в социальных сетях». Материалы Международной конференции IEEE/ACM 2017 года по достижениям в области анализа и майнинга социальных сетей, 2017 год . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 827–835. дои : 10.1145/3110025.3110128 . ISBN 978-1-4503-4993-2 .
- ^ Фахраи, Шобейр; Фулдс, Джеймс; Шашанка, Мадхусудана; Гетур, Лиза (2015). «Коллективное обнаружение спамеров в развивающихся многореляционных социальных сетях». Материалы 21-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 1769–1778. дои : 10.1145/2783258.2788606 . ISBN 978-1-4503-3664-2 .
- ^ Бхаттачарья, Индраджит; Гетур, Лиза (2007). «Коллективное разрешение сущностей в реляционных данных». Транзакции ACM по извлечению знаний из данных . 1 (1). Ассоциация вычислительной техники (ACM): 5. doi : 10.1145/1217299.1217304 . hdl : 1903/4241 . ISSN 1556-4681 . S2CID 488972 .
- ^ Ло, Линг; Ян, Чжихао; Ян, Пей; Чжан, Инь; Ван, Лей; Линь, Хунфэй; Ван, Цзянь (24 ноября 2017 г.). Рен, Джонатан (ред.). «Подход BiLSTM-CRF, основанный на внимании, к распознаванию названных химических объектов на уровне документа» . Биоинформатика . 34 (8). Издательство Оксфордского университета (OUP): 1381–1388. doi : 10.1093/биоинформатика/btx761 . ISSN 1367-4803 . ПМИД 29186323 .
- ^ Берфорд, Клинт; Берд, Стивен; Болдуин, Тимоти (2015). «Коллективная классификация документов с неявными семантическими связями между документами». Материалы четвертой совместной конференции по лексической и вычислительной семантике . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 106–116. дои : 10.18653/v1/s15-1012 .
- ^ Житник М, Зупан Б (2015). «Вывод о генной сети путем объединения данных из различных источников» . Биоинформатика . 31 (12): и230-9. doi : 10.1093/биоинформатика/btv258 . ПМЦ 4542780 . ПМИД 26072487 .
- ^ Трибель, Рудольф; Мосос, Оскар Мартинес; Бургард, Вольфрам (2008). «Коллективная классификация для маркировки мест и объектов в двухмерных и трехмерных данных» (PDF) . Анализ данных, машинное обучение и приложения . Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 293–300. дои : 10.1007/978-3-540-78246-9_35 . ISBN 978-3-540-78239-1 . ISSN 1431-8814 .