Модели совместного тегирования
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Совместная пометка, также известная как пометка в социальных сетях или фолксономия , позволяет пользователям применять общедоступные теги к онлайн-элементам, как правило, для того, чтобы облегчить поиск этих элементов себе или другим в дальнейшем. Утверждалось, что эти системы тегов могут предоставлять другим пользователям навигационные подсказки или «указатели пути» для изучения информации. [1] [2] Идея состоит в том, что, поскольку социальные теги представляют собой метки, которые пользователи создают для представления тем, извлеченных из онлайн-документов, интерпретация этих тегов должна позволять другим пользователям эффективно прогнозировать содержимое различных документов. Социальные теги, возможно, более важны при исследовательском поиске , в котором пользователи могут участвовать в итеративных циклах уточнения целей и исследования новой информации (в отличие от простого поиска фактов), а интерпретация содержания информации другими будет предоставлять полезные подсказки для людей. чтобы обнаружить актуальные темы.
Одной из серьезных проблем, возникающих в системах социальных тегов, является быстрое увеличение количества и разнообразия тегов. В отличие от систем структурированных аннотаций, теги предоставляют пользователям неструктурированный, открытый механизм для аннотирования и организации веб-контента . Поскольку пользователи могут создавать любые теги для описания любого ресурса, это приводит к так называемой словарной проблеме. [3] Поскольку пользователи могут использовать разные слова для описания одного и того же документа или извлекать разные темы из одного и того же документа на основе своих собственных знаний, отсутствие какого-либо нисходящего посредничества может привести к увеличению использования бессвязных тегов для представления информационных ресурсов. в системе. Другими словами, отсутствие структуры, присущей социальным тегам, может ограничить их потенциал в качестве навигационных сигналов для поисковиков, поскольку разнообразие пользователей и их мотивация могут привести к уменьшению связей между тегами и темами по мере роста системы. Однако ряд исследований показал, что структуры действительно возникают на семантическом уровне, что указывает на то, что существуют силы сцепления, движущие возникающими структурами в системе социальных тегов. [4]
Различие между описательными и прогнозирующими моделями
[ редактировать ]Как и любые социальные явления , поведенческие модели в системах социальных тегов могут быть охарактеризованы либо описательной , либо прогнозирующей моделью . В то время как описательные модели задают вопрос «что», прогностические модели идут глубже и также задают вопрос «почему», пытаясь дать объяснения совокупным моделям поведения. [5] Хотя общего согласия относительно того, каким должно быть приемлемое объяснение, может не быть, многие полагают, что хорошее объяснение должно иметь определенный уровень точности прогнозирования.
Описательные модели обычно не связаны с объяснением действий людей. Вместо этого они сосредотачиваются на описании закономерностей, возникающих по мере того, как индивидуальное поведение агрегируется в большую социальную информационную систему. Однако прогностические модели пытаются объяснить совокупные закономерности, анализируя, как люди взаимодействуют и связываются друг с другом таким образом, что порождают схожие или разные возникающие модели социального поведения. В частности, прогнозирующая модель, основанная на механизмах, предполагает определенный набор правил, регулирующих взаимодействие людей друг с другом, и понимание того, как эти взаимодействия могут создавать совокупные закономерности, наблюдаемые и характеризуемые описательными моделями. Таким образом, прогнозные модели могут объяснить, почему разные характеристики системы могут привести к различным совокупным закономерностям, и, следовательно, потенциально могут предоставить информацию о том, как следует проектировать системы для достижения различных социальных целей.
Описательные модели
[ редактировать ]Модели теории информации
[ редактировать ]Для большинства систем тегирования общее количество тегируемых объектов намного превышает общее количество тегов в коллективном словаре. Если в этой системе указан один тег, многие документы будут совпадать, поэтому использование отдельных тегов не может эффективно изолировать какой-либо один документ. Однако некоторые документы более популярны или важны, чем другие, что отражается на количестве закладок на документ. Таким образом, основное внимание следует уделить тому, насколько хорошо сопоставление тегов с документами сохраняет информацию о распространении документов. Теория информации обеспечивает основу для понимания объема общей информации между двумя случайными величинами. Условная энтропия измеряет количество энтропии, остающейся в одной случайной величине, когда известно значение второй случайной величины.
Статья Эда Чи и Тодда Митковича, опубликованная в 2008 году, показала, что энтропия документов, обусловленных тегами, H(D|T), быстро растет. [6] Это говорит о том, что даже после полного знания значения тега энтропия набора документов со временем увеличивается. Условная энтропия задает вопрос: «Учитывая, что набор тегов известен, насколько остается неопределенность в отношении набора документов, на который ссылаются эти теги?» Эта кривая строго возрастает, что говорит о том, что специфичность любого данного тега снижается. В качестве средства навигации использовать теги становится все сложнее и сложнее, и один тег постепенно будет ссылаться на слишком много документов, чтобы его можно было считать полезным.
Другой подход — через взаимную информацию , меру независимости между двумя переменными. Полная независимость достигается, когда I(D;T) = 0. [ нужны разъяснения ] Исследования Чи и Митковича показывают, что мерой полезности тегов и их кодирования является тенденция к ухудшению способности пользователей указывать и находить теги и документы, когда они занимаются простым поиском фактов. [6] Это предполагает, что системы поиска и рекомендаций должны быть созданы, чтобы помочь пользователям просеивать ресурсы в системах социальных тегов, особенно когда они участвуют в деятельности, выходящей за рамки поиска фактов, как это характеризует теория информации. Хотя количество документов, связанных с тем или иным тегом, увеличивается, существует множество способов, с помощью которых контекстная информация может помочь пользователям искать соответствующую информацию. Это один из основных недостатков простой теории информации в объяснении полезности тегов: она игнорирует то, как люди могут извлекать значения из набора тегов, присвоенных документу. Например, статья 2007 года показала, что, хотя количество тегов увеличивается, общая модель роста не имеет масштаба – общее распределение совпадений тегов соответствует степенному закону . [7]
В той же статье также было обнаружено, что характеристики этого безмасштабного распределения зависят от семантики тега : семантически общие теги (например, блоги ) имеют тенденцию встречаться одновременно со многими тегами, тогда как семантически узкие теги (например, Ajax ) обычно встречаются с небольшим количеством тегов в широком наборе документов в системе социальных тегов. [7] Это говорит о том, что допущение подхода теории информации слишком простое – при учете семантики набора тегов, присвоенных документам, прогностическая ценность тегов относительно содержимого документов относительно стабильна. Этот вывод важен для разработки рекомендательных систем : обнаружение этих семантических паттернов более высокого уровня важно для помощи людям в поиске соответствующей информации.
Конвергенция тегов
[ редактировать ]Несмотря на эту потенциальную словарную проблему, исследования показали, что на совокупном уровне поведение тегов казалось относительно стабильным, и что пропорции выбора тегов, похоже, сближались, а не расходились. Хотя эти наблюдения предоставили доказательства против предложенной словарной проблемы, они также инициировали исследование, изучающее, как и почему пропорции тегов имеют тенденцию к сближению с течением времени.
Одним из объяснений стабильности было то, что пользователям была присуща склонность «имитировать» использование слов другими при создании тегов. Эта склонность может действовать как форма социальной сплоченности, которая способствует согласованности тематических отношений в системе и приводит к стабильности в системе. [8] Показано, что стохастическая модель урны, созданная в 1923 г. [9] был полезен для объяснения того, как простое имитационное поведение на индивидуальном уровне может объяснить сходящиеся модели использования тегов. [8] В частности, конвергенция выбора тегов моделировалась с помощью процесса, в котором цветной шар случайным образом выбирался из урны, а затем заменялся в урне дополнительным шаром того же цвета, имитируя вероятностный характер повторного использования тегов. Однако эта простая модель не объясняет, почему одни теги будут «имитироваться» чаще, чем другие, и, следовательно, не может обеспечить реалистичный механизм выбора тегов и то, как социальные теги могут использоваться в качестве навигационных подсказок во время исследовательского поиска.
Динамика сложных систем и возникающие словари
[ редактировать ]Исследование, основанное на данных сайта социальных закладок Del.icio.us, показало, что совместные системы тегов демонстрируют форму сложной системной (или самоорганизующейся ) динамики. [10] Более того, хотя не существует центрального, контролируемого словаря, ограничивающего действия отдельных пользователей, было показано, что распределение тегов, описывающих различные ресурсы, со временем сходится к стабильному степенному распределению. [10] Как только такие стабильные распределения формируются, корреляции между различными тегами можно использовать для построения простых графов фолксономии , которые можно разделить для получения формы сообщества или общих словарей. [11] Такие словари можно рассматривать как результат децентрализованных действий многих пользователей – это форма краудсорсинга .
Выбор тега с помощью стохастического процесса
[ редактировать ]Модель Юла-Саймона (MBYS) на основе памяти [7] пытается объяснить выбор тегов случайным процессом. Было обнаружено, что временной порядок назначения тегов влияет на выбор тегов пользователями. Подобно модели стохастической урны, модель MBYS предполагает, что на каждом этапе метка будет отбираться случайным образом: с вероятностью что выбранный тег был новым, и с вероятностью 1- что выбранный тег был скопирован из существующих тегов. Предполагалось, что при копировании вероятность выбора метки убывает со временем, и было обнаружено, что эта функция затухания подчиняется степенному закону распределения. Таким образом, теги, которые использовались совсем недавно, имели более высокую вероятность повторного использования.
Одним из важных открытий было то, что семантически общие теги (например, «блог») чаще встречались вместе с другими тегами, чем семантически более узкие теги (например, «Ajax»), и это различие можно было уловить с помощью функции затухания повторного использования тегов в их модель. [7] В частности, было обнаружено, что более медленный параметр затухания (когда тег используется чаще) может объяснить явление, заключающееся в том, что семантически общие теги имеют тенденцию встречаться вместе с большим набором тегов. Другими словами, утверждалось, что «семантическая широта» тега может быть смоделирована с помощью функции затухания памяти, что может привести к различным возникающим моделям поведения в системе тегов. [7]
Прогнозные модели
[ редактировать ]Семантическая имитационная модель
[ редактировать ]Этот раздел нуждается в дополнительных цитатах для проверки . ( Октябрь 2019 г. ) |
Описательные модели были основаны на анализе отношений «слово-слово», выявленных с помощью различных статистических структур в организации тегов (например, насколько вероятно, что один тег будет встречаться одновременно с другими тегами или насколько вероятно, что каждый тег будет повторно использоваться с течением времени). Таким образом, эти модели являются описательными моделями на совокупном уровне и мало что могут предложить в отношении прогнозов на уровне индивидуальных интерфейсных взаимодействий и когнитивных процессов.
Вместо подражания другим пользователям на уровне слов одно из возможных объяснений такого рода социальной сплоченности может быть основано на естественной тенденции людей обрабатывать теги на семантическом уровне, и именно на этом уровне обработки происходит большая часть имитации. . Это объяснение было подтверждено исследованиями в области понимания прочитанного , которые показали, что во время понимания люди, как правило, подвержены влиянию значений слов, а не самих слов. [12] Если предположить, что люди одной и той же культуры, как правило, имеют общие структуры – например, используют схожие словари и соответствующие им значения для соответствия и общения, пользователи одной и той же системы социальных тегов могут также разделять схожие семантические представления слов и понятий, даже если использование теги могут различаться у разных людей на уровне слов. Таким образом, отчасти причина стабильности систем социальных тегов может быть связана с общими семантическими представлениями среди пользователей, так что пользователи могут иметь относительно стабильную и последовательную интерпретацию информационного содержимого и тегов при взаимодействии с системой. Основываясь на этом предположении, модель семантической имитации предсказывает, как различные семантические представления могут привести к различиям в выборе отдельных тегов и, в конечном итоге, к различным возникающим свойствам на совокупном поведенческом уровне. [13] [14] Модель также предсказывает, что фолксономии в системе отражают общие семантические представления пользователей.
Семантическая имитация имеет важные последствия для общей словарной проблемы при поиске информации и взаимодействии человека с компьютером – создания большого количества разнообразных тегов для описания одного и того же набора информационных ресурсов. Семантическая имитация подразумевает, что единица общения между пользователями происходит скорее на семантическом уровне, чем на уровне слов. Таким образом, хотя в выборе слов при описании ресурса может и не быть сильной согласованности, на семантическом уровне, по-видимому, существует более сильная сила согласованности, которая направляет сближение описательных индексов. Это резко контрастирует с выводами, полученными на основе чисто информационного подхода, который предполагает, что люди ищут и оценивают информацию на уровне слов. Вместо этого процесс семантической имитации при социальных тегах подразумевает, что теоретико-информационный подход в лучшем случае является неполным, поскольку он не учитывает базовую единицу обработки информации человеком. Подобно тому, как человеческое общение происходит на семантическом уровне, тот факт, что люди могут использовать разные слова или синтаксис, не влияет на эффективность общения, пока основная «общая основа» между двумя людьми одинакова. [15]
В случае с социальными тегами, пока пользователи разделяют одинаковое понимание содержания информационных ресурсов, тот факт, что информационная ценность документа-тега снижается (то, что у людей больше слов на их языках), не означает, что это будет всегда будет труднее найти соответствующую информацию (аналогично тот факт, что в человеческих языках увеличивается количество слов, не означает, что общение становится менее эффективным). Однако это указывает на то, что необходимо эффективно представлять эти семантические структуры в информационной системе, чтобы люди могли эффективно интерпретировать семантику размеченных документов. Интеллектуальные методы, основанные на статистических моделях языка, таких как латентно-семантический анализ и модель вероятностных тем. [ нужны разъяснения ] , потенциально может решить эту словарную проблему. [ нужна ссылка ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Канг, Руогу; Фу, Вай-Тат; Каннампаллил, Томас Джордж (2010). «Использование знаний в голове и знаний в социальной сети» . Материалы конференции SIGCHI по человеческому фактору в вычислительных системах . Атланта, Джорджия, США: ACM Press. стр. 393–402. дои : 10.1145/1753326.1753386 . ISBN 9781605589299 . S2CID 5261530 .
- ^ Фурнас, Джордж В.; Фейк, Катерина; фон Ан, Луис; Шахтер, Джошуа; Голдер, Скотт; Фокс, Кевин; Дэвис, Марк; Марлоу, Кэмерон; Нааман, Мор (2006). «Почему системы тегов работают?» . CHI '06 Расширенные тезисы по человеческому фактору в вычислительных системах . Чи Эа '06. Монреаль, Квебек, Канада: ACM Press. стр. 36–39. дои : 10.1145/1125451.1125462 . ISBN 9781595932983 . S2CID 33400901 .
- ^ Фурнас, ГВ; Ландауэр, ТК; Гомес, Л.М.; Дюмэ, ST (1 ноября 1987 г.). «Словарная проблема в общении человека и системы» . Коммуникации АКМ . 30 (11): 964–971. дои : 10.1145/32206.32212 . S2CID 3002280 .
- ^ Фу, Вай-Тат; Каннампаллил, Томас; Канг, Руогу; Он, Джибо (01 июля 2010 г.). «Семантическая имитация в социальных тегах». Транзакции ACM при взаимодействии компьютера и человека . 17 (3): 1–37. дои : 10.1145/1806923.1806926 . S2CID 6964273 .
- ^ Хедстрем, Питер (12 декабря 2005 г.). Препарируя социальное: о принципах аналитической социологии . Кембридж: Издательство Кембриджского университета. ISBN 0511136919 . OCLC 62868580 .
- ^ Jump up to: а б Чи, Эд Х.; Миткович, Тодд (2008). «Понимание эффективности систем социальных тегов с использованием теории информации» . Материалы девятнадцатой конференции ACM по гипертексту и гипермедиа . Питтсбург, Пенсильвания, США: ACM Press. стр. 81–88. дои : 10.1145/1379092.1379110 . ISBN 9781595939852 . S2CID 14008770 .
- ^ Jump up to: а б с д и Каттуто, К.; Лорето, В.; Пьетронеро, Л. (30 января 2007 г.). «Семиотическая динамика и совместная маркировка» . Труды Национальной академии наук . 104 (5): 1461–1464. arXiv : cs/0605015 . дои : 10.1073/pnas.0610487104 . ISSN 0027-8424 . ПМЦ 1785269 . ПМИД 17244704 .
- ^ Jump up to: а б Голдер, Скотт А.; Хуберман, Бернардо А. (2006). «Схемы использования совместных систем тегов». Журнал информатики . 32 (2): 198–208. дои : 10.1177/0165551506062337 . ISSN 0165-5515 . S2CID 1946917 .
- ^ Эггенбергер, Ф.; Полиа, Г. (1923). «О статистике цепных операций» . ZAMM - Журнал прикладной математики и механики (на немецком языке). 3 (4): 279–289. Бибкод : 1923ЗаММ....3..279Е . дои : 10.1002/замм.19230030407 .
- ^ Jump up to: а б Халпин, Гарри; Робу, Валентин; Шеперд, Хана (2007). «Сложная динамика совместного тегирования» . Материалы 16-й международной конференции по Всемирной паутине . Банф, Альберта, Канада: ACM Press. стр. 211–220. дои : 10.1145/1242572.1242602 . ISBN 9781595936547 . S2CID 13935265 .
- ^ Робу, Валентин; Халпин, Гарри; Шепард, Хана (сентябрь 2009 г.). «Появление консенсуса и общих словарей в совместных системах тегов» (PDF) . Транзакции ACM в Интернете . 3 (4): 1–34. дои : 10.1145/1594173.1594176 . S2CID 3330929 .
- ^ Кинч, Уолтер (1988). «Роль знаний в понимании дискурса: модель построения-интеграции». Психологический обзор . 95 (2): 163–182. дои : 10.1037/0033-295X.95.2.163 . ISSN 1939-1471 . ПМИД 3375398 . S2CID 15246663 .
- ^ Фу, Вай-Тат (2008). «Микроструктуры социальных тегов» . Материалы конференции ACM 2008 года по совместной работе с компьютерной поддержкой . Сан-Диего, Калифорния, США: ACM Press. стр. 229–238. дои : 10.1145/1460563.1460600 . ISBN 9781605580074 . S2CID 2202814 .
- ^ Фу, Вай-Тат (август 2009 г.), «Модель семантической имитации социальных тегов». (PDF) , Труды конференции IEEE по социальным вычислениям : 66–72, заархивировано из оригинала (PDF) 29 декабря 2009 г.
- ^ Кларк, Герберт Х. (1996). Использование языка . Кембридж, Англия. ISBN 0521561582 . OCLC 33078546 .
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка )