Индекс Тверского
Индекс Тверски , названный в честь Амоса Тверски , [1] — это асимметричная мера сходства наборов , которая сравнивает вариант с прототипом. Индекс Тверски можно рассматривать как обобщение коэффициента Серенсена-Дайса и индекса Жаккара .
Для множеств X и Y индекс Тверски представляет собой число от 0 до 1, определяемое формулой
Здесь, обозначает относительное дополнение Y к X.
Дальше, являются параметрами индекса Тверски. Параметр производит индекс Жаккара; параметр дает коэффициент Серенсена – Дайса.
Если мы считаем X прототипом, а Y — вариантом, то соответствует весу прототипа и соответствует весу варианта. Тверский меряет с представляют особый интерес. [2]
Из-за присущей ему асимметрии индекс Тверски не соответствует критериям метрики сходства. Однако, если необходима симметрия, был предложен вариант исходной формулировки с использованием max и min . функций [3] .
,
,
Эта формулировка также переупорядочивает параметры и . Таким образом, контролирует баланс между и в знаменателе. Сходным образом, контролирует эффект симметричной разницы против в знаменателе.
Примечания
[ редактировать ]- ^ Тверски, Амос (1977). «Признаки сходства» (PDF) . Психологический обзор . 84 (4): 327–352. дои : 10.1037/0033-295x.84.4.327 .
- ^ «Теория дневного света: отпечатки пальцев» .
- ^ Хименес, С., Бесерра, К., Гелбух, А. SOFTCARDINALITY-CORE: улучшение перекрытия текста с помощью мер распределения для семантического текстового сходства . Вторая совместная конференция по лексической и вычислительной семантике (*SEM), Том 1: Материалы основной конференции и общая задача: семантическое текстовое сходство, стр. 194–201, 7–8 июня 2013 г., Атланта, Джорджия, США.