Коэффициент Дайса-Сёренсена
Коэффициент Дайса-Сёренсена (другие названия см. ниже) — это статистика, используемая для оценки сходства двух выборок . Он был независимо разработан ботаниками Ли Рэймондом Дайсом. [ 1 ] и Торвальд Соренсен , [ 2 ] которые опубликовали в 1945 и 1948 годах соответственно.
Имя
[ редактировать ]Индекс известен под несколькими другими названиями, особенно индекс Сёренсена-Дайса . [ 3 ] Индекс Сёренсена и коэффициент Дайса . Другие варианты включают «коэффициент сходства» или «индекс», например, коэффициент сходства Дайса ( DSC ). Распространенными альтернативными вариантами написания слова Sørensen являются Sorenson , Soerenson и Sörenson , и все три также можно увидеть с окончанием –sen ( датская буква ø фонетически эквивалентна немецкой/шведской ö, которую можно записать как oe в ASCII).
Другие имена включают:
- Оценка F1
- Чекановского Бинарный (неколичественный) индекс [ 4 ]
- Мера генетического сходства [ 5 ]
- индекс сходства Зейденбоса, [ 6 ] [ 7 ] ссылаясь на статью Zijdenbos et al. 1994 г. [ 8 ] [ 3 ]
Формула
[ редактировать ]Первоначальная формула Сёренсена предназначалась для применения к дискретным данным. Учитывая два набора, X и Y, он определяется как
где | Х | и | Ю | являются мощностями двух наборов (т.е. количеством элементов в каждом наборе). Индекс Сёренсена равен удвоенному числу элементов, общих для обоих наборов, делённому на сумму количества элементов в каждом наборе.
Применительно к логическим данным с использованием определения истинно положительного (TP), ложноположительного (FP) и ложноотрицательного (FN), его можно записать как
- .
Он отличается от индекса Жаккара , который учитывает истинные положительные значения только один раз как в числителе, так и в знаменателе. DSC представляет собой коэффициент сходства и находится в диапазоне от 0 до 1. [ 9 ] Его можно рассматривать как меру сходства множеств.
Подобно индексу Жаккара , операции над множествами могут быть выражены через векторные операции над двоичными векторами a и b :
который дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.
Для наборов X и Y ключевых слов, используемых при поиске информации , коэффициент может быть определен как удвоенная общая информация (пересечение) по сумме мощностей: [ 10 ]
Если рассматривать коэффициент сходства строк как меру сходства строк , то коэффициент можно рассчитать для двух строк, x и y, с использованием биграмм следующим образом: [ 11 ]
где n t — количество биграмм символов, найденных в обеих строках, n x — количество биграмм в строке x , а ny — количество биграмм в строке y . Например, чтобы вычислить сходство между:
night
nacht
В каждом слове мы найдем набор биграмм:
- {
ni
,ig
,gh
,ht
} - {
na
,ac
,ch
,ht
}
В каждом наборе четыре элемента, а пересечение этих двух наборов имеет только один элемент: ht
.
Подставляя эти числа в формулу, вычисляем, s = (2 · 1)/(4 + 4) = 0,25.
Коэффициент непрерывной игры в кости
[ редактировать ]Источник: [ 12 ]
Для дискретной основной истины и непрерывных измерений можно использовать следующую формулу:
где c можно вычислить следующим образом:
Если что означает отсутствие перекрытия между A и B, c произвольно устанавливается равным 1.
Отличие от Жаккара
[ редактировать ]Этот коэффициент по форме мало чем отличается от индекса Жаккара . Фактически, оба эквивалентны в том смысле, что при заданном значении коэффициента Серенсена – Дайса , можно рассчитать соответствующее значение индекса Жаккара и наоборот, используя уравнения и .
Поскольку коэффициент Сёренсена–Дайса не удовлетворяет неравенству треугольника , его можно считать полуметрической версией индекса Жаккара. [ 4 ]
Функция находится в диапазоне от нуля до единицы, как у Жаккара. В отличие от Жаккара соответствующая разностная функция
не является правильной метрикой расстояния, поскольку не удовлетворяет неравенству треугольника. [ 4 ] Простейший контрпример этому дают три набора {a}, {b} и {a,b}, причем расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных равна одной трети. . Чтобы удовлетворить неравенству треугольника, сумма любых двух из этих трех сторон должна быть больше или равна оставшейся стороне. Однако расстояние между {a} и {a,b} плюс расстояние между {b} и {a,b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.
Приложения
[ редактировать ]Коэффициент Сёренсена-Дайса полезен для получения данных об экологическом сообществе (например, Looman & Campbell, 1960). [ 13 ] ). Обоснование его использования носит прежде всего эмпирический, а не теоретический характер (хотя его можно обосновать теоретически как пересечение двух нечетких множеств [ 14 ] ). По сравнению с евклидовым расстоянием расстояние Сёренсена сохраняет чувствительность в более разнородных наборах данных и придает меньший вес выбросам. [ 15 ] стала популярна оценка Дайса (и ее варианты, например, logDice, логарифмирующий ее) . В последнее время в компьютерной лексикографии для измерения оценки лексических ассоциаций двух заданных слов [ 16 ] logDice также используется как часть Mash Distance для оценки расстояния до генома и метагенома. [ 17 ] Наконец, Dice используется при сегментации изображений , в частности для сравнения результатов алгоритма с эталонными масками в медицинских приложениях. [ 8 ]
Версия изобилия
[ редактировать ]Это выражение легко распространить на изобилие, а не на наличие/отсутствие видов. Эта количественная версия известна под несколькими названиями:
- Количественный индекс Серенсена – Дайса [ 4 ]
- Количественный индекс Серенсена [ 4 ]
- Количественный индекс Дайса [ 4 ]
- Сходство Брея-Кёртиса (1 минус несходство Брея-Кёртиса ) [ 4 ]
- Чекановского Количественный показатель [ 4 ]
- каменного дома Индекс [ 4 ]
- Пиелоу Процентное сходство [ 4 ]
- 1 минус расстояние Хеллингера [ 18 ]
- Доля специального соглашения [ 19 ] или положительное соглашение [ 20 ]
См. также
[ редактировать ]- Корреляция
- Оценка F1
- Индекс Жаккара
- Расстояние Хэмминга
- Мантел тест
- Индекс перекрытия Мориситы
- Коэффициент перекрытия
- Индекс сходства Ренконена
- Индекс Тверского
- Теория универсальной адаптивной стратегии (UAST)
Ссылки
[ редактировать ]- ^ Дайс, Ли Р. (1945). «Измерения степени экологической связи между видами». Экология . 26 (3): 297–302. дои : 10.2307/1932409 . JSTOR 1932409 . S2CID 53335638 .
- ^ Соренсен, Т. (1948). «Метод установления групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на территории Дании». Kongelige Danske Videnskabernes Selskab . 5 (4): 1–34.
- ^ Перейти обратно: а б Карасс, А.; Рой, С.; Герман, А.; Рейнхольд, JC; Джессон, А.; и др. (2020). «Оценка сегментации поражений белого вещества с помощью уточненного анализа Сёренсена-Дайса» . Научные отчеты . 10 (1): 8242. Бибкод : 2020NatSR..10.8242C . doi : 10.1038/s41598-020-64803-w . ISSN 2045-2322 . ПМЦ 7237671 . ПМИД 32427874 .
- ^ Перейти обратно: а б с д и ж г час я дж Галлахер, Эд, 1999. Документация COMPAH , Массачусетский университет, Бостон.
- ^ Ней, М.; Ли, WH (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции» . ПНАС . 76 (10): 5269–5273. Бибкод : 1979PNAS...76.5269N . дои : 10.1073/pnas.76.10.5269 . ПМК 413122 . ПМИД 291943 .
- ^ Прескотт, JW; Пеннелл, М.; Бест, ТМ; Суонсон, Миссисипи; Хак, Ф.; Джексон, Р.; Гуркан, Миннесота (2009). «Автоматизированный метод сегментации бедренной кости для исследования остеоартрита». 2009 Ежегодная международная конференция Общества инженерии в медицине и биологии IEEE . IEEE. стр. 6364–6367. дои : 10.1109/iembs.2009.5333257 . ПМЦ 2826829 .
- ^ Суонсон, Миссисипи; Прескотт, JW; Бест, ТМ; Пауэлл, К.; Джексон, РД; Хак, Ф.; Гуркан, Миннесота (2010). «Полуавтоматическая сегментация для оценки латерального мениска в нормальных коленях и коленях с остеоартритом» . Остеоартрит и хрящ . 18 (3): 344–353. дои : 10.1016/j.joca.2009.10.004 . ISSN 1063-4584 . ПМЦ 2826568 . ПМИД 19857510 .
- ^ Перейти обратно: а б Зиденбос, АП; Давант, Б.М.; Марголин, РА; Палмер, AC (1994). «Морфометрический анализ поражений белого вещества на МР-изображениях: метод и проверка». Транзакции IEEE по медицинской визуализации . 13 (4): 716–724. дои : 10.1109/42.363096 . ISSN 0278-0062 . ПМИД 18218550 .
- ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf [ только URL-адрес PDF ]
- ^ ван Рейсберген, Корнелис Йост (1979). Информационный поиск . Лондон: Баттервортс. ISBN 3-642-12274-4 .
- ^ Кондрак, Гжегож; Марку, Дэниел; Найт, Кевин (2003). «Родственные слова могут улучшить модели статистического перевода» (PDF) . Труды HLT-NAACL 2003: Конференция по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики . стр. 46–48.
- ^ Шамир, Рубен Р.; Духин, Юваль; Ким, Джинён; Сапиро, Гильермо; Харель, Ноам (25 апреля 2018 г.). «Непрерывный коэффициент кубика: метод оценки вероятностных сегментаций» : 306977. arXiv : 1906.11031 . дои : 10.1101/306977 . S2CID 90993940 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Луман, Дж.; Кэмпбелл, Дж. Б. (1960). «Адаптация К Соренсена (1948) для оценки сходства единиц в растительности прерий». Экология . 41 (3): 409–416. дои : 10.2307/1933315 . JSTOR 1933315 .
- ^ Робертс, Д.В. (1986). «Хиротония на основе теории нечетких множеств». Растительность . 66 (3): 123–131. дои : 10.1007/BF00039905 . S2CID 12573576 .
- ^ МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Дизайн программного обеспечения Mjm; ISBN 0-9721290-0-6 .
- ^ Рыхли, П. (2008) Оценка ассоциации, удобная для лексикографа. Материалы второго семинара по последним достижениям в обработке славянского естественного языка RASLAN 2008: 6–9.
- ^ Ондов, Брайан Д. и др. «Mash: быстрая оценка расстояния до генома и метагенома с использованием MinHash». Геномная биология 17.1 (2016): 1-14.
- ^ Брей, Дж. Роджер; Кертис, Дж. Т. (1957). «Посвящение горных лесных сообществ Южного Висконсина». Экологические монографии . 27 (4): 326–349. дои : 10.2307/1942268 . JSTOR 1942268 .
- ^ Аяппа, Инду; Норман, Роберт Дж. (2000). «Неинвазивное обнаружение возбуждений, связанных с дыхательными усилиями (RERA), с помощью назальной канюли/системы датчиков давления» . Спать . 23 (6): 763–771. дои : 10.1093/sleep/23.6.763 . ПМИД 11007443 .
- ^ Джон Юберсакс. «Необработанные индексы согласия» .