Jump to content

Коэффициент Дайса-Сёренсена

(Перенаправлено из индекса Соренсона )

Коэффициент Дайса-Сёренсена (другие названия см. ниже) — это статистика, используемая для оценки сходства двух выборок . Он был независимо разработан ботаниками Ли Рэймондом Дайсом. [ 1 ] и Торвальд Соренсен , [ 2 ] которые опубликовали в 1945 и 1948 годах соответственно.

Индекс известен под несколькими другими названиями, особенно индекс Сёренсена-Дайса . [ 3 ] Индекс Сёренсена и коэффициент Дайса . Другие варианты включают «коэффициент сходства» или «индекс», например, коэффициент сходства Дайса ( DSC ). Распространенными альтернативными вариантами написания слова Sørensen являются Sorenson , Soerenson и Sörenson , и все три также можно увидеть с окончанием –sen ( датская буква ø фонетически эквивалентна немецкой/шведской ö, которую можно записать как oe в ASCII).

Другие имена включают:

Первоначальная формула Сёренсена предназначалась для применения к дискретным данным. Учитывая два набора, X и Y, он определяется как

где | Х | и | Ю | являются мощностями двух наборов (т.е. количеством элементов в каждом наборе). Индекс Сёренсена равен удвоенному числу элементов, общих для обоих наборов, делённому на сумму количества элементов в каждом наборе.

Применительно к логическим данным с использованием определения истинно положительного (TP), ложноположительного (FP) и ложноотрицательного (FN), его можно записать как

.

Он отличается от индекса Жаккара , который учитывает истинные положительные значения только один раз как в числителе, так и в знаменателе. DSC представляет собой коэффициент сходства и находится в диапазоне от 0 до 1. [ 9 ] Его можно рассматривать как меру сходства множеств.

Подобно индексу Жаккара , операции над множествами могут быть выражены через векторные операции над двоичными векторами a и b :

который дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.

Для наборов X и Y ключевых слов, используемых при поиске информации , коэффициент может быть определен как удвоенная общая информация (пересечение) по сумме мощностей: [ 10 ]

Если рассматривать коэффициент сходства строк как меру сходства строк , то коэффициент можно рассчитать для двух строк, x и y, с использованием биграмм следующим образом: [ 11 ]

где n t — количество биграмм символов, найденных в обеих строках, n x — количество биграмм в строке x , а ny количество биграмм в строке y . Например, чтобы вычислить сходство между:

night
nacht

В каждом слове мы найдем набор биграмм:

{ ni, ig, gh, ht}
{ na, ac, ch, ht}

В каждом наборе четыре элемента, а пересечение этих двух наборов имеет только один элемент: ht.

Подставляя эти числа в формулу, вычисляем, s = (2 · 1)/(4 + 4) = 0,25.

Коэффициент непрерывной игры в кости

[ редактировать ]

Источник: [ 12 ]

Для дискретной основной истины и непрерывных измерений можно использовать следующую формулу:

где c можно вычислить следующим образом:

Если что означает отсутствие перекрытия между A и B, c произвольно устанавливается равным 1.

Отличие от Жаккара

[ редактировать ]

Этот коэффициент по форме мало чем отличается от индекса Жаккара . Фактически, оба эквивалентны в том смысле, что при заданном значении коэффициента Серенсена – Дайса , можно рассчитать соответствующее значение индекса Жаккара и наоборот, используя уравнения и .

Поскольку коэффициент Сёренсена–Дайса не удовлетворяет неравенству треугольника , его можно считать полуметрической версией индекса Жаккара. [ 4 ]

Функция находится в диапазоне от нуля до единицы, как у Жаккара. В отличие от Жаккара соответствующая разностная функция

не является правильной метрикой расстояния, поскольку не удовлетворяет неравенству треугольника. [ 4 ] Простейший контрпример этому дают три набора {a}, {b} и {a,b}, причем расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных равна одной трети. . Чтобы удовлетворить неравенству треугольника, сумма любых двух из этих трех сторон должна быть больше или равна оставшейся стороне. Однако расстояние между {a} и {a,b} плюс расстояние между {b} и {a,b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.

Приложения

[ редактировать ]

Коэффициент Сёренсена-Дайса полезен для получения данных об экологическом сообществе (например, Looman & Campbell, 1960). [ 13 ] ). Обоснование его использования носит прежде всего эмпирический, а не теоретический характер (хотя его можно обосновать теоретически как пересечение двух нечетких множеств [ 14 ] ). По сравнению с евклидовым расстоянием расстояние Сёренсена сохраняет чувствительность в более разнородных наборах данных и придает меньший вес выбросам. [ 15 ] стала популярна оценка Дайса (и ее варианты, например, logDice, логарифмирующий ее) . В последнее время в компьютерной лексикографии для измерения оценки лексических ассоциаций двух заданных слов [ 16 ] logDice также используется как часть Mash Distance для оценки расстояния до генома и метагенома. [ 17 ] Наконец, Dice используется при сегментации изображений , в частности для сравнения результатов алгоритма с эталонными масками в медицинских приложениях. [ 8 ]

Версия изобилия

[ редактировать ]

Это выражение легко распространить на изобилие, а не на наличие/отсутствие видов. Эта количественная версия известна под несколькими названиями:

См. также

[ редактировать ]
  1. ^ Дайс, Ли Р. (1945). «Измерения степени экологической связи между видами». Экология . 26 (3): 297–302. дои : 10.2307/1932409 . JSTOR   1932409 . S2CID   53335638 .
  2. ^ Соренсен, Т. (1948). «Метод установления групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на территории Дании». Kongelige Danske Videnskabernes Selskab . 5 (4): 1–34.
  3. ^ Перейти обратно: а б Карасс, А.; Рой, С.; Герман, А.; Рейнхольд, JC; Джессон, А.; и др. (2020). «Оценка сегментации поражений белого вещества с помощью уточненного анализа Сёренсена-Дайса» . Научные отчеты . 10 (1): 8242. Бибкод : 2020NatSR..10.8242C . doi : 10.1038/s41598-020-64803-w . ISSN   2045-2322 . ПМЦ   7237671 . ПМИД   32427874 .
  4. ^ Перейти обратно: а б с д и ж г час я дж Галлахер, Эд, 1999. Документация COMPAH , Массачусетский университет, Бостон.
  5. ^ Ней, М.; Ли, WH (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции» . ПНАС . 76 (10): 5269–5273. Бибкод : 1979PNAS...76.5269N . дои : 10.1073/pnas.76.10.5269 . ПМК   413122 . ПМИД   291943 .
  6. ^ Прескотт, JW; Пеннелл, М.; Бест, ТМ; Суонсон, Миссисипи; Хак, Ф.; Джексон, Р.; Гуркан, Миннесота (2009). «Автоматизированный метод сегментации бедренной кости для исследования остеоартрита». 2009 Ежегодная международная конференция Общества инженерии в медицине и биологии IEEE . IEEE. стр. 6364–6367. дои : 10.1109/iembs.2009.5333257 . ПМЦ   2826829 .
  7. ^ Суонсон, Миссисипи; Прескотт, JW; Бест, ТМ; Пауэлл, К.; Джексон, РД; Хак, Ф.; Гуркан, Миннесота (2010). «Полуавтоматическая сегментация для оценки латерального мениска в нормальных коленях и коленях с остеоартритом» . Остеоартрит и хрящ . 18 (3): 344–353. дои : 10.1016/j.joca.2009.10.004 . ISSN   1063-4584 . ПМЦ   2826568 . ПМИД   19857510 .
  8. ^ Перейти обратно: а б Зиденбос, АП; Давант, Б.М.; Марголин, РА; Палмер, AC (1994). «Морфометрический анализ поражений белого вещества на МР-изображениях: метод и проверка». Транзакции IEEE по медицинской визуализации . 13 (4): 716–724. дои : 10.1109/42.363096 . ISSN   0278-0062 . ПМИД   18218550 .
  9. ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf [ только URL-адрес PDF ]
  10. ^ ван Рейсберген, Корнелис Йост (1979). Информационный поиск . Лондон: Баттервортс. ISBN  3-642-12274-4 .
  11. ^ Кондрак, Гжегож; Марку, Дэниел; Найт, Кевин (2003). «Родственные слова могут улучшить модели статистического перевода» (PDF) . Труды HLT-NAACL 2003: Конференция по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики . стр. 46–48.
  12. ^ Шамир, Рубен Р.; Духин, Юваль; Ким, Джинён; Сапиро, Гильермо; Харель, Ноам (25 апреля 2018 г.). «Непрерывный коэффициент кубика: метод оценки вероятностных сегментаций» : 306977. arXiv : 1906.11031 . дои : 10.1101/306977 . S2CID   90993940 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  13. ^ Луман, Дж.; Кэмпбелл, Дж. Б. (1960). «Адаптация К Соренсена (1948) для оценки сходства единиц в растительности прерий». Экология . 41 (3): 409–416. дои : 10.2307/1933315 . JSTOR   1933315 .
  14. ^ Робертс, Д.В. (1986). «Хиротония на основе теории нечетких множеств». Растительность . 66 (3): 123–131. дои : 10.1007/BF00039905 . S2CID   12573576 .
  15. ^ МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Дизайн программного обеспечения Mjm; ISBN   0-9721290-0-6 .
  16. ^ Рыхли, П. (2008) Оценка ассоциации, удобная для лексикографа. Материалы второго семинара по последним достижениям в обработке славянского естественного языка RASLAN 2008: 6–9.
  17. ^ Ондов, Брайан Д. и др. «Mash: быстрая оценка расстояния до генома и метагенома с использованием MinHash». Геномная биология 17.1 (2016): 1-14.
  18. ^ Брей, Дж. Роджер; Кертис, Дж. Т. (1957). «Посвящение горных лесных сообществ Южного Висконсина». Экологические монографии . 27 (4): 326–349. дои : 10.2307/1942268 . JSTOR   1942268 .
  19. ^ Аяппа, Инду; Норман, Роберт Дж. (2000). «Неинвазивное обнаружение возбуждений, связанных с дыхательными усилиями (RERA), с помощью назальной канюли/системы датчиков давления» . Спать . 23 (6): 763–771. дои : 10.1093/sleep/23.6.763 . ПМИД   11007443 .
  20. ^ Джон Юберсакс. «Необработанные индексы согласия» .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1275b755b7e7d56ac1f6b8a2707b42cf__1719186060
URL1:https://arc.ask3.ru/arc/aa/12/cf/1275b755b7e7d56ac1f6b8a2707b42cf.html
Заголовок, (Title) документа по адресу, URL1:
Dice-Sørensen coefficient - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)