Jump to content

Расстояние Яро – Винклера

(Перенаправлено с расстояния Яро-Винклера )

В информатике и статистике сходство Джаро -Винклера представляет собой строковую метрику, измеряющую расстояние редактирования между двумя последовательностями. Это вариант метрики расстояния Джаро. [ 1 ] (1989, Мэтью А. Джаро ) Предложено в 1990 году Уильямом Э. Винклером . [ 2 ]

Расстояние Яро – Винклера использует префиксную шкалу. что дает более благоприятные оценки строкам, совпадающим с самого начала для заданной длины префикса. .

Чем выше расстояние Яро-Винклера для двух струн, тем менее похожи струны. Оценка нормализована таким образом, что 0 означает точное совпадение, а 1 означает отсутствие сходства. В оригинальной статье метрика фактически определялась с точки зрения сходства, поэтому расстояние определяется как инверсия этого значения (расстояние = 1 — сходство).

часто называют метрикой расстояния Хотя расстояние Джаро-Винклера , оно не является метрикой в ​​математическом смысле этого термина, поскольку оно не подчиняется неравенству треугольника .

Определение

[ редактировать ]

Сходство года

[ редактировать ]

Сходство Джаро из двух заданных строк и является

Где:

  • длина строки ;
  • — количество совпадающих символов (см. ниже);
  • – количество транспозиций (см. ниже).

Оценка сходства Jaro равна 0, если строки не совпадают вообще, и 1, если они совпадают точно. На первом этапе каждый символ сравнивается со всеми соответствующими ему символами в . Два персонажа из и соответственно, считаются совпадающими только в том случае, если они одинаковы и не дальше, чем символы отдельно. Например, следующие две строки длиной по девять символов, FAREMVIEL и FARMVILLE, содержат 8 совпадающих символов. «F», «A» и «R» находятся в одной и той же позиции в обеих строках. Также «M», «V», «I», «E» и «L» находятся в пределах трех (результат ) персонажи прочь. [ 3 ] Если совпадающие символы не найдены, значит, строки не похожи, и алгоритм завершает работу, возвращая оценку сходства Jaro 0.

Если найдены ненулевые совпадающие символы, следующим шагом будет определение количества транспозиций. Транспонирование — это количество совпадающих символов, расположенных не в правильном порядке, деленное на два. В приведенном выше примере между FAREMVIEL и FARMVILLE «E» и «L» — это совпадающие символы, расположенные в неправильном порядке. Таким образом, число транспозиций равно единице.

Наконец, подставляем количество совпадающих символов и количество транспозиций можно вычислить сходство Джаро FAREMVIEL и FARMVILLE,

Сходство Яро-Винклера

[ редактировать ]

Для сходства Яро-Винклера используется префиксная шкала. что дает более благоприятные оценки строкам, совпадающим с самого начала для заданной длины префикса. . Даны две строки и , их сходство Яро-Винклера является:

где:

  • это сходство Джаро для строк и
  • длина общего префикса в начале строки, максимум до 4 символов.
  • — это постоянный коэффициент масштабирования, определяющий, насколько увеличивается оценка за наличие общих префиксов. не должно превышать 0,25 (т.е. 1/4, где 4 — максимальная длина рассматриваемого префикса), в противном случае сходство может стать больше 1. Стандартное значение этой константы в работе Винклера равно

Расстояние Яро–Винклера определяется как .

часто называют метрикой расстояния Хотя расстояние Джаро-Винклера , оно не является метрикой в ​​математическом смысле этого термина, поскольку оно не подчиняется неравенству треугольника . [ 4 ] Расстояние Джаро – Винклера также не удовлетворяет аксиоме тождества. .

Связь с другими метриками расстояния редактирования

[ редактировать ]

Существуют и другие популярные меры расстояния редактирования , которые рассчитываются с использованием другого набора допустимых операций редактирования. Например,

Расстояние редактирования обычно определяется как параметризуемая метрика, рассчитываемая с использованием определенного набора разрешенных операций редактирования, и каждой операции назначается стоимость (возможно, бесконечная). Это дополнительно обобщается с помощью алгоритмов выравнивания последовательностей ДНК, таких как алгоритм Смита-Уотермана , в которых стоимость операции зависит от того, где она применяется.

См. также

[ редактировать ]
  1. ^ Джаро, Мэтью А. (1 июня 1989 г.). «Достижения в методологии увязки записей применительно к данным переписи населения 1985 года в Тампе, Флорида» . Журнал Американской статистической ассоциации . стр. 414–420. дои : 10.1080/01621459.1989.10478785 .
  2. ^ Винклер, Уильям Э. (1990). «Метрики строкового компаратора и расширенные правила принятия решений в модели связи записей Феллеги-Сантера» .
  3. ^ «В чем сходство Яро-Винклера?» . www.baseclass.io . Проверено 26 июля 2012 года .
  4. ^ «Яро-Винклер «Приглашая Крещение» . RichardMinerich.com . Проверено 12 июня 2017 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3cf064ed52e444c7be36ffe0974264ca__1711656480
URL1:https://arc.ask3.ru/arc/aa/3c/ca/3cf064ed52e444c7be36ffe0974264ca.html
Заголовок, (Title) документа по адресу, URL1:
Jaro–Winkler distance - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)