Jump to content

Строковая метрика

(Перенаправлено из строковых показателей )

В математике и информатике строковая метрика (также известная как метрика сходства строк или функция расстояния строк ) — это метрика , которая измеряет расстояние («обратное сходство») между двумя текстовыми строками для приблизительного сопоставления или сравнения строк, а также при поиске нечетких строк . Требованием к метрике строки (например, в отличие от сопоставления строк ) является выполнение неравенства треугольника . Например, строки «Сэм» и «Самуэль» можно считать близкими. [ 1 ] Строковая метрика предоставляет число, указывающее расстояние, зависящее от алгоритма.

Наиболее широко известной строковой метрикой является элементарная метрика, называемая расстоянием Левенштейна (также известным как расстояние редактирования). [ 2 ] Он работает между двумя входными строками, возвращая число, эквивалентное количеству замен и удалений, необходимых для преобразования одной входной строки в другую. Упрощенные строковые метрики, такие как расстояние Левенштейна, расширились и теперь включают фонетические, токенарные , грамматические и символьные методы статистического сравнения.

Строковые метрики широко используются в интеграции информации и в настоящее время используются в таких областях, как обнаружение мошенничества , анализ отпечатков пальцев , обнаружение плагиата , слияние онтологий , анализ ДНК , анализ РНК, анализ изображений на основе фактических данных , машинное обучение , базы данных дедупликация данных , интеллектуальный анализ данных , инкрементальный анализ. поиск , интеграция данных , обнаружение вредоносных программ , [ 3 ] и семантическая интеграция знаний .

Список строковых метрик

[ редактировать ]

Также существуют функции, которые измеряют различие между строками, но не обязательно удовлетворяют неравенству треугольника и как таковые не являются метриками в математическом смысле. Примером такой функции является расстояние Джаро–Винклера .

Примеры выбранных строковых мер

[ редактировать ]
Имя Описание Пример
Расстояние Хэмминга Только для строк одинаковой длины. Количество измененных символов. " ка роль в "и" ка вброс " равен 3.
Расстояние Левенштейна и расстояние Дамерау – Левенштейна. Обобщение расстояния Хэмминга, позволяющее использовать строки разной длины и (с Дамерау) транспозиции. котенок и сидя на расстоянии 3 .
  1. Киттен s itten (замена «s» на «k»)
  2. тогда эн sitt i n (замена «i» на «e»)
  3. сижу сидя г (вставка «г» в конце).
Расстояние Яро – Винклера JaroWinklerDist("МАРТА","МАРХТА") =
  • количество совпадающих символов ;
  • составляет половину количества транспозиций ( "MARTHA"[3]!=H, "MARHTA"[3]!=T).
Наиболее часто встречающиеся символы k MostFreqKeySimilarity(' r e s e a r ch', 'see king ', 2) = 2
  1. ^ Лу, Цзяхэн; и др. (2013). «Измерение сходства строк и объединение с синонимами» . Материалы Международной конференции ACM SIGMOD по управлению данными 2013 г. стр. 373–384. дои : 10.1145/2463676.2465313 . ISBN  9781450320375 . S2CID   2091942 .
  2. ^ Наварро, Гонсало (2001). «Экскурсия по приблизительному сопоставлению строк». Обзоры вычислительной техники ACM . 33 (1): 31–88. дои : 10.1145/375360.375365 . hdl : 10533/172862 . S2CID   207551224 .
  3. ^ Шломи Долев ; Мохаммад, Ганаим; Александр, Бинун; Сергей, Френкель; Йели, С. Сан (2017). «Связь Жаккара и расстояния редактирования в кластеризации вредоносных программ и онлайн-идентификации». 16-й Международный симпозиум IEEE по сетевым вычислениям и приложениям : 369–373.
  4. ^ Перейти обратно: а б с д и Строковые метрики Сэма — компьютерная лингвистика и фонетика
  5. ^ Рассел, Дэвид Дж. и др. «Метрика расстояния на основе грамматики обеспечивает быструю и точную кластеризацию больших наборов последовательностей 16S». Биоинформатика BMC 11.1 (2010): 1-14.
  6. ^ Коэн, Уильям; Равикумар, Прадип; Файнберг, Стивен (1 августа 2003 г.). «Сравнение показателей расстояния между строками для задач сопоставления имен» : 73–78. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e7fc376ed82e26f141f8eca7a4b926b8__1715717520
URL1:https://arc.ask3.ru/arc/aa/e7/b8/e7fc376ed82e26f141f8eca7a4b926b8.html
Заголовок, (Title) документа по адресу, URL1:
String metric - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)