Подход к рейтингу матчей
Подход рейтингу совпадений (MRA) — это фонетический алгоритм индексации по слов разработанный по их произношению, Western Airlines в 1977 году для индексации и сравнения омофонных имен. [1]
Сам алгоритм имеет простой набор правил кодирования, но более длинный набор правил сравнения.Основным механизмом является сравнение сходства, которое вычисляет количество несовпадающих символов путем сравнения строк слева направо, а затем справа налево и удаления идентичных символов. Это значение вычитается из 6, а затем сравнивается с минимальным порогом. Минимальный порог определен в таблице А и зависит от длины строк.
Закодированное имя известно (возможно, неправильно) как личный числовой идентификатор (PNI). Закодированное имя никогда не может содержать более 6 буквенных символов.
Подход с рейтингом соответствия хорошо работает с именами, содержащими букву «y», в отличие от исходного варианта алгоритма NYSIIS ; например, фамилии «Смит» и «Смит» успешно совпадают. Однако MRA не очень хорошо работает с закодированными именами, длина которых отличается более чем на 2.
Правила кодирования
[ редактировать ]- Удалите все гласные, кроме тех, которые начинаются с гласной.
- Удалите вторую согласную из всех присутствующих двойных согласных.
- Сократите кодекс до 6 букв, соединив только первые 3 и последние 3 буквы.
Правила сравнения
[ редактировать ]В этом разделе слова «строка(ы)» и «имя(и)» означают «закодированная строка(ы)» и «закодированное имя(я)».
- Если разница в длине между закодированными строками равна 3 или больше, сравнение сходства не выполняется.
- Получите минимальное значение рейтинга, рассчитав сумму длин закодированных строк и используя таблицу A.
- Обработайте закодированные строки слева направо и удалите все одинаковые символы, обнаруженные в обеих строках соответственно.
- Обработайте несовпадающие символы справа налево и удалите все одинаковые символы, обнаруженные в обоих именах соответственно.
- Вычтите количество несовпадающих символов из 6 в более длинной строке. Это рейтинг сходства.
- Если рейтинг сходства равен или превышает минимальный рейтинг, совпадение считается хорошим.
Минимальный порог
[ редактировать ]В следующей таблице показано соответствие между минимальным рейтингом и длиной строки.
Сумма длин | Минимальный рейтинг |
---|---|
≤ 4 | 5 |
4 < сумма ≤ 7 | 4 |
7 < сумма ≤ 11 | 3 |
= 12 | 2 |
Примеры подходов к рейтингу матчей
[ редактировать ]В таблице ниже показаны выходные данные алгоритма оценки соответствия для некоторых распространенных омофонных имен.
Имя | Кодекс MRA | Минимальный рейтинг | Рейтинг сравнения сходства |
---|---|---|---|
Бирн | БЕРН | 4 | 5 |
Бёрн | БРН | ||
Смит | СМТХ | 3 | 5 |
Смит | СМИТ | ||
Екатерина | CTHRN | 3 | 4 |
Кэтрин | КТРИН |
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Мур, Великобритания; Кунс, Дж. Л.; Треффзс, Дж. Л.; Монтгомери, Калифорния (1 февраля 1977 г.). Доступ к отдельным записям из файлов персональных данных с использованием неуникальных идентификаторов . Национальный институт стандартов и технологий США. п. 17. НИСТ СП – 500-2.