Дайч – Мокотофф Soundex
Звук Дейча-Мокотоффа (D-M Soundex) — фонетический алгоритм, изобретенный в 1985 году еврейскими специалистами по генеалогии Гэри Мокотоффом и Рэнди Дейчем . Это усовершенствованная версия алгоритмов Рассела и американского Soundex , призванная обеспечить большую точность сопоставления славянских и идишских фамилий со схожим произношением , но с различиями в написании.
Soundex Дейча-Мокотоффа иногда называют «еврейским Soundex» и «восточноевропейским Soundex», хотя авторы не рекомендуют использовать эти прозвища для алгоритма, поскольку сам алгоритм не зависит от того факта, что мотивацией создания новой системы была плохой результат систем-предшественников при работе со славянскими и идишскими фамилиями.
Улучшения
[ редактировать ]Улучшения по сравнению со старыми алгоритмами Soundex включают:
- Кодированные имена состоят из шести цифр, что повышает точность поиска (традиционный Soundex использует четыре символа).
- Начальный символ имени кодируется.
- Некоторые правила алгоритма кодируют многосимвольные n-граммы как отдельные цифры (American и Russell Soundex не обрабатывают многосимвольные n-граммы).
- Для одного имени может быть возвращено несколько возможных кодировок (традиционный Soundex возвращает только одну кодировку, даже если написание имени потенциально может иметь несколько вариантов произношения)
Примеры
[ редактировать ]Некоторые примеры:
Фамилия | Американский Саундекс | Д – М Саундекс |
---|---|---|
Питерс | P362 | 739400, 734000 |
Петерсон | P362 | 739460, 734600 |
Московиц | М232 | 645740 |
Московиц | М213 | 645740 |
Ауэрбах | А612 | 097500, 097400 |
Урбах | U612 | 097500, 097400 |
Джексон | Дж250 | 154600, 454600, 145460, 445460 |
Джексон-Джексон | J252 | 154664, 454664, 145466, 445466, 154646, 454646, 145464, 445464 |
Алгоритм сопоставления фонетических имен Бейдера-Морса
[ редактировать ]Чтобы справиться с большим количеством ложноположительных результатов, генерируемых DM Soundex, Стивен П. Морс и Александр Бейдер создали алгоритм сопоставления фонетических имен Бейдера-Морса . [ 1 ] Этот новый алгоритм сокращает количество ложных срабатываний за счет некоторых ложноотрицательных результатов. Ряд сайтов предлагают B-M soundex в дополнение к D-M Soundex. [ 2 ]
Примечания
[ редактировать ]- ^ Фонетическое сопоставление Бейдера-Морзе: альтернатива Soundex с меньшим количеством ложных попаданий - копия Авотайну : Международный обзор еврейской генеалогии (лето 2008 г.)
- ^ Ну? Что нового? Том 9, номер 22 Гэри Мокотофф, редактор - Электронный журнал еврейской генеалогии от Авотайну
Внешние ссылки
[ редактировать ]- Мокотофф, Гэри. «Звуковая экспертиза и генеалогия». Описывает историю и мотивацию D–M Soundex.
- еврейГен. «Кодинг Soundex». Описывает Рассела и D-M Soundex.
- Коулз, Майкл. «Набор инструментов администратора базы данных SQL 2000, часть 3: Фонетическое сопоставление» Реализация алгоритма DM Soundex с исходным кодом на базе SQL Server.