Фонетический алгоритм
(Перенаправлено из Фонетического кодирования )
алгоритм Фонетический это алгоритм индексации — слов произношению их по . Большинство фонетических алгоритмов были разработаны для английского языка и бесполезны для индексации слов на других языках. [1] Поскольку английское правописание значительно варьируется в зависимости от множества факторов, таких как происхождение слова и его использование с течением времени, а также заимствования из других языков, фонетические алгоритмы обязательно учитывают многочисленные правила и исключения. [2]
Алгоритмы
[ редактировать ]Среди наиболее известных фонетических алгоритмов:
- Soundex , который был разработан для кодирования фамилий для использования в переписи населения. Коды Soundex представляют собой четырехсимвольные строки, состоящие из одной буквы, за которой следуют три цифры.
- Daitch-Mokotoff Soundex , который представляет собой усовершенствованную версию Soundex, предназначенную для лучшего соответствия фамилиям славянского и германского происхождения. Коды Soundex Дейча – Мокотоффа представляют собой строки, состоящие из шести цифр.
- Кёльнская фонетика : похожа на Soundex, но больше подходит для немецких слов.
- Метафон и Двойной метафон , которые подходят для использования с большинством английских слов, а не только с именами. Алгоритмы метафона лежат в основе многих популярных программ проверки орфографии .
- Система идентификации и разведки штата Нью-Йорк (NYSIIS), которая сопоставляет похожие фонемы с одной и той же буквой. Результатом является строка, которую читатель может произнести без декодирования.
- Подход к рейтингу совпадений, разработанный Western Airlines в 1977 году. Этот алгоритм включает в себя технику кодирования и сравнения диапазонов.
- Caverphone , созданный для помощи в сопоставлении данных между списками избирателей конца 19-го и начала 20-го веков, оптимизированный для акцентов, присутствующих в некоторых частях Новой Зеландии.
Обычное использование
[ редактировать ]- Программы проверки орфографии часто могут содержать фонетические алгоритмы. Алгоритм Metaphone , например, может взять неправильно написанное слово и создать код. Затем код ищется в каталоге для поиска слов с тем же или похожим метафоном. Слова с одинаковым или похожим метафоном становятся возможными альтернативными вариантами написания.
- Функция поиска часто использует фонетические алгоритмы для поиска результатов, которые не совсем соответствуют терминам, использованным в поиске. Поиск имен может быть затруднен, поскольку часто существует несколько альтернативных вариантов написания имен. Примером может служить имя Клэр . У него есть два варианта, Clare/Clair, которые произносятся одинаково. Поиск по одному написанию не даст результатов по двум другим. При использовании Soundex все три варианта создают один и тот же код Soundex — C460. При поиске имен по коду Soundex будут возвращены все три варианта.
- При дедупликации данных используются фонетические алгоритмы, позволяющие легко группировать записи в группы со схожими по звучанию именами для дальнейшей оценки.
- Модули преобразования речи в текст используют фонетическое кодирование для поиска набора словарных слов, которые произносятся так же, как фонемы, выводимые обработанным аудиосигналом.
См. также
[ редактировать ]- Примерное соответствие строк
- Расстояние Хэмминга
- Расстояние Левенштейна
- Расстояние Дамерау – Левенштейна
Ссылки
[ редактировать ]- ^ Ли, Нэн; Хичкок, Питер; Блюстейн, Джеймс; Блимель, Майкл (2011). Х. Рагхав Рао; Радж Шарман; Т. С. Рагху (ред.). Исследование грандиозных задач электронного бизнеса следующего поколения: 8-й семинар по электронному бизнесу, WEB 2009, Феникс, Аризона, США, 15 декабря 2009 г., пересмотренные избранные статьи . Берлин: Шпрингер. п. 232. ИСБН 9783642174483 . Проверено 31 декабря 2020 г.
- ^ Коэн, Эли Б. (2009). Растущая информация: Часть 2 . Санта-Роза, Калифорния: Информационная наука. п. 498. ИСБН 978-1-932886-17-7 .
- В этой статье использованы общедоступные материалы из Пол Э. Блэк. «фонетическое кодирование» . Словарь алгоритмов и структур данных . НИСТ .
Внешние ссылки
[ редактировать ]- Алгоритм преобразования слов в фонемы и обратно.
- StringMetric — проект библиотеки Scala . фонетических алгоритмов
- clj-fuzzy — библиотека Clojure . фонетических алгоритмов
- SoundexBR Библиотека фонетического алгоритма реализованная на языке R. ,
- Talisman — библиотека JavaScript , собирающая различные фонетические алгоритмы, которые можно опробовать онлайн.