Jump to content

Фонетический алгоритм

(Перенаправлено из Фонетического кодирования )

алгоритм Фонетический это алгоритм индексации слов произношению их по . Большинство фонетических алгоритмов были разработаны для английского языка и бесполезны для индексации слов на других языках. [1] Поскольку английское правописание значительно варьируется в зависимости от множества факторов, таких как происхождение слова и его использование с течением времени, а также заимствования из других языков, фонетические алгоритмы обязательно учитывают многочисленные правила и исключения. [2]

Алгоритмы

[ редактировать ]

Среди наиболее известных фонетических алгоритмов:

  • Soundex , который был разработан для кодирования фамилий для использования в переписи населения. Коды Soundex представляют собой четырехсимвольные строки, состоящие из одной буквы, за которой следуют три цифры.
  • Daitch-Mokotoff Soundex , который представляет собой усовершенствованную версию Soundex, предназначенную для лучшего соответствия фамилиям славянского и германского происхождения. Коды Soundex Дейча – Мокотоффа представляют собой строки, состоящие из шести цифр.
  • Кёльнская фонетика : похожа на Soundex, но больше подходит для немецких слов.
  • Метафон и Двойной метафон , которые подходят для использования с большинством английских слов, а не только с именами. Алгоритмы метафона лежат в основе многих популярных программ проверки орфографии .
  • Система идентификации и разведки штата Нью-Йорк (NYSIIS), которая сопоставляет похожие фонемы с одной и той же буквой. Результатом является строка, которую читатель может произнести без декодирования.
  • Подход к рейтингу совпадений, разработанный Western Airlines в 1977 году. Этот алгоритм включает в себя технику кодирования и сравнения диапазонов.
  • Caverphone , созданный для помощи в сопоставлении данных между списками избирателей конца 19-го и начала 20-го веков, оптимизированный для акцентов, присутствующих в некоторых частях Новой Зеландии.

Обычное использование

[ редактировать ]
  • Программы проверки орфографии часто могут содержать фонетические алгоритмы. Алгоритм Metaphone , например, может взять неправильно написанное слово и создать код. Затем код ищется в каталоге для поиска слов с тем же или похожим метафоном. Слова с одинаковым или похожим метафоном становятся возможными альтернативными вариантами написания.
  • Функция поиска часто использует фонетические алгоритмы для поиска результатов, которые не совсем соответствуют терминам, использованным в поиске. Поиск имен может быть затруднен, поскольку часто существует несколько альтернативных вариантов написания имен. Примером может служить имя Клэр . У него есть два варианта, Clare/Clair, которые произносятся одинаково. Поиск по одному написанию не даст результатов по двум другим. При использовании Soundex все три варианта создают один и тот же код Soundex — C460. При поиске имен по коду Soundex будут возвращены все три варианта.
  • При дедупликации данных используются фонетические алгоритмы, позволяющие легко группировать записи в группы со схожими по звучанию именами для дальнейшей оценки.
  • Модули преобразования речи в текст используют фонетическое кодирование для поиска набора словарных слов, которые произносятся так же, как фонемы, выводимые обработанным аудиосигналом.

См. также

[ редактировать ]
  1. ^ Ли, Нэн; Хичкок, Питер; Блюстейн, Джеймс; Блимель, Майкл (2011). Х. Рагхав Рао; Радж Шарман; Т. С. Рагху (ред.). Исследование грандиозных задач электронного бизнеса следующего поколения: 8-й семинар по электронному бизнесу, WEB 2009, Феникс, Аризона, США, 15 декабря 2009 г., пересмотренные избранные статьи . Берлин: Шпрингер. п. 232. ИСБН  9783642174483 . Проверено 31 декабря 2020 г.
  2. ^ Коэн, Эли Б. (2009). Растущая информация: Часть 2 . Санта-Роза, Калифорния: Информационная наука. п. 498. ИСБН  978-1-932886-17-7 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 55e60f8a956c732959c8c1d7680ee225__1714981800
URL1:https://arc.ask3.ru/arc/aa/55/25/55e60f8a956c732959c8c1d7680ee225.html
Заголовок, (Title) документа по адресу, URL1:
Phonetic algorithm - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)