Jump to content

Каверфон

Caverphone в лингвистике и информатике это алгоритм фонетического сопоставления. [1] [2] изобретенный для идентификации английских имен по их звукам, первоначально созданный для обработки пользовательского набора данных между 1893 и 1938 годами на юге Данидина , Новая Зеландия. [3] Созданный на основе концепции, аналогичной метафону , с тех пор он был разработан для размещения и обработки общего английского языка. [3]

Этимология

[ редактировать ]

Caverphone был создан Дэвидом Худом в рамках проекта Caversham Project в Университете Отаго в Новой Зеландии в 2002 году и обновлен в 2004 году. Он был создан для помощи в сопоставлении данных между списками избирателей конца 19-го и начала 20-го веков, где требовалось только название. быть в «общеузнаваемой форме». Алгоритм был предназначен для применения к тем именам, которые невозможно было легко сопоставить в списках избирателей, после того как точные совпадения были удалены из пула потенциальных совпадений. Алгоритм оптимизирован под акценты, присутствующие в исследуемой местности (южная часть города Данидин , Новая Зеландия).

Процедура

[ редактировать ]

Каверфон 1.0

[ редактировать ]

Правила алгоритма применяются последовательно к любому конкретному имени в виде серии замен.

Алгоритм следующий:

  1. Преобразовать в нижний регистр
  2. Удалите все, кроме AZ
  3. Если имя начинается с...
    1. кашель , замени на cou2f
    2. грубо , замените его на rou2f
    3. круто , замени его на tou2f
    4. достаточно , замените его на enou2f
    5. gn , замените его на 2n
  4. Если имя заканчивается на
    1. мб , замени на м2
  5. Заменять
    1. cq с 2q
    2. с Си
    3. CE с SE
    4. сай с си
    5. тч с 2 каналом
    6. с с к
    7. q с к
    8. х с к
    9. v с f
    10. дг с
    11. тио с сио
    12. Тиа с Сиа
    13. д с т
    14. ф с фч
    15. б с п
    16. ш с s2
    17. г с s
    18. любая начальная гласная с буквой А
    19. все остальные гласные с 3
    20. 3gh3 с 3х3
    21. хх с 22
    22. г с к
    23. группы букв s с S
    24. группы буквы т с Т
    25. группы буквы р с Р
    26. группы буквы k с буквой K
    27. группы буквы f с F
    28. группы буквы м с М
    29. группы буквы n с буквой N
    30. w3 с W3
    31. ууу с Вай
    32. Wh3 с Wh3
    33. почему с Почему
    34. с 2
    35. любая начальная буква h с буквой A
    36. все остальные вхождения h с 2
    37. r3 с R3
    38. попробуй с Рай
    39. р с 2
    40. l3 с L3
    41. лечь с Ли
    42. я с 2
    43. j с y
    44. y3 с Y3
    45. да с 2
  6. удалить все
    1. 2
    2. 3
  7. поставь шесть 1 в конце
  8. возьмите первые шесть символов в качестве кода

Каверфон 2.0

[ редактировать ]
  1. Начни со слова
  2. Преобразовать в нижний регистр
  3. Удалите все, что не входит в стандартный алфавит (обычно az ). [примечание 1]
  4. Удалить конечную е
  5. Если имя начинается с
    1. кашель, сделай это
    2. грубо, сделай это rou2f
    3. сложно, сделай это круто
    4. хватит , сделай это достаточно
    5. сделай это тру2ф
    6. давай, сделай это
  6. Если имя заканчивается на
    1. мб, сделай это м2
  7. Заменять
    1. cq с 2q
    2. с Си
    3. CE с SE
    4. сай с си
    5. тч с 2 каналом
    6. с с к
    7. q с к
    8. х с к
    9. v с f
    10. дг с
    11. тио с сио
    12. Тиа с Сиа
    13. д с т
    14. ф с фч
    15. б с п
    16. ш с s2
    17. г с s
    18. начальная гласная [примечание 2] с буквой А
    19. все остальные гласные с 3
    20. j с y
    21. начальный y3 с Y3
    22. начальная буква y с A
    23. да с 3
    24. 3gh3 с 3х3
    25. хх с 22
    26. г с к
    27. группы букв s с S
    28. группы буквы т с Т
    29. группы буквы р с Р
    30. группы буквы k с буквой K
    31. группы буквы f с F
    32. группы буквы м с М
    33. группы буквы n с буквой N
    34. w3 с W3
    35. Wh3 с Wh3
    36. если имя заканчивается на w, замените последнюю букву w на 3
    37. с 2
    38. начальная буква h с буквой A
    39. все остальные вхождения h с 2
    40. r3 с R3
    41. если имя заканчивается на r, замените последнюю букву r на 3.
    42. р с 2
    43. l3 с L3
    44. если имя заканчивается на l, замените последнюю букву l на 3.
    45. я с 2
  8. удалить все 2 с
  9. если имя заканчивается на 3 , замените последнюю 3 на A
  10. удалить все 3 с
  11. поставь десять единиц в конце
  12. возьмите первые десять символов в качестве кода

  1. ^ Это может отличаться, если набор букв включает такие символы, как æ , ā или ø.
  2. ^ Гласные обычно — a, e, i, o, u, но в зависимости от данных могут включать такие символы, как æ, ā или ø.

Каверфон 1.0

[ редактировать ]
Lee -> leelee -> l33l33 -> L33L33 -> LL -> L111111L111111 -> L11111
Thompson -> thompsonthompson -> th3mps3nth3mps3n -> th3mpS3nth3mpS3n -> Th3mpS3nTh3mpS3n -> Th3mPS3nTh3mPS3n -> Th3MPS3nTh3MPS3n -> Th3MPS3NTh3MPS3N -> T23MPS3NT23MPS3N ->  TMPSNTMPSN111111 -> TMPSN1

Каверфон 2.0

[ редактировать ]
Lee -> leelee -> lele -> l3l3 -> L3L3 -> LALA -> LA1111111111LA1111111111 -> LA11111111
Thompson -> thompsonthompson -> th3mps3nth3mps3n -> th3mpS3nth3mpS3n -> Th3mpS3nTh3mpS3n -> Th3mPS3nTh3mPS3n -> Th3MPS3nTh3MPS3n -> Th3MPS3NTh3MPS3N -> T23MPS3NT23MPS3N ->  TMPSNTMPSN1111111111 -> TMPSN11111

См. также

[ редактировать ]
  1. ^ Милетт, Грег; Страуд, Адам (18 мая 2012 г.). Профессиональное программирование датчиков Android . Джон Уайли и сыновья. стр. 421–. ISBN  9781118240458 . Проверено 19 февраля 2013 г.
  2. ^ Фуа, Клифтон; Ли, Винсент; Смит, Кейт (2006). «Проблема личного имени и рекомендуемое решение для интеллектуального анализа данных». Энциклопедия хранения данных и майнинга . CiteSeerX   10.1.1.127.5111 .
  3. ^ Перейти обратно: а б «Каверфон» . Национальный институт стандартов и технологий . Проверено 20 августа 2018 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c18a9b0bb8feafb0412c46dff8853767__1704547020
URL1:https://arc.ask3.ru/arc/aa/c1/67/c18a9b0bb8feafb0412c46dff8853767.html
Заголовок, (Title) документа по адресу, URL1:
Caverphone - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)