Гомоглиф
![]() | В данной статье поднимается несколько вопросов. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
![](http://upload.wikimedia.org/wikipedia/commons/thumb/8/82/Homoglyph_a.svg/220px-Homoglyph_a.svg.png)
U+0061 ЛАТИНСКАЯ СТРОЧНАЯ БУКВА A и
U + 0430 СТРОЧНАЯ КИРИЛЛИЧЕСКАЯ БУКВА А. наложена На изображении оба символа написаны шрифтом Helvetica LT Std Roman.
В орфографии и типографике гомоглиф . — это одна из двух или более графем , символов или глифов , формы которых кажутся идентичными или очень похожими, но могут иметь разное значение Это обозначение также применяется к последовательностям символов, разделяющих эти свойства.
В 2008 году Консорциум Unicode опубликовал технический отчет № 36. [1] по ряду вопросов, вытекающих из визуального сходства символов как в отдельных сценариях, так и сходства между персонажами в разных сценариях.
Примерами гомоглифических символов являются (а) диэрезис и умляут (оба — пара точек, но с разным значением, хотя и закодированы одними и теми же кодовыми точками ); и (b) дефис и знак минус (оба — короткая горизонтальная черта, но с разным значением, хотя часто кодируются одной и той же кодовой точкой ). Среди цифр и букв цифра 1 и строчная буква l всегда кодируются отдельно, но во многих шрифтах используются очень похожие глифы, а цифра 0 и заглавная буква O всегда кодируются отдельно, но во многих шрифтах используются очень похожие глифы. Практически каждый пример гомоглифической пары символов потенциально может быть дифференцирован графически с помощью четко различимых глифов и отдельных кодовых точек, но это делается не всегда. Гарнитуры , в которых четко не различаются гомоглифы one/el и нуль/oh, считаются непригодными для написания формул , URL-адресов , исходного кода , идентификаторов и другого текста, символы которого не всегда можно различить без контекста . Шрифты, в которых глифы различаются с помощью например, перечеркнутый ноль предпочтителен для этих целей.
Связанные термины [ править ]
Термин «омограф» иногда неправильно используется как синоним гомоглифа, но в обычном лингвистическом смысле омографы — это слова , которые пишутся одинаково, но имеют разное значение, что является свойством слов, а не символов.
Аллографы — это варианты дизайна шрифта , которые выглядят по-разному, но означают одно и то же — например, ⟨g⟩ и ⟨g⟩ или знак доллара с одним или двумя штрихами. Термин «синоглиф» имеет похожее, но немного более абстрактное значение — например, символ ⟨£⟩ и буква ⟨L⟩ (в Lsd ) оба означают фунт стерлингов , [2] но только в этом контексте. Аллографы и синоглифы также неофициально известны как варианты отображения .
Умлаут и диарезис [ править ]
Во времена первых механических пишущих машинок их печатали с помощью одной и той же клавиши (с использованием техники «возврата и повторного ввода»), которая также использовалась для двойной кавычки. Однако умлаут возник именно как пара коротких вертикальных линий (а не двух точек) (см. Саттерлин ). Между прочим, две точки над буквой Е на албанском языке описываются как диарезис, но не выполняют функцию диарезиса. [3]
0 и О; 1, я и я [ править ]
Сегодня используются два распространенных и важных набора гомоглифов: цифра ноль и заглавная буква О (т. е. 0 и О); и цифра один, строчная буква L и прописная i (т. е. 1, l и I). На заре появления механических пишущих машинок между этими глифами было очень мало или совсем не было визуальной разницы, и машинистки рассматривали их как взаимозаменяемые сочетания клавиш. Фактически, на большинстве клавиатур даже не было клавиши для цифры «1», вместо этого пользователям требовалось набирать букву «l», а на некоторых также опускался 0. Когда в 1970-х и 1980-х годах эти же самые машинистки перешли на работу операторами компьютерной клавиатуры. , их старые привычки работы с клавиатурой остались с ними и время от времени были источником замешательства.
Большинство современных шрифтовых дизайнов тщательно различают эти гомоглифы, обычно делая цифру ноль более узкой, а цифру единицу — с заметными засечками . Ранние компьютерные распечатки пошли еще дальше и отметили ноль косой чертой или точкой, что привело к новому конфликту между скандинавской буквой « Ø » и греческой буквой Φ ( фи ). Изменение типов персонажей для различения этих персонажей привело к уменьшению путаницы. Степень, в которой два разных персонажа кажутся данному наблюдателю одинаковыми, называется «визуальным сходством». [4]
Некоторые типовые конструкции соответствуют стандарту разборчивости DIN 1450 за счет тщательного проектирования таких символов, чтобы их было легко отличить: ноль с косой чертой , чтобы отличить его от заглавной буквы О; строчная l с хвостиком и прописная I с засечками, чтобы отличить ее от цифры 1; отличие цифры 5 от заглавной S; и т. д. [5]
Пример путаницы из-за почти гомоглифов возник из-за использования буквы ⟨y⟩ для обозначения ⟨þ⟩ ( шипа ). Ранние английские наборщики импортировали голландские наборы, которые не содержали последний символ, поэтому вместо этого использовали букву ⟨y⟩, потому что (в шрифте Blackletter ) они выглядят достаточно похожими. [6] В наше время это привело к таким явлениям, как Ye olde shoppe , ошибочно подразумевая, что слово the раньше писалось ye / j iː / , а не þe . Написание имени Мензис (произносится как Менгис и первоначально писалось как Менциес ) возникло по той же причине: буква ⟨z⟩ была заменена на ⟨ş⟩ ( йог ).
Многобуквенные гомоглифы [ править ]
![](http://upload.wikimedia.org/wikipedia/commons/thumb/c/cf/Letters_m_and_r%2Bn_in_fonts_Arial%2C_Calibri%2C_Times_New_Roman%2C_Cambria%2C_Walbaum_Fraktur%2C_Comic_Sans.svg/220px-Letters_m_and_r%2Bn_in_fonts_Arial%2C_Calibri%2C_Times_New_Roman%2C_Cambria%2C_Walbaum_Fraktur%2C_Comic_Sans.svg.png)
![](http://upload.wikimedia.org/wikipedia/commons/thumb/c/c2/Stefan_Szczotkowski_%281767-1836%29.jpg/225px-Stefan_Szczotkowski_%281767-1836%29.jpg)
Некоторые другие комбинации букв выглядят аналогично, например, rn похож на m , cl похож на d , а vv похож на w .
В некоторых шрифтах с узким интервалом (например, Tahoma ) размещение буквы c рядом с такой буквой, как j, l или i, создаст гомоглиф, например cj cl ci (gda).
Когда некоторые персонажи расположены рядом друг с другом и с первого взгляда смотрятся вместе, они создают визуальное впечатление другого, несвязанного персонажа. Точнее говоря, некоторые типографские лигатуры могут выглядеть как отдельные глифы. Например, фигура ( fi ) может выглядеть похожей на A в некоторых гарнитурах или шрифтах. Возможность возникновения путаницы иногда является аргументом против использования лигатур. [ нужна цитата ]
Гомоглифы Юникода [ править ]
![](http://upload.wikimedia.org/wikipedia/commons/thumb/e/e4/Venn_diagram_gr_la_ru.svg/220px-Venn_diagram_gr_la_ru.svg.png)
В Unicode есть кодовые точки для многих строго гомоглифических символов, известных как «путанные символы». [1] Они представляют угрозу безопасности в различных ситуациях (рассмотрено в UTR#36). [7] и им было обращено особое внимание в отношении интернационализированных доменных имен . По крайней мере, теоретически можно намеренно подделать доменное имя, заменив один символ его гомоглифом, создав таким образом второе доменное имя, которое трудно отличить от первого, которое можно использовать в фишинге ( см. основную статью «Атака омографа IDN» ). Во многих шрифтах греческая к буква «А», кириллическая буква «А» и латинская буква «А» визуально идентичны, равно как и латинская буква «а» и кириллическая буква «а» (то же самое можно применить и латинские буквы «aBceHKopTxy» и кириллические буквы « аВсеНКорТху "). Доменное имя можно подделать, просто заменив одну из этих форм на другую в отдельно зарегистрированном имени. Также существует множество примеров почти гомоглифов внутри одного и того же алфавита, таких как 'í' (с острым ударением) и 'i', É (E-острый) и Ė (точка E выше) и È (E-могила), Í (с острым ударением) и ĺ (строчная L с острым ударением) При обсуждении этого конкретного вопроса безопасности любые два. последовательности сходных символов могут быть оценены с точки зрения их возможности быть принятыми за «пару гомоглифов», а если последовательности явно представляют собой слова, как за «псевдоомографы» (еще раз отметим, что эти термины сами по себе могут вызвать путаницу в других терминах). В китайском языке многие упрощенные китайские иероглифы являются гомоглифами соответствующих традиционных китайских иероглифов .
Усилия реестров TLD и разработчиков веб-браузеров направлены на минимизацию рисков гомоглифической путаницы. Обычно это достигается путем запрета имен, в которых смешаны наборы символов из нескольких языков ( toys-Я-us.org , использующий кириллическую букву Я , будет недействительным, но wíkipedia.org и wikipedia.org по-прежнему существуют как разные веб-сайты); Канадский реестр .ca идет еще дальше, требуя, чтобы имена, которые отличаются только диакритическими знаками, имели одного и того же владельца и одного и того же регистратора. [8] Обработка китайских иероглифов различается: в .org и .info регистрация одного варианта делает другой недоступным для всех, в то время как в .biz традиционные и упрощенные версии с тем же именем поставляются в виде пакета из двух доменов, оба из которых указывают на тот же сервер доменных имен .
Соответствующую документацию можно найти как на веб-сайтах разработчиков, так и на форуме IDN. [9] предоставлено ICANN .
![](http://upload.wikimedia.org/wikipedia/commons/thumb/a/a4/ES1845_keyboard.jpg/456px-ES1845_keyboard.jpg)
В кириллице кириллица С не только выглядит как латиница C , но и занимает ту же кнопку в клавиатурах гибридной раскладки JCUKEN-QWERTY. Этот нюанс дизайна можно увидеть на кнопке C/С, представленной на Памятнике «Клавиатура» в Екатеринбурге .
Канонизация [ править ]
Гомоглифы всех видов можно обнаружить с помощью процесса, называемого «двойной канонизацией». [4] Первым шагом в этом процессе является идентификация наборов гомоглифов, а именно символов, которые кажутся одинаковыми для данного наблюдателя. Отсюда указывается один токен для представления набора гомоглифов. Этот токен называется каноном. Следующим шагом является преобразование каждого символа в тексте в соответствующий канон в процессе, называемом канонизацией . Если каноны двух фрагментов текста одинаковы, но исходный текст различен, то в тексте существует гомоглиф.
Предотвращение гомоглифа [ править ]
Атаки гомоглифов можно смягчить за счет сочетания осведомленности пользователей и превентивных мер. Крайне важно информировать пользователей о рисках, связанных с атаками на гомоглифы, призывая их тщательно проверять URL-адреса перед тем, как нажать на них. [10] Использование передовых решений безопасности, особенно тех, которые способны сканировать гомоглифические вариации в доменных именах, может автоматизировать обнаружение и предотвращение потенциальных угроз. Кроме того, внедрение строгой политики мониторинга и регистрации доменных имен может помочь быстро выявить и нейтрализовать риски, связанные с гомоглифами. Развивая культуру кибер-бдительности и используя передовые технологии, организации могут укрепить свою защиту от атак гомоглифа, обеспечивая более безопасную онлайн-среду.
См. также [ править ]
- Атака по омографу IDN – визуально похожие буквы в доменных именах.
- Повторяющиеся символы в Юникоде – Юникод 2.0
- В номерных знаках транспортных средств Боснии и Герцеговины используются только цифры и буквы, которые одинаково выглядят в латинском и кириллическом алфавитах.
- Yaminjeongeum , южнокорейская языковая игра, хангыля . в которой гомоглифы намеренно заменяются символами
Ссылки [ править ]
- ^ Перейти обратно: а б «UTR № 36: Вопросы безопасности Unicode» . www.unicode.org .
- ^ Уолтон, Час (7 октября 2020 г.). «Руководство писателя по диакритическим знакам и специальным символам» . Текстовый мастер .
- ^ Описание их как гомоглифов сомнительно, поскольку, вероятно, не существует языков, в которых глиф мог бы выполнять обе эти роли. Было бы так же правильно описать, скажем, серьезный акцент как гомоглиф, поскольку в разных языках он выполняет разные роли.
- ^ Перейти обратно: а б Хелфрих, Джеймс; Нефф, Рик (2012). «Двойная канонизация: ответ на атаку омографов». 2012 г. преступности Саммит исследователей , Саммит исследователей электронной преступности (eCrime), 2012. стр. 1–10. дои : 10.1109/eCrime.2012.6489517 . ISBN 978-1-4673-2543-1 .
- ^ Найджел Тао, Чак Бигелоу и Роб Пайк. Шрифты Go: Стандарт разборчивости DIN» . 2016.
- ^ Хилл, Уилл (30 июня 2020 г.). «Глава 25: Типографика и печатный английский текст» (PDF) . Справочник Routledge по английской системе письма . Тейлор и Фрэнсис. п. 6. ISBN 9780367581565 .
Типы, используемые Кэкстоном и его современниками, возникли в Голландии и Бельгии и не предусматривали дальнейшего использования элементов древнеанглийского алфавита, таких как шип <þ>, eth <ð> и yogh <ʒ>. Замена визуально схожих типографских форм привела к некоторым аномалиям, сохраняющимся и по сей день в перепечатке архаичных текстов и написании региональных слов. Широко неправильно понимаемое слово «ye» возникло из-за привычки использования принтеров, которая возникла во времена Кэкстона, когда принтеры заменяли <y> (часто сопровождаемую верхним индексом <e>) вместо шипа <þ> или eth <ð. >, оба из которых использовались для обозначения как звонких, так и незвонких звуков, /ð/ и /θ/ (Андерсон, Д. (1969) Искусство письменных форм. Нью-Йорк: Холт, Райнхарт и Уинстон, стр. 169). )
- ^ «UTR № 36: Вопросы безопасности Unicode» . unicode.org .
- ^ «Зарегистрируйте домен .CA на французском языке!» . Архивировано из оригинала 28 марта 2013 г. Проверено 29 марта 2013 г.
- ^ «Архивы электронной почты ICANN: [idn-guidelines]» . форум.icann.org .
- ^ https://governance.dev/phishing-domain-check , по состоянию на 12 февраля 2024 г.
Внешние ссылки [ править ]
![](http://upload.wikimedia.org/wikipedia/commons/thumb/9/99/Wiktionary-logo-en-v2.svg/40px-Wiktionary-logo-en-v2.svg.png)
- https://www.unicode.org/Public/security/latest/confusables.txt — рекомендуемое запутанное сопоставление для IDN.