Гомоглиф

В орфографии и типографике гомоглиф . — это одна из двух или более графем , символов или глифов , формы которых кажутся идентичными или очень похожими, но могут иметь разное значение Это обозначение также применяется к последовательностям символов, разделяющих эти свойства.

В 2008 году Консорциум Unicode опубликовал технический отчет № 36. ^[1] по ряду вопросов, вытекающих из визуального сходства символов как в отдельных сценариях, так и сходства между персонажами в разных сценариях.

Примерами гомоглифических символов являются (а) диэрезис и умляут (оба — пара точек, но с разным значением, хотя и закодированы одними и теми же кодовыми точками ); и (b) дефис и знак минус (оба — короткая горизонтальная черта, но с разным значением, хотя часто кодируются одной и той же кодовой точкой ). Среди цифр и букв цифра 1 и строчная буква l всегда кодируются отдельно, но во многих шрифтах используются очень похожие глифы, а цифра 0 и заглавная буква O всегда кодируются отдельно, но во многих шрифтах используются очень похожие глифы. Практически каждый пример гомоглифической пары символов потенциально может быть дифференцирован графически с помощью четко различимых глифов и отдельных кодовых точек, но это делается не всегда. Гарнитуры , в которых четко не различаются гомоглифы one/el и нуль/oh, считаются непригодными для написания формул , URL-адресов , исходного кода , идентификаторов и другого текста, символы которого не всегда можно различить без контекста . Шрифты, в которых глифы различаются с помощью например, перечеркнутый ноль предпочтителен для этих целей.

Связанные термины [ править ]

Термин «омограф» иногда неправильно используется как синоним гомоглифа, но в обычном лингвистическом смысле омографы — это слова , которые пишутся одинаково, но имеют разное значение, что является свойством слов, а не символов.

Аллографы — это варианты дизайна шрифта , которые выглядят по-разному, но означают одно и то же — например, ⟨g⟩ и ⟨g⟩ или знак доллара с одним или двумя штрихами. Термин «синоглиф» имеет похожее, но немного более абстрактное значение — например, символ ⟨£⟩ и буква ⟨L⟩ (в Lsd ) оба означают фунт стерлингов , ^[2]но только в этом контексте. Аллографы и синоглифы также неофициально известны как варианты отображения .

Умлаут и диарезис [ править ]

Во времена первых механических пишущих машинок их печатали с помощью одной и той же клавиши (с использованием техники «возврата и повторного ввода»), которая также использовалась для двойной кавычки. Однако умлаут возник именно как пара коротких вертикальных линий (а не двух точек) (см. Саттерлин ). Между прочим, две точки над буквой Е на албанском языке описываются как диарезис, но не выполняют функцию диарезиса. ^[3]

0 и О; 1, я и я [ править ]

Сегодня используются два распространенных и важных набора гомоглифов: цифра ноль и заглавная буква О (т. е. 0 и О); и цифра один, строчная буква L и прописная i (т. е. 1, l и I). На заре появления механических пишущих машинок между этими глифами было очень мало или совсем не было визуальной разницы, и машинистки рассматривали их как взаимозаменяемые сочетания клавиш. Фактически, на большинстве клавиатур даже не было клавиши для цифры «1», вместо этого пользователям требовалось набирать букву «l», а на некоторых также опускался 0. Когда в 1970-х и 1980-х годах эти же самые машинистки перешли на работу операторами компьютерной клавиатуры. , их старые привычки работы с клавиатурой остались с ними и время от времени были источником замешательства.

Большинство современных шрифтовых дизайнов тщательно различают эти гомоглифы, обычно делая цифру ноль более узкой, а цифру единицу — с заметными засечками . Ранние компьютерные распечатки пошли еще дальше и отметили ноль косой чертой или точкой, что привело к новому конфликту между скандинавской буквой « Ø » и греческой буквой Φ ( фи ). Изменение типов персонажей для различения этих персонажей привело к уменьшению путаницы. Степень, в которой два разных персонажа кажутся данному наблюдателю одинаковыми, называется «визуальным сходством». ^[4]

Некоторые типовые конструкции соответствуют стандарту разборчивости DIN 1450 за счет тщательного проектирования таких символов, чтобы их было легко отличить: ноль с косой чертой , чтобы отличить его от заглавной буквы О; строчная l с хвостиком и прописная I с засечками, чтобы отличить ее от цифры 1; отличие цифры 5 от заглавной S; и т. д. ^[5]

Пример путаницы из-за почти гомоглифов возник из-за использования буквы ⟨y⟩ для обозначения ⟨þ⟩ ( шипа ). Ранние английские наборщики импортировали голландские наборы, которые не содержали последний символ, поэтому вместо этого использовали букву ⟨y⟩, потому что (в шрифте Blackletter ) они выглядят достаточно похожими. ^[6]В наше время это привело к таким явлениям, как Ye olde shoppe , ошибочно подразумевая, что слово the раньше писалось ye / j iː / , а не þe . Написание имени Мензис (произносится как Менгис и первоначально писалось как Менциес ) возникло по той же причине: буква ⟨z⟩ была заменена на ⟨ş⟩ ( йог ).

Многобуквенные гомоглифы [ править ]

Буквы m и r+n в шрифтах Arial , Calibri , Times New Roman , Cambria , Walbaum - Fraktur и Comic Sans.

Некоторые другие комбинации букв выглядят аналогично, например, rn похож на m , cl похож на d , а vv похож на w .

В некоторых шрифтах с узким интервалом (например, Tahoma ) размещение буквы c рядом с такой буквой, как j, l или i, создаст гомоглиф, например cj cl ci (gda).

Когда некоторые персонажи расположены рядом друг с другом и с первого взгляда смотрятся вместе, они создают визуальное впечатление другого, несвязанного персонажа. Точнее говоря, некоторые типографские лигатуры могут выглядеть как отдельные глифы. Например, фигура ( fi ) может выглядеть похожей на A в некоторых гарнитурах или шрифтах. Возможность возникновения путаницы иногда является аргументом против использования лигатур. ^{[ нужна цитата ]}

Гомоглифы Юникода [ править ]

В Unicode есть кодовые точки для многих строго гомоглифических символов, известных как «путанные символы». ^[1] Они представляют угрозу безопасности в различных ситуациях (рассмотрено в UTR#36). ^[7]и им было обращено особое внимание в отношении интернационализированных доменных имен . По крайней мере, теоретически можно намеренно подделать доменное имя, заменив один символ его гомоглифом, создав таким образом второе доменное имя, которое трудно отличить от первого, которое можно использовать в фишинге ( см. основную статью «Атака омографа IDN» ). Во многих шрифтах греческая к буква «А», кириллическая буква «А» и латинская буква «А» визуально идентичны, равно как и латинская буква «а» и кириллическая буква «а» (то же самое можно применить и латинские буквы «aBceHKopTxy» и кириллические буквы « аВсеНКорТху "). Доменное имя можно подделать, просто заменив одну из этих форм на другую в отдельно зарегистрированном имени. Также существует множество примеров почти гомоглифов внутри одного и того же алфавита, таких как 'í' (с острым ударением) и 'i', É (E-острый) и Ė (точка E выше) и È (E-могила), Í (с острым ударением) и ĺ (строчная L с острым ударением) При обсуждении этого конкретного вопроса безопасности любые два. последовательности сходных символов могут быть оценены с точки зрения их возможности быть принятыми за «пару гомоглифов», а если последовательности явно представляют собой слова, как за «псевдоомографы» (еще раз отметим, что эти термины сами по себе могут вызвать путаницу в других терминах). В китайском языке многие упрощенные китайские иероглифы являются гомоглифами соответствующих традиционных китайских иероглифов .

Усилия реестров TLD и разработчиков веб-браузеров направлены на минимизацию рисков гомоглифической путаницы. Обычно это достигается путем запрета имен, в которых смешаны наборы символов из нескольких языков ( toys-Я-us.org , использующий кириллическую букву Я , будет недействительным, но wíkipedia.org и wikipedia.org по-прежнему существуют как разные веб-сайты); Канадский реестр .ca идет еще дальше, требуя, чтобы имена, которые отличаются только диакритическими знаками, имели одного и того же владельца и одного и того же регистратора. ^[8] Обработка китайских иероглифов различается: в .org и .info регистрация одного варианта делает другой недоступным для всех, в то время как в .biz традиционные и упрощенные версии с тем же именем поставляются в виде пакета из двух доменов, оба из которых указывают на тот же сервер доменных имен .

Соответствующую документацию можно найти как на веб-сайтах разработчиков, так и на форуме IDN. ^[9] предоставлено ICANN .

В кириллице кириллица С не только выглядит как латиница C , но и занимает ту же кнопку в клавиатурах гибридной раскладки JCUKEN-QWERTY. Этот нюанс дизайна можно увидеть на кнопке C/С, представленной на Памятнике «Клавиатура» в Екатеринбурге .

Канонизация [ править ]

Гомоглифы всех видов можно обнаружить с помощью процесса, называемого «двойной канонизацией». ^[4]Первым шагом в этом процессе является идентификация наборов гомоглифов, а именно символов, которые кажутся одинаковыми для данного наблюдателя. Отсюда указывается один токен для представления набора гомоглифов. Этот токен называется каноном. Следующим шагом является преобразование каждого символа в тексте в соответствующий канон в процессе, называемом канонизацией . Если каноны двух фрагментов текста одинаковы, но исходный текст различен, то в тексте существует гомоглиф.

Предотвращение гомоглифа [ править ]

Атаки гомоглифов можно смягчить за счет сочетания осведомленности пользователей и превентивных мер. Крайне важно информировать пользователей о рисках, связанных с атаками на гомоглифы, призывая их тщательно проверять URL-адреса перед тем, как нажать на них. ^[10]Использование передовых решений безопасности, особенно тех, которые способны сканировать гомоглифические вариации в доменных именах, может автоматизировать обнаружение и предотвращение потенциальных угроз. Кроме того, внедрение строгой политики мониторинга и регистрации доменных имен может помочь быстро выявить и нейтрализовать риски, связанные с гомоглифами. Развивая культуру кибер-бдительности и используя передовые технологии, организации могут укрепить свою защиту от атак гомоглифа, обеспечивая более безопасную онлайн-среду.

См. также [ править ]

Атака по омографу IDN – визуально похожие буквы в доменных именах.
Повторяющиеся символы в Юникоде – Юникод 2.0
В номерных знаках транспортных средств Боснии и Герцеговины используются только цифры и буквы, которые одинаково выглядят в латинском и кириллическом алфавитах.
Yaminjeongeum , южнокорейская языковая игра, хангыля . в которой гомоглифы намеренно заменяются символами

Ссылки [ править ]

^ Перейти обратно: ^а ^б «UTR № 36: Вопросы безопасности Unicode» . www.unicode.org .
^ Уолтон, Час (7 октября 2020 г.). «Руководство писателя по диакритическим знакам и специальным символам» . Текстовый мастер .
^ Описание их как гомоглифов сомнительно, поскольку, вероятно, не существует языков, в которых глиф мог бы выполнять обе эти роли. Было бы так же правильно описать, скажем, серьезный акцент как гомоглиф, поскольку в разных языках он выполняет разные роли.
^ Перейти обратно: ^а ^б Хелфрих, Джеймс; Нефф, Рик (2012). «Двойная канонизация: ответ на атаку омографов». 2012 г. преступности Саммит исследователей , Саммит исследователей электронной преступности (eCrime), 2012. стр. 1–10. дои : 10.1109/eCrime.2012.6489517 . ISBN 978-1-4673-2543-1 .
^ Найджел Тао, Чак Бигелоу и Роб Пайк. Шрифты Go: Стандарт разборчивости DIN» . 2016.
^ Хилл, Уилл (30 июня 2020 г.). «Глава 25: Типографика и печатный английский текст» (PDF) . Справочник Routledge по английской системе письма . Тейлор и Фрэнсис. п. 6. ISBN 9780367581565 . Типы, используемые Кэкстоном и его современниками, возникли в Голландии и Бельгии и не предусматривали дальнейшего использования элементов древнеанглийского алфавита, таких как шип <þ>, eth <ð> и yogh <ʒ>. Замена визуально схожих типографских форм привела к некоторым аномалиям, сохраняющимся и по сей день в перепечатке архаичных текстов и написании региональных слов. Широко неправильно понимаемое слово «ye» возникло из-за привычки использования принтеров, которая возникла во времена Кэкстона, когда принтеры заменяли <y> (часто сопровождаемую верхним индексом <e>) вместо шипа <þ> или eth <ð. >, оба из которых использовались для обозначения как звонких, так и незвонких звуков, /ð/ и /θ/ (Андерсон, Д. (1969) Искусство письменных форм. Нью-Йорк: Холт, Райнхарт и Уинстон, стр. 169). )
^ «UTR № 36: Вопросы безопасности Unicode» . unicode.org .
^ «Зарегистрируйте домен .CA на французском языке!» . Архивировано из оригинала 28 марта 2013 г. Проверено 29 марта 2013 г.
^ «Архивы электронной почты ICANN: [idn-guidelines]» . форум.icann.org .
^ https://governance.dev/phishing-domain-check , по состоянию на 12 февраля 2024 г.

Внешние ссылки [ править ]

https://www.unicode.org/Public/security/latest/confusables.txt — рекомендуемое запутанное сопоставление для IDN.

[:0-1] Перейти обратно: ^а ^б «UTR № 36: Вопросы безопасности Unicode» . www.unicode.org .

[2] Уолтон, Час (7 октября 2020 г.). «Руководство писателя по диакритическим знакам и специальным символам» . Текстовый мастер .

[3] Описание их как гомоглифов сомнительно, поскольку, вероятно, не существует языков, в которых глиф мог бы выполнять обе эти роли. Было бы так же правильно описать, скажем, серьезный акцент как гомоглиф, поскольку в разных языках он выполняет разные роли.

[helfrich-4] Перейти обратно: ^а ^б Хелфрих, Джеймс; Нефф, Рик (2012). «Двойная канонизация: ответ на атаку омографов». 2012 г. преступности Саммит исследователей , Саммит исследователей электронной преступности (eCrime), 2012. стр. 1–10. дои : 10.1109/eCrime.2012.6489517 . ISBN 978-1-4673-2543-1 .

[5] Найджел Тао, Чак Бигелоу и Роб Пайк. Шрифты Go: Стандарт разборчивости DIN» . 2016.

[Hill-6] Хилл, Уилл (30 июня 2020 г.). «Глава 25: Типографика и печатный английский текст» (PDF) . Справочник Routledge по английской системе письма . Тейлор и Фрэнсис. п. 6. ISBN 9780367581565 . Типы, используемые Кэкстоном и его современниками, возникли в Голландии и Бельгии и не предусматривали дальнейшего использования элементов древнеанглийского алфавита, таких как шип <þ>, eth <ð> и yogh <ʒ>. Замена визуально схожих типографских форм привела к некоторым аномалиям, сохраняющимся и по сей день в перепечатке архаичных текстов и написании региональных слов. Широко неправильно понимаемое слово «ye» возникло из-за привычки использования принтеров, которая возникла во времена Кэкстона, когда принтеры заменяли <y> (часто сопровождаемую верхним индексом <e>) вместо шипа <þ> или eth <ð. >, оба из которых использовались для обозначения как звонких, так и незвонких звуков, /ð/ и /θ/ (Андерсон, Д. (1969) Искусство письменных форм. Нью-Йорк: Холт, Райнхарт и Уинстон, стр. 169). )

[7] «UTR № 36: Вопросы безопасности Unicode» . unicode.org .

[8] «Зарегистрируйте домен .CA на французском языке!» . Архивировано из оригинала 28 марта 2013 г. Проверено 29 марта 2013 г.

[9] «Архивы электронной почты ICANN: [idn-guidelines]» . форум.icann.org .

[10] ttps://governance.dev/phishing-domain-check , по состоянию на 12 февраля 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]