~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ E6612D3C90AD0B9234BCD4488DB40794__1718052900 ✰
Заголовок документа оригинал.:
✰ Homoglyph - Wikipedia ✰
Заголовок документа перевод.:
✰ Гомоглиф — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Homoglyph ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/e6/94/e6612d3c90ad0b9234bcd4488db40794.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/e6/94/e6612d3c90ad0b9234bcd4488db40794__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 20:49:33 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 10 June 2024, at 23:55 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Гомоглиф — Википедия Jump to content

Гомоглиф

Из Википедии, бесплатной энциклопедии
Гомоглифы
U+0061 ЛАТИНСКАЯ СТРОЧНАЯ БУКВА A и
U + 0430 СТРОЧНАЯ КИРИЛЛИЧЕСКАЯ БУКВА А. наложена На изображении оба символа написаны шрифтом Helvetica LT Std Roman.

В орфографии и типографике гомоглиф . — это одна из двух или более графем , символов или глифов , формы которых кажутся идентичными или очень похожими, но могут иметь разное значение Это обозначение также применяется к последовательностям символов, разделяющих эти свойства.

В 2008 году Консорциум Unicode опубликовал технический отчет № 36. [1] по ряду вопросов, вытекающих из визуального сходства символов как в отдельных сценариях, так и сходства между персонажами в разных сценариях.

Примерами гомоглифических символов являются (а) диэрезис и умляут (оба — пара точек, но с разным значением, хотя и закодированы одними и теми же кодовыми точками ); и (b) дефис и знак минус (оба — короткая горизонтальная черта, но с разным значением, хотя часто кодируются одной и той же кодовой точкой ). Среди цифр и букв цифра 1 и строчная буква l всегда кодируются отдельно, но во многих шрифтах используются очень похожие глифы, а цифра 0 и заглавная буква O всегда кодируются отдельно, но во многих шрифтах используются очень похожие глифы. Практически каждый пример гомоглифической пары символов потенциально может быть дифференцирован графически с помощью четко различимых глифов и отдельных кодовых точек, но это делается не всегда. Гарнитуры , в которых четко не различаются гомоглифы one/el и нуль/oh, считаются непригодными для написания формул , URL-адресов , исходного кода , идентификаторов и другого текста, символы которого не всегда можно различить без контекста . Шрифты, в которых глифы различаются с помощью например, перечеркнутый ноль предпочтителен для этих целей.

Связанные термины [ править ]

Термин «омограф» иногда неправильно используется как синоним гомоглифа, но в обычном лингвистическом смысле омографы — это слова , которые пишутся одинаково, но имеют разное значение, что является свойством слов, а не символов.

Аллографы — это варианты дизайна шрифта , которые выглядят по-разному, но означают одно и то же — например, ⟨g⟩ и ⟨g⟩ или знак доллара с одним или двумя штрихами. Термин «синоглиф» имеет похожее, но немного более абстрактное значение — например, символ ⟨£⟩ и буква ⟨L⟩ Lsd ) оба означают фунт стерлингов , [2] но только в этом контексте. Аллографы и синоглифы также неофициально известны как варианты отображения .

Умлаут и диарезис [ править ]

Во времена первых механических пишущих машинок их печатали с помощью одной и той же клавиши (с использованием техники «возврата и повторного ввода»), которая также использовалась для двойной кавычки. Однако умлаут возник именно как пара коротких вертикальных линий (а не двух точек) (см. Саттерлин ). Между прочим, две точки над буквой Е на албанском языке описываются как диарезис, но не выполняют функцию диарезиса. [3]

0 и О; 1, я и я [ править ]

Сегодня используются два распространенных и важных набора гомоглифов: цифра ноль и заглавная буква О (т. е. 0 и О); и цифра один, строчная буква L и прописная i (т. е. 1, l и I). На заре появления механических пишущих машинок между этими глифами было очень мало или совсем не было визуальной разницы, и машинистки рассматривали их как взаимозаменяемые сочетания клавиш. Фактически, на большинстве клавиатур даже не было клавиши для цифры «1», вместо этого пользователям требовалось набирать букву «l», а на некоторых также опускался 0. Когда в 1970-х и 1980-х годах эти же самые машинистки перешли на работу операторами компьютерной клавиатуры. , их старые привычки работы с клавиатурой остались с ними и время от времени были источником замешательства.

Большинство современных шрифтовых дизайнов тщательно различают эти гомоглифы, обычно делая цифру ноль более узкой, а цифру единицу — с заметными засечками . Ранние компьютерные распечатки пошли еще дальше и отметили ноль косой чертой или точкой, что привело к новому конфликту между скандинавской буквой « Ø » и греческой буквой Φ ( фи ). Изменение типов персонажей для различения этих персонажей привело к уменьшению путаницы. Степень, в которой два разных персонажа кажутся данному наблюдателю одинаковыми, называется «визуальным сходством». [4]

Некоторые типовые конструкции соответствуют стандарту разборчивости DIN 1450 за счет тщательного проектирования таких символов, чтобы их было легко отличить: ноль с косой чертой , чтобы отличить его от заглавной буквы О; строчная l с хвостиком и прописная I с засечками, чтобы отличить ее от цифры 1; отличие цифры 5 от заглавной S; и т. д. [5]

Пример путаницы из-за почти гомоглифов возник из-за использования буквы ⟨y⟩ для обозначения ⟨þ⟩ ( шипа ). Ранние английские наборщики импортировали голландские наборы, которые не содержали последний символ, поэтому вместо этого использовали букву ⟨y⟩, потому что (в шрифте Blackletter ) они выглядят достаточно похожими. [6] В наше время это привело к таким явлениям, как Ye olde shoppe , ошибочно подразумевая, что слово the раньше писалось ye / j / , а не þe . Написание имени Мензис (произносится как Менгис и первоначально писалось как Менциес ) возникло по той же причине: буква ⟨z⟩ была заменена на ⟨ş⟩ ( йог ).

Многобуквенные гомоглифы [ править ]

Буквы m и r+n в шрифтах Arial , Calibri , Times New Roman , Cambria , Walbaum - Fraktur и Comic Sans.
Святой Эфан Щотковский выглядит как Эфан Щотковский на надгробии.

Некоторые другие комбинации букв выглядят аналогично, например, rn похож на m , cl похож на d , а vv похож на w .

В некоторых шрифтах с узким интервалом (например, Tahoma ) размещение буквы c рядом с такой буквой, как j, l или i, создаст гомоглиф, например cj cl ci (gda).

Когда некоторые персонажи расположены рядом друг с другом и с первого взгляда смотрятся вместе, они создают визуальное впечатление другого, несвязанного персонажа. Точнее говоря, некоторые типографские лигатуры могут выглядеть как отдельные глифы. Например, фигура ( fi ) может выглядеть похожей на A в некоторых гарнитурах или шрифтах. Возможность возникновения путаницы иногда является аргументом против использования лигатур. [ нужна цитата ]

Гомоглифы Юникода [ править ]

Три наиболее известных европейских алфавита (греческий, кириллица и латиница) имеют много общих форм букв, которые закодированы в Юникоде под отдельными кодовыми точками.

В Unicode есть кодовые точки для многих строго гомоглифических символов, известных как «путанные символы». [1] Они представляют угрозу безопасности в различных ситуациях (рассмотрено в UTR#36). [7] и им было обращено особое внимание в отношении интернационализированных доменных имен . По крайней мере, теоретически можно намеренно подделать доменное имя, заменив один символ его гомоглифом, создав таким образом второе доменное имя, которое трудно отличить от первого, которое можно использовать в фишинге ( см. основную статью «Атака омографа IDN» ). Во многих шрифтах греческая к буква «А», кириллическая буква «А» и латинская буква «А» визуально идентичны, равно как и латинская буква «а» и кириллическая буква «а» (то же самое можно применить и латинские буквы «aBceHKopTxy» и кириллические буквы « аВсеНКорТху "). Доменное имя можно подделать, просто заменив одну из этих форм на другую в отдельно зарегистрированном имени. Также существует множество примеров почти гомоглифов внутри одного и того же алфавита, таких как 'í' (с острым ударением) и 'i', É (E-острый) и Ė (точка E выше) и È (E-могила), Í (с острым ударением) и ĺ (строчная L с острым ударением) При обсуждении этого конкретного вопроса безопасности любые два. последовательности сходных символов могут быть оценены с точки зрения их возможности быть принятыми за «пару гомоглифов», а если последовательности явно представляют собой слова, как за «псевдоомографы» (еще раз отметим, что эти термины сами по себе могут вызвать путаницу в других терминах). В китайском языке многие упрощенные китайские иероглифы являются гомоглифами соответствующих традиционных китайских иероглифов .

Усилия реестров TLD и разработчиков веб-браузеров направлены на минимизацию рисков гомоглифической путаницы. Обычно это достигается путем запрета имен, в которых смешаны наборы символов из нескольких языков ( toys-Я-us.org , использующий кириллическую букву Я , будет недействительным, но wíkipedia.org и wikipedia.org по-прежнему существуют как разные веб-сайты); Канадский реестр .ca идет еще дальше, требуя, чтобы имена, которые отличаются только диакритическими знаками, имели одного и того же владельца и одного и того же регистратора. [8] Обработка китайских иероглифов различается: в .org и .info регистрация одного варианта делает другой недоступным для всех, в то время как в .biz традиционные и упрощенные версии с тем же именем поставляются в виде пакета из двух доменов, оба из которых указывают на тот же сервер доменных имен .

Соответствующую документацию можно найти как на веб-сайтах разработчиков, так и на форуме IDN. [9] предоставлено ICANN .


В кириллице кириллица С не только выглядит как латиница C , но и занимает ту же кнопку в клавиатурах гибридной раскладки JCUKEN-QWERTY. Этот нюанс дизайна можно увидеть на кнопке C/С, представленной на Памятнике «Клавиатура» в Екатеринбурге .

Канонизация [ править ]

Гомоглифы всех видов можно обнаружить с помощью процесса, называемого «двойной канонизацией». [4] Первым шагом в этом процессе является идентификация наборов гомоглифов, а именно символов, которые кажутся одинаковыми для данного наблюдателя. Отсюда указывается один токен для представления набора гомоглифов. Этот токен называется каноном. Следующим шагом является преобразование каждого символа в тексте в соответствующий канон в процессе, называемом канонизацией . Если каноны двух фрагментов текста одинаковы, но исходный текст различен, то в тексте существует гомоглиф.

Предотвращение гомоглифа [ править ]

Атаки гомоглифов можно смягчить за счет сочетания осведомленности пользователей и превентивных мер. Крайне важно информировать пользователей о рисках, связанных с атаками на гомоглифы, призывая их тщательно проверять URL-адреса перед тем, как нажать на них. [10] Использование передовых решений безопасности, особенно тех, которые способны сканировать гомоглифические вариации в доменных именах, может автоматизировать обнаружение и предотвращение потенциальных угроз. Кроме того, внедрение строгой политики мониторинга и регистрации доменных имен может помочь быстро выявить и нейтрализовать риски, связанные с гомоглифами. Развивая культуру кибер-бдительности и используя передовые технологии, организации могут укрепить свою защиту от атак гомоглифа, обеспечивая более безопасную онлайн-среду.

См. также [ править ]


Ссылки [ править ]

  1. ^ Перейти обратно: а б «UTR № 36: Вопросы безопасности Unicode» . www.unicode.org .
  2. ^ Уолтон, Час (7 октября 2020 г.). «Руководство писателя по диакритическим знакам и специальным символам» . Текстовый мастер .
  3. ^ Описание их как гомоглифов сомнительно, поскольку, вероятно, не существует языков, в которых глиф мог бы выполнять обе эти роли. Было бы так же правильно описать, скажем, серьезный акцент как гомоглиф, поскольку в разных языках он выполняет разные роли.
  4. ^ Перейти обратно: а б Хелфрих, Джеймс; Нефф, Рик (2012). «Двойная канонизация: ответ на атаку омографов». 2012 г. преступности Саммит исследователей , Саммит исследователей электронной преступности (eCrime), 2012. стр. 1–10. дои : 10.1109/eCrime.2012.6489517 . ISBN  978-1-4673-2543-1 .
  5. ^ Найджел Тао, Чак Бигелоу и Роб Пайк. Шрифты Go: Стандарт разборчивости DIN» . 2016.
  6. ^ Хилл, Уилл (30 июня 2020 г.). «Глава 25: Типографика и печатный английский текст» (PDF) . Справочник Routledge по английской системе письма . Тейлор и Фрэнсис. п. 6. ISBN  9780367581565 . Типы, используемые Кэкстоном и его современниками, возникли в Голландии и Бельгии и не предусматривали дальнейшего использования элементов древнеанглийского алфавита, таких как шип <þ>, eth <ð> и yogh <ʒ>. Замена визуально схожих типографских форм привела к некоторым аномалиям, сохраняющимся и по сей день в перепечатке архаичных текстов и написании региональных слов. Широко неправильно понимаемое слово «ye» возникло из-за привычки использования принтеров, которая возникла во времена Кэкстона, когда принтеры заменяли <y> (часто сопровождаемую верхним индексом <e>) вместо шипа <þ> или eth <ð. >, оба из которых использовались для обозначения как звонких, так и незвонких звуков, /ð/ и /θ/ (Андерсон, Д. (1969) Искусство письменных форм. Нью-Йорк: Холт, Райнхарт и Уинстон, стр. 169). )
  7. ^ «UTR № 36: Вопросы безопасности Unicode» . unicode.org .
  8. ^ «Зарегистрируйте домен .CA на французском языке!» . Архивировано из оригинала 28 марта 2013 г. Проверено 29 марта 2013 г.
  9. ^ «Архивы электронной почты ICANN: [idn-guidelines]» . форум.icann.org .
  10. ^ https://governance.dev/phishing-domain-check , по состоянию на 12 февраля 2024 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: E6612D3C90AD0B9234BCD4488DB40794__1718052900
URL1:https://en.wikipedia.org/wiki/Homoglyph
Заголовок, (Title) документа по адресу, URL1:
Homoglyph - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)