Ввод Юникода
Ввод Юникода определенного символа Юникода на компьютер — это вставка пользователем ; это распространенный способ ввода символов, который напрямую не поддерживается физической клавиатурой . Символы Юникода можно создавать либо путем их выбора на дисплее, либо путем ввода определенной последовательности клавиш на физической клавиатуре. Кроме того, символ, созданный одним из этих методов на одной веб-странице или в документе, можно скопировать на другую. В отличие от ASCII из 96 элементов набора символов (который он содержит), Unicode кодирует сотни тысяч графем (символов) практически из всех письменных языков мира, а также многих других знаков и символов. [1] [ нужен лучший источник ]
Система ввода Unicode должна обеспечивать большой набор символов, в идеале — все допустимые кодовые точки Unicode. Это отличается от раскладки клавиатуры , которая определяет клавиши и их комбинации только для ограниченного числа символов, соответствующих определенной локали .
Числа Юникода
[ редактировать ]Символы Юникода различаются кодовыми точками , которые обычно обозначаются буквой «U+», за которой следуют четыре, пять или шесть шестнадцатеричных цифр , например U+00AE или U+1D310. Символы базовой многоязычной плоскости (BMP), содержащие современные сценарии , включая множество китайских и японских иероглифов, а также множество символов, имеют 4-значный код. Исторические сценарии, а также многие современные символы и пиктограммы (например, смайлики , эмодзи , игральные карты и многие символы CJK ) имеют 5-значные коды.
Доступность глифа
[ редактировать ]Глиф 0 должен быть назначен глифу .notdef. Глиф .notdef очень важен для предоставления пользователю информации о том, что глиф не найден в шрифте. Этот глиф не следует оставлять без контура, поскольку пользователь увидит то, что выглядит как пробел, только в том случае, если глиф отсутствует, и не будет знать об ограничениях активного шрифта. [2]
Рекомендации по шрифтам OpenType (Microsoft.com)
Приложение может отображать символ только в том случае, если оно имеет доступ к компьютерному шрифту , содержащему глиф для этого символа. [3] Шрифты обычно имеют неполное покрытие Unicode; большинство из них содержат только глифы, необходимые для поддержки нескольких систем письма . Однако большинство современных браузеров и других приложений для обработки текста способны отображать многоязычный контент, поскольку они выполняют замену шрифта , автоматически переключаясь на резервный шрифт, когда это необходимо для отображения символов, которые не поддерживаются текущим шрифтом. Какие шрифты используются в качестве резервных, а степень охвата Юникода зависит от программного обеспечения и операционной системы; Некоторые программы будут искать подходящий глиф во всех установленных шрифтах, другие — только в определенных шрифтах.
Если приложение не имеет доступа к глифу, этот символ обычно отображается как шрифт шрифта. .notdef
символ ⟨鏿⟩ , который часто появляется в виде пустой коробки ☐ (названной « тофу » в зависимости от формы), коробки с X внутри, ☒, ромба с вопросительным знаком � или коробки с вопросительным знаком в нем ⍰.
Техники
[ редактировать ]Расширенное отображение клавиатуры
[ редактировать ]Большинство операционных систем поддерживают расширенную раскладку клавиатуры – возможность увеличить набор доступных символов с помощью таких методов, как альтернативная графика («AltGr»), которая придает каждой клавише третье и четвертое значение; Клавиша создания (иногда называемая мультиклавишой ), клавиша на клавиатуре компьютера , которая указывает, что следующие (обычно 2 или более) нажатия клавиш вызывают вставку альтернативного символа, обычно заранее составленного символа или символа; [4] мертвые клавиши, обычно используемые для присоединения определенного диакритического знака к базовой букве ; [5] или даже их комбинации.
Эти методы облегчают ввод наборов символов, выходящих за рамки базового набора, поставляемого в стандартной комплектации компьютера.
Выбор с экрана
[ редактировать ]Многие системы предоставляют возможность визуального выбора символов Юникода. В ISO/IEC 14755 это называется методом ввода с помощью экрана . [6]
Microsoft Windows предоставила версию программы «Карта символов» в формате Unicode , которая появляется в потребительской версии начиная с XP. Это ограничено символами в базовой многоязычной плоскости (BMP). Символы доступны для поиска по имени символа Юникода, а таблица может быть ограничена определенным блоком кода. [7] Начиная с Windows 10, Microsoft Windows также содержит так называемую «клавиатуру эмодзи». Его можно запустить, удерживая клавишу Windows (та, на которой есть символ Windows) и нажав клавишу точки или точки с запятой. Клавиатура эмодзи позволяет вводить как эмодзи, так и символы. [8]
Также доступны более продвинутые сторонние инструменты того же типа (примечательным примером бесплатного ПО является BabelMap , который поддерживает все символы Юникода). В большинстве сред рабочего стола Linux эквивалентные инструменты, такие как gucharmap (GNOME) или kcharselect (KDE). доступны [9]
Обычно эти инструменты позволяют пользователю «копировать» выбранные символы в буфер обмена, а затем вставлять их в документ, а не притворяться, что они вводятся напрямую.
Часто бывает практично просто найти нужный символ в Интернете или в другом документе, скопировать и вставить его оттуда.
Десятичный ввод (альтернативные коды)
[ редактировать ]Некоторые программы, работающие в Microsoft Windows , включая последние версии Word и Notepad , могут создавать символы из их кодовых точек Unicode, выраженные в десятичном формате и вводимые на цифровой клавиатуре с помощью Alt ключ удерживался. Например, знак евро € имеет шестнадцатеричный код 20AC, что в десятичном виде равно 8364, поэтому Alt+ 8364 создаст символ. Сходным образом, Alt+ 120132 создает двойной штрих ( жирный шрифт на доске ) 𝕄 .
Десятичные кодовые точки в диапазоне 160–255 необходимо вводить с начальным нулем (чтобы была выбрана кодовая страница Windows ), и, кроме того, кодовая страница Windows должна быть установлена в соответствии с Unicode ( CP1252) . необходимо использовать [а] ). Например, Alt+ 0247 дает ÷ , соответствующий его кодовой точке, но символ, созданный Alt+ 247 зависит от кодовой страницы OEM , например кодовой страницы 437 , и может давать ≈ . Также Alt+ 0128 через Alt+ 0159 выдают символы, назначенные в строках 8 и 9 в макете CP1252 , а не управляющие коды C1 , которые назначены этим числам в Юникоде.
В программах, которые не предназначены для обработки кодов Alt больше 255, полученный символ обычно соответствует остатку от деления числа на 256. [ нужна ссылка ]
Текстовый редактор Vim позволяет задавать символы с помощью двухсимвольной мнемоники, называемой орграфами . Установленный набор может быть дополнен пользовательскими мнемониками, определенными для произвольных кодовых точек, указанных в десятичном формате. Например, десятичное число 9881 равно шестнадцатеричному числу 2699, dig Gr 9881
ассоциирует «Гр» с U+2699 ⚙ МЕХАНИЗМ .
описано Ниже использование десятичных кодов в HTML.
Шестнадцатеричный ввод
[ редактировать ]В пункте 5.1 стандарта ISO/IEC 14755 описан базовый метод , при котором за начальной последовательностью следует шестнадцатеричное представление кодовой точки и конечной последовательности . В большинстве современных систем есть какой-то метод для имитации этого, иногда ограниченный четырьмя цифрами (то есть только базовая многоязычная плоскость ).
В Microsoft Windows
[ редактировать ]Шестнадцатеричный ввод Юникода можно включить, добавив значение строкового типа (REG_SZ), называемое EnableHexNumpad
к реестра ключу HKEY_CURRENT_USER\Control Panel\Input Method
и присвоение данных значения 1
к этому. Пользователям необходимо будет выйти из системы и снова войти в нее после редактирования реестра, чтобы этот метод ввода начал работать. (В версиях, предшествующих Vista, пользователям требовалась перезагрузка, чтобы система начала работать.)
Затем символы Юникода можно вводить, удерживая нажатой Altи набрав + на цифровой клавиатуре, затем введите шестнадцатеричный код, а затем отпустите Alt. [3] Это может не работать для 5-значных шестнадцатеричных кодов, таких как U+1F937
. В некоторых версиях Windows может потребоваться ввод цифр 0–9 на цифровой клавиатуре или включение NumLock. [ нужна ссылка ]
В некоторых приложениях ( программы Word , Notepad и LibreOffice ) Alt+ X заменит шестнадцатеричное число слева от курсора соответствующим символом Юникода. Коду не должны предшествовать никакие цифры или буквы a–f, если только он не состоит из шести шестнадцатеричных цифр, поскольку они могут рассматриваться как часть преобразуемого кода. Например, вводя af1
с последующим Alt+ X (или Alt+ C при использовании французской версии) выдаст «૱» (U+0AF1), но при вводе a0000f1
с последующим Alt+ X выдаст «añ» («a», за которым следует символ U+00F1).
Эта возможность позволяет вводить символы Юникода в других приложениях: можно, например, создать нужный символ в Блокноте, а затем вырезать и вставить его куда угодно.
В MacOS
[ редактировать ]Должен быть включен шестнадцатеричный ввод Юникода. В Mac OS 8.5 и более поздних версиях можно выбрать раскладку клавиатуры шестнадцатеричного ввода Unicode ; в OS X (10.10) Yosemite это можно добавить в разделе «Клавиатура» → «Источники ввода».
Удерживая ⌥ Option, вы вводите четырехзначный шестнадцатеричный код Unicode, и появляется эквивалентный символ; затем можно освободить ⌥ Option ключ. [10] Символы за пределами BMP (базовая многоязычная плоскость) превышают четырехзначный предел механизма шестнадцатеричного ввода Unicode, но их можно вводить с помощью суррогатных пар : удерживая кнопку ⌥ Option ключ при вводе первого суррогата, +, второй заместитель, а затем отпустите клавишу Option.
В X11 (Linux и другие варианты Unix, включая ChromeOS)
[ редактировать ]Во многих приложениях для прямого ввода символов Юникода работает один или оба следующих метода:
- Холдинг Ctrl+ ⇧ Shift и печатаю u затем шестнадцатеричные цифры, а затем отпустить Ctrl+ ⇧ Shift.
- Вход Ctrl+ ⇧ Shift+ u, отпустив, затем набрав шестнадцатеричные цифры и нажав ↵ Enter (или Space или даже, в некоторых системах, нажатие и отпускание ⇧ Shift или Ctrl). [11]
Это поддерживается приложениями GTK и Qt и, возможно, другими. В ChromeOS это функция операционной системы. [11]
В платформенно-независимых приложениях
[ редактировать ]- В Эмаксе Ctrl+ x8Return призывает
insert-char
команда, которая принимает ввод либо через шестнадцатеричный код, либо через имя символа Юникода. - В LibreOffice 5.1 и более поздних версиях Alt+ X метод, описанный выше для Windows, работает.
- В версиях Opera , использующих механизм компоновки Presto , т. е. до версии 12.xx включительно, введите шестнадцатеричное число нужного символа или символа, а затем нажмите Ctrl+ ⇧ Shift+ x (альтернативный ярлык Meta+ ⇧ Shift+ + x где macOS ).
- В редакторе Vim в режиме вставки пользователь сначала вводит Ctrl+ V u (для кодов длиной до 4 шестнадцатеричных цифр; используя Ctrl+ V ⇧ Shift+ U дольше), затем введите шестнадцатеричное число нужного символа или символа, и он будет преобразован в символ. (В Microsoft Windows Ctrl+ Q может потребоваться вместо Ctrl+ V. [12] )
- В Автокад
\U2300
или три ярлыка%%c
,%%d
,%%p
.
HTML
[ редактировать ]В HTML и XML коды символов, отображаемые как символы, начинаются с амперсанда и знака номера (&#), а за ними следует точка с запятой (;). Кодовая точка может быть как десятичной , так и шестнадцатеричной ; в последнем случае ему предшествует «x». Ведущие нули могут быть опущены. Ряд символов может быть представлен именованным объектом .
Пример: В HTML/XML знак авторского права © ( U+00A9
) может быть закодировано как:
©
(десятичный код)©
(шестнадцатеричный код)©
(название объекта)
Это работает во многих программах, поддерживающих HTML-разметку, таких как Thunderbird и редактирование Википедии.
См. также
[ редактировать ]Примечания
[ редактировать ]Ссылки
[ редактировать ]- ^ Лафонтен, Сильвен (17 февраля 2012 г.). «Разница и преимущества Unicode и ASCII» . MSDN . Проверено 28 февраля 2014 г.
- ^ «Рекомендации по шрифтам OpenType» . Microsoft.com.
- ^ Перейти обратно: а б Эндрю Маркузе, «Как вводить символы Юникода в Microsoft Windows» . Дата доступа: 13 сентября 2012 г.
- ^ «Текстовые символы клавиатуры Linux: сочетания клавиш для ввода» . FSymbols . 24 июля 2013 г. Проверено 7 июля 2015 г.
- ^ «Мертвый ключ | Определение мертвого ключа от Merriam-Webster» . Merriam-webster.com . Проверено 1 мая 2017 г.
- ^ «ISO/IEC 14755:1997 Информационные технологии. Методы ввода символов из набора ISO/IEC 10646 с помощью клавиатуры или другого устройства ввода» . ИСО . Проверено 14 октября 2017 г.
- ^ «Как использовать специальные символы в документах Windows» . support.microsoft.com . 31 июля 2019 г. Проверено 17 октября 2020 г.
- ^ «Совет для Windows 10: начните с сочетания клавиш с эмодзи» . blogs.windows.com . 5 февраля 2018 г. Проверено 4 июня 2024 г.
- ^ Пек, Аккана (25 ноября 2009 г.). «Освоение наборов символов в Linux (Странные персонажи, часть 2)» . ЛинуксПланета . Архивировано из оригинала 26 ноября 2010 г. Проверено 5 декабря 2018 г.
- ^ Ввод специальных символов и символов с акцентом. Архивировано 9 марта 2008 г. в Wayback Machine.
- ^ Перейти обратно: а б Джек Буш (20 апреля 2018 г.). «Введите специальные символы с помощью Chromebook (акценты, символы, тире)» . groovypost.com . Проверено 28 февраля 2020 г.
- ^ Документация Vim: gui_w32