Пробелный символ
Символ пробела — это символьный элемент данных , который представляет пробел при текста вводе . визуализируется для отображения на компьютере .
Например, пробел ( U+0020 ПРОБЕЛ , ASCII 32) представляет собой пробел , например разделитель слов в западном алфавите .
приводит Печатаемый символ к выводу при рендеринге, но символ пробела - нет. Вместо этого символы пробелов в ограниченной степени определяют расположение текста, нарушая обычную последовательность отображения символов рядом друг с другом. Вывод последующих символов обычно смещается вправо (или влево для сценария с письмом справа налево ) или к началу следующей строки. Эффект от нескольких последовательных символов пробелов является накопительным, так что следующий печатаемый символ отображается в месте, основанном на накопленном эффекте предыдущих символов пробелов.
Термин «пробелы» уходит корнями в общепринятую практику отображения текста на белой бумаге . Обычно пробельный символ не отображается как белый. Он влияет на рендеринг, но сам не рендерится.
Обзор [ править ]
![](http://upload.wikimedia.org/wikipedia/commons/thumb/2/2a/Punctuation-Spaces.svg/170px-Punctuation-Spaces.svg.png)
Символ пробела обычно вставляет горизонтальное пространство шириной примерно с букву. Для моноширинного шрифта ширина равна ширине буквы, а для шрифта переменной ширины ширина зависит от шрифта. Некоторые шрифты поддерживают несколько пробелов разной ширины.
Символ табуляции обычно вставляет горизонтальное пространство, основанное на позициях табуляции , которые различаются в зависимости от приложения .
Последовательность символов новой строки обычно перемещает место вывода рендеринга в начало следующей строки. Если следовать за текстом, это фактически не приводит к появлению пробелов. Но две последовательные последовательности новой строки между текстовыми блоками приводят к появлению пустой строки между блоками. Высота пустой строки зависит от приложения.
Использование пробелов для компоновки текста является общепринятым . Приложения иногда отображают пробельные символы как видимую разметку, чтобы пользователь мог видеть то, что обычно не видно.
Обычно пользователь вводит пробел, нажимая spacebar, символ табуляции, нажав Tab ↹ и новую строку, нажав ↵ Enter.
Юникод [ править ]
В таблице ниже перечислены двадцать пять символов, определенных как пробелы («WSpace=Y», «WS») в базе данных символов Юникода . [1] Семнадцать используют определение пробелов, соответствующее алгоритму двунаправленной записи («Тип двунаправленного символа = WS»), и известны как символы «Bidi-WS». Остальные символы также можно использовать, но они не относятся к типу «Биди».
Примечание. В зависимости от браузера и шрифтов, используемых для просмотра следующей таблицы, не все пробелы могут отображаться правильно.
Имя | Кодовая точка | Ширина коробки | Может сломаться ? | В ИДН ? |
Скрипт | Блокировать | Общий категория |
Примечания | |
---|---|---|---|---|---|---|---|---|---|
табуляция символов | U + 0009 | 9 | Да | Нет | Общий | Базовая латынь | Другой, контроль |
HT, горизонтальная вкладка . HTML/XML Именованный объект : 	 , Латекс : \tab , C escape: \t
| |
перевод строки | U + 000A | 10 | Это разрыв строки | Общий | Базовая латынь | Другой, контроль |
НЧ, перевод строки . Именованный объект HTML/XML: 
 , C escape: \n
| ||
табуляция строк | U + 000B | 11 | Это разрыв строки | Общий | Базовая латынь | Другой, контроль |
VT, Вертикальная вкладка . С побег: \v
| ||
подача формы | U+000C | 12 | Это разрыв строки | Общий | Базовая латынь | Другой, контроль |
FF, подача формы . С побегом: \f
| ||
возврат каретки | U + 000D | 13 | Это разрыв строки | Общий | Базовая латынь | Другой, контроль |
CR, Возврат каретки . С побег: \r
| ||
космос | U + 0020 | 32 | Да | Нет | Общий | Базовая латынь | Разделитель, космос |
Наиболее распространенный (обычное пространство ASCII). Латекс: \
| |
следующая строка | U + 0085 | 133 | Это разрыв строки | Общий | Латиница-1 Добавка |
Другой, контроль |
НЭЛ, Следующая строка . Латекс: \\
| ||
пространство без перерыва | U + 00A0 | 160 | Нет | Нет | Общий | Латиница-1 Добавка |
Разделитель, космос |
Неразрывное пространство : идентично U+0020, но не является точкой, в которой строка может быть разорвана. Именованный объект HTML/XML: ,   , Латекс: ~
| |
знак пробела в огаме | U + 1680 | 5760 | Да | Нет | Огам | Огам | Разделитель, космос |
Используется для разделения слов в огама тексте . Обычно это вертикальная линия в вертикальном тексте или горизонтальная линия в горизонтальном тексте, но также может быть пробелом в шрифтах без ножки. Требуется шрифт Ogham. | |
Квадроцикл | U+2000 | 8192 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Ширина одного en . U+2002 канонически эквивалентен этому символу; Предпочтителен U+2002. | |
вчетвером | В +2001 | 8193 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Также известен как «бараний квадрокоптер». Ширина одного em . U+2003 канонически эквивалентен этому символу; Предпочтителен U+2003. | |
в космосе | В +2002 г. | 8194 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Также известен как «орех». Ширина одного en . U+2000 En Quad канонически эквивалентен этому символу; Предпочтителен U+2002. Именованный объект HTML/XML:   , Латекс: \enspace (пробел LaTeX en — это неразрывный пробел)
| |
космос | В +2003 г. | 8195 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Также известен как «баранина». Ширина одного em . U+2001 Em Quad канонически эквивалентен этому персонажу; Предпочтителен U+2003. Именованный объект HTML/XML:   , Латекс: \quad
| |
трехмерное пространство | В +2004 г. | 8196 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Также известно как «густое пространство». Ширина одной трети метра. Именованный объект HTML/XML:   , Латекс: \; (толстое пространство LaTeX — это неразрывное пространство)
| |
четырехмерное пространство | В +2005 г. | 8197 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Также известен как «средний космос». Одна четверть метра в ширину. Именованный объект HTML/XML:  
| |
шестиместное пространство | В +2006 г. | 8198 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Ширина одной шестой метра. В компьютерной типографике иногда приравнивается к U+2009. | |
фигура пространства | В +2007 г. | 8199 | Нет | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Фигурное пространство . В шрифтах с моноширинными цифрами, равными ширине одной цифры. Именованный объект HTML/XML:  
| |
место пунктуации | В +2008 г. | 8200 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Шириной, как узкий знак пунктуации в шрифте, т. е. ширина точки или запятой. [2] Именованный объект HTML/XML:  
| |
тонкое пространство | В +2009 г. | 8201 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Тонкое пространство ; одна пятая (иногда одна шестая) ширины em. Рекомендуется использовать в качестве разделителя тысяч для единиц измерения СИ . В отличие от U+2002–U+2008, его ширину можно регулировать при наборе текста. [3] Именованный объект HTML/XML:   ,   , Латекс: \, (тонкое пространство LaTeX представляет собой непрерывное пространство)
| |
пространство для волос | У + 200А | 8202 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Тоньше тонкого пространства. Именованный объект HTML/XML:   ,  
| |
разделитель строк | U + 2028 | 8232 | Это разрыв строки | Общий | Общий Пунктуация |
Разделитель, линия |
|||
разделитель абзацев | U + 2029 | 8233 | Это разрыв строки | Общий | Общий Пунктуация |
Разделитель, параграф |
|||
узкое неразрывное пространство | U + 202F | 8239 | Нет | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
Узкое неразрывное пространство . По функциям аналогичен безразрывному пробелу U+00A0. При использовании с монгольским языком его ширина обычно составляет одну треть обычного пространства; в другом контексте его ширина иногда напоминает ширину Тонкого Пространства (U+2009). Латекс: \,
| |
среднее математическое пространство | U + 205F | 8287 | Да | Нет | Общий | Общий Пунктуация |
Разделитель, космос |
ММСП. Используется в математических формулах. Четыре восемнадцатых эм. [4] В математической типографике ширина пробелов обычно задается целыми кратными восемнадцатой em, и 4/18 em может использоваться в нескольких ситуациях, например, между a и + и между + и b в выражение а+б . [5] Именованный объект HTML/XML:   , Латекс: \: (среднее пространство LaTeX является неразрывным)
| |
идеографическое пространство | U+3000 | 12288 | Да | Нет | Общий | Символы CJK и Пунктуация |
Разделитель, космос |
Ширина такой же, как символьная ячейка CJK ( полная ширина ). Используется, например, в тай тоу . |
Имя | Кодовая точка | Ширина коробки | Может сломаться ? | В ИДН ? |
Скрипт | Блокировать | Общий категория |
Примечания | |
---|---|---|---|---|---|---|---|---|---|
монгольский разделитель гласных | U + 180E | 6158 | | Да | Нет | Монгольский | Монгольский | Другой, Формат |
МВС. Символ узкого пробела, используемый в монгольском языке для того, чтобы последние два символа слова принимали разную форму. [6] Он больше не классифицируется как пробельный символ (т. е. в категории Zs) в Unicode 6.3.0, хотя в предыдущих версиях стандарта он был. |
пространство нулевой ширины | U + 200B | 8203 | Да | Нет | ? | Общий Пунктуация |
Другой, Формат |
ZWSP, пространство нулевой ширины . Используется для обозначения границ слов в системах обработки текста при использовании сценариев, в которых не используются явные пробелы. Он похож на мягкий дефис с той разницей, что последний используется для обозначения границ слогов и должен отображать видимый дефис, когда строка разрывается на нем. HTML/XML Именованный объект : ​ [7] [с]
| |
нулевая ширина | U+200C | 8204 | | Да | Контекстно-зависимый [12] | ? | Общий Пунктуация |
Другой, Формат |
ZWNJ, необъединяемый элемент нулевой ширины . При размещении между двумя символами, которые в противном случае были бы соединены, ZWNJ заставляет их печатать в конечной и начальной формах соответственно. Именованный объект HTML/XML: ‌
|
Столяр нулевой ширины | U + 200D | 8205 | | Да | Контекстно-зависимый [13] | ? | Общий Пунктуация |
Другой, Формат |
ZWJ, соединитель нулевой ширины . При размещении между двумя символами, которые в противном случае не были бы соединены, ZWJ заставляет их печатать в связанных формах. Также может использоваться для изолированного отображения форм соединения. В зависимости от того, ожидается ли по умолчанию лигатура или соединение, может либо вызывать (как в эмодзи и в сингальском языке ), либо подавлять (как в деванагари ) замену одним глифом, при этом позволяя использовать отдельные формы соединения (в отличие от ZWNJ). Именованный объект HTML/XML: ‍
|
словосочетание | U + 2060 | 8288 | | Нет | Нет | ? | Общий Пунктуация |
Другой, Формат |
WJ, столяр слов . Аналогично U+200B, но не является точкой, в которой линия может быть прервана. Именованный объект HTML/XML: ⁠
|
неразрывное пространство нулевой ширины | U+FEFF | 65279 | | Нет | Нет | ? | арабский Презентация Формы-Б |
Другой, Формат |
Неразрывное пространство нулевой ширины . Используется в основном как знак порядка байтов . Использование в качестве обозначения неразрывности устарело начиная с Unicode 3.2; вместо этого см. U + 2060. |
|
Заменить изображения [ править ]
Unicode также предоставляет некоторые видимые символы, которые можно использовать для обозначения различных символов пробелов в контекстах, где видимый символ должен отображаться:
Код | Десятичная дробь | Имя | Блокировать | Отображать | Описание |
---|---|---|---|---|---|
U + 00B7 | 183 | Средняя точка | Дополнение Latin-1 | · | Интерпункт Именованный объект: ·
|
U + 21A1 | 8609 | Двунаправленная стрелка вниз | Стрелки | ↡ | Символ ECMA-17/ ISO 2047 для перевода страницы (разрыв страницы) [15] |
U + 2261 | 8810 | Идентичен | Математический Операторы |
≡ | Среди прочего, это символ ECMA-17 / ISO 2047 для перевода строки. [15] |
U + 237D | 9085 | Открытая коробка с плечами | Разное техническое | ⍽ | Используется для обозначения NBSP |
U + 23CE | 9166 | Символ возврата | Разное техническое | ⏎ | Символ клавиши возврата , которая вводит разрыв строки |
U + 2409 | 9225 | Символ горизонтальной таблицы | Контрольные изображения | ␉ | Заменители символа табуляции |
U + 240А | 9226 | Символ перевода строки | Контрольные изображения | ␊ | Заменители перевода строки |
U + 240B | 9227 | Символ вертикальной таблицы | Контрольные изображения | ␋ | Заменители вертикальной табуляции (строчной табуляции) |
U+240C | 9228 | Символ подачи формы | Контрольные изображения | ␌ | Заменители подачи формы (разрыв страницы) |
U + 240D | 9229 | Символ возврата каретки | Контрольные изображения | ␍ | Заменители возврата каретки |
U + 2420 | 9248 | Символ космоса | Контрольные изображения | ␠ | Заменители пробела ASCII |
U + 2422 | 9250 | Пустой символ | Контрольные изображения | ␢ | он же «заменить пробел», [16] используется в BCDIC , [16] EBCDIC , [16] ASCII-1963 [16] [17] и т. д. как символ разделителя слов |
U + 2423 | 9251 | Открытая коробка | Контрольные изображения | ␣ | Используется в рукописном вводе печатными буквами , по крайней мере, с 1980-х годов, когда необходимо явно указать количество пробельных символов (например, при программировании с помощью ручки и бумаги). Используется в учебнике (опубликованном в 1982, 1984, 1985, 1988 годах издательством Springer-Verlag) по Модуле-2 , [18] язык программирования, в котором пространственные коды требуют явного указания. Также используется в клавиатуре [n 1] компании -8 x TI серии графических калькуляторов Texas Instruments . Именованный объект: ␣
|
U + 2424 | 9252 | Символ новой строки | Контрольные изображения |  | Заменители разрыва строки |
U + 25B3 | 9651 | Белый треугольник вершиной вверх | Геометрические фигуры | △ | Среди прочего используется символ ECMA-17 / ISO 2047 для пространства ASCII. [15] |
U + 2A5B | 10843 | Логическое или со средним стеблем | Дополнительный Математический Операторы |
⩛ | Среди прочего используется символ ECMA-17 / ISO 2047 для вертикальной табуляции (строчной табуляции). [15] |
U + 2ААА | 10922 | Меньше чем | Дополнительный Математический Операторы |
⪪ | Среди прочего используется символ ECMA-17 / ISO 2047 для возврата каретки. [15] |
U + 2AAB | 10923 | Больше, чем | Дополнительный Математический Операторы |
⪫ | Среди прочего, это символ ECMA-17 / ISO 2047 для символа табуляции. [15] |
U + 3037 | 12343 | Идеографический перевод строки телеграфа Символ разделителя |
Символы CJK и пунктуация |
〷 | Изображение, используемое для кода 9999 в китайском телеграфном коде , обозначающее перевод строки. |
- ^ Над нулевой клавишей «0» или отрицательной клавишей «(‒)».
- Точное пространство
- Cambridge Z88 предоставил специальное «точное пространство» (кодовая точка 160, также известное как 0xA0) (вызываемое сочетанием клавиш). ⌑+ SPACE[19] ), отображается как «…» драйвером дисплея операционной системы. [20] [21] Поэтому он также был известен как «точечное пространство» в сочетании с BBC BASIC . [20] [21]
- Под кодовой точкой 224 (0xE0) компьютер также предоставил специальный символ ПРОБЕЛ шириной в три символа.
"SPC"
(аналог U+2420 для одной ячейки Unicode). [20] [21]
Пробелы без пробелов [ править ]
- » Блок Юникода «Шаблоны Брайля содержит U+2800 ⠀ ПУСТОЙ ШАБЛОН БРАЙЛЯ , образец Брайля без выступающих точек. Некоторые шрифты отображают символ как пробел фиксированной ширины, однако стандарт Unicode прямо указывает, что он не действует как пробел. [22]
- в Юникоде Охват корейского алфавита включает несколько кодовых точек, которые обозначают отсутствие письменной буквы и, следовательно, не отображают глиф:
- Юникод включает символ -заполнитель хангыля в блок Jamo совместимости с хангылем ( U + 3164 ㅤ ХАНГУЛЬНЫЙ НАПОЛНИТЕЛЬ ). Это классифицируется как буква, но отображается как пустое место, как блок хангыль, не содержащий джамо. Он используется в комбинирующих последовательностях хангыль KS X 1001 для их введения или обозначения отсутствия буквы в позиции, но не в комбинирующей системе джамо Unicode. [23]
- Комбинированная система джамо Unicode использует аналогичные символы Hangul Choseong Filler и Hangul Jungseong Filler для обозначения отсутствия буквы в начальной или средней позиции внутри блока слогов, которые включены в блок Hangul Jamo ( U + 115F ᅟ HANGUL CHOSEONG FILLER , U+1160 ᅠ ХАНГЫЛЬ ЧОНСОН ФИЛЛЕР ). [24]
- Кроме того, заполнитель хангыль половинной ширины включен в формы половинной и полной ширины ( U+FFA0 ᅠ HALFWIDTH HANGUL FILLER ), который используется при сопоставлении кодировок, включающих символы как Johab (или Wansung ), так и N-байтового Hangul (или его аналога EBCDIC ), например IBM-933, который включает в себя как Johab, так и EBCDIC. наполнители. [25] [26]
Пробелы и цифровая типографика [ править ]
![](http://upload.wikimedia.org/wikipedia/commons/thumb/6/61/Traditional_spacing_examples_from_the_1911_Chicago_Manual_of_Style.png/170px-Traditional_spacing_examples_from_the_1911_Chicago_Manual_of_Style.png)
Экранное меню [ править ]
Текстовые редакторы , текстовые процессоры и настольные издательские программы различаются тем, как они представляют пробелы на экране и как они представляют пробелы на концах строк, длина которых превышает ширину экрана или столбца. В некоторых случаях пробелы отображаются просто как пустое пространство; в других случаях они могут быть представлены интерпунктом или другими символами. Для создания пробелов можно использовать множество различных символов (описанных ниже), а несимвольные функции (такие как поля и настройки табуляции) также могут влиять на пробелы.
Многие пробельные символы Юникода были созданы для совместимости с классической печатной типографикой. [27]
Даже если цифровая типографика имеет алгоритмический кернинг и выравнивание, эти пробелы при необходимости можно использовать для дополнения электронного форматирования.
Пространство общего назначения переменной ширины [ править ]
В компьютерных кодировках символов имеется обычное пространство общего назначения (символ Юникода U+0020), ширина которого зависит от конструкции шрифта. Типичные значения варьируются от 1/5 em до 1/3 em (в цифровой типографике em равен номинальному размеру шрифта, поэтому для шрифта размером 10 пунктов пространство, вероятно, будет составлять от 2 до 3,3 пункта). Сложные шрифты могут иметь пробелы разного размера для жирного, курсива и прописных букв, и часто наборщики вручную регулируют ширину пробела в зависимости от размера и заметности текста.
В дополнение к этому пространству общего назначения можно закодировать пространство определенной ширины. Полный список смотрите в таблице ниже.
Волосы вокруг тире [ править ]
Длинные тире , используемые в качестве разделителей в скобках, и длинные тире , используемые в качестве соединителей слов, обычно непрерывны по тексту. [28] Однако такое тире может быть дополнительно окружено пробелом U+200A или тонким пробелом U+2009. Пространство для волос можно записать в HTML, используя числовые ссылки на символы.  
или  
, или названный объект  
, но по состоянию на 2016 год он еще не поддерживается в браузерах повсеместно. [update][ нужно обновить ] Тонкое пространство называется сущностью  
и числовые ссылки  
или  
. Эти пробелы намного тоньше, чем обычное пространство (за исключением моноширинного (непропорционального) шрифта ), причем пространство для волос, в частности, является самым тонким из горизонтальных символов пробелов.
Обычное пространство с длинным тире | лево право |
---|---|
Тонкое пространство с тире | лево право |
Пространство для волос с тире | лево право |
Нет места с длинным тире | лево право |
Вычислительные приложения [ править ]
Языки программирования [ править ]
В большинства языков программирования синтаксисе могут использоваться пробельные символы для разделения токенов . В языке свободной формы символы пробелов игнорируются процессорами кода (т. е. компилятором ). Даже когда синтаксис языка требует пробелов, часто несколько символов пробелов обрабатываются как один. В внешних правил языке пробелы в отступах синтаксически значимы. В сатирическом и противоречивом языке под названием Whitespace пробелы являются единственными значимыми символами, а обычный текст игнорируется.
Правильное использование пробелов в исходном коде может сгруппировать связанную логику и облегчить понимание кода. Чрезмерное использование пробелов, в том числе в конце строки, где они не обеспечивают рендеринга, считается неудобством .
Большинство языков распознают только пробельные символы, имеющие код ASCII. Они запрещают большинство или все коды Unicode, перечисленные выше. Язык C определяет пробельные символы как «пробел, горизонтальную табуляцию, новую строку, вертикальную табуляцию и перевод страницы». [29] Сетевой протокол HTTP требует использования разных типов пробелов в разных частях протокола, например: только символ пробела в строке состояния , CRLF в конце строки и «линейный пробел» в значениях заголовка. [30]
Анализ командной строки [ править ]
Типичные анализаторы командной строки используют символ пробела для разделения аргументов . Значение со встроенным пробелом является проблематичным, поскольку оно приводит к анализу значения как нескольких аргументов. Обычно синтаксический анализатор позволяет избежать обычного анализа аргументов, заключая текст в кавычки.
Предположим, вы хотите перечислить файлы в каталоге с именем «foo bar». Вместо этого эта команда перечисляет файлы, соответствующие «foo» или «bar»:
лс фу бар
Эта команда правильно указывает один аргумент:
ls "фу бар"
Языки разметки [ править ]
Некоторые языки разметки , такие как SGML , сохраняют пробелы в том виде, в котором они написаны.
Языки веб-разметки, такие как XML и HTML, специально обрабатывают пробельные символы, включая пробелы, для удобства программистов. Один или несколько пробельных символов, считываемых соответствующими процессорами времени отображения этих языков разметки, сжимаются до 0 или 1 пробела, в зависимости от их семантического контекста. Например, двойные (или более) пробелы в тексте сворачиваются в один пробел, а пробелы, которые появляются по обе стороны от « =
" которое отделяет имя атрибута от его значения, не влияет на интерпретацию документа. Конечные теги элемента могут содержать конечные пробелы, а теги пустых элементов в XML могут содержать пробелы перед " />
". В этих языках ненужные пробелы увеличивают размер файла и, следовательно, могут замедлить передачу по сети. С другой стороны, ненужные пробелы также могут незаметно отмечать код, аналогичный комментариям в коде, но менее очевидный. Это может быть желательно доказать. нарушение лицензии или авторских прав , совершенное путем копирования и вставки .
В значениях атрибутов XML последовательности символов пробелов обрабатываются как один пробел, когда документ читается анализатором. [31] Пробелы в содержимом элемента XML синтаксическим анализатором таким образом не изменяются, но приложение, получающее информацию от синтаксического анализатора, может применить аналогичные правила к содержимому элемента. Автор XML-документа может использовать xml:space="preserve"
атрибут элемента, чтобы указать синтаксическому анализатору не допускать изменения нижестоящим приложением пробелов в содержимом этого элемента.
In most HTML elements, a sequence of whitespace characters is treated as a single inter-word separator, which may manifest as a single space character when rendering text in a language that normally inserts such space between words.[32] Conforming HTML renderers are required to apply a more literal treatment of whitespace within a few prescribed elements, such as the pre
tag and any element for which CSS has been used to apply pre
-like whitespace processing. In such elements, space characters will not be "collapsed" into inter-word separators.
In both XML and HTML, the non-breaking space character, along with other non-"standard" spaces, is not treated as collapsible "whitespace", so it is not subject to the rules above.
File names[edit]
Such usage is similar to multiword file names written for operating systems and applications that are confused by embedded space codes—such file names instead use an underscore (_) as a word separator, as_in_this_phrase.
Another such symbol was U+2422 ␢ BLANK SYMBOL. This was used in the early years of computer programming when writing on coding forms. Keypunch operators immediately recognized the symbol as an "explicit space".[16] It was used in BCDIC,[16] EBCDIC,[16] and ASCII-1963.[16]
See also[edit]
- Carriage return
- Em (typography)
- En (typography)
- Form feed
- Indent style
- Line feed
- Newline
- Programming style
- Prosigns for Morse code
- Regular expression § Character classes for the white-space character class.
- Space bar
- Space (punctuation)
- Tab key
- Trimming (computer programming)
- Whitespace (programming language)
- Zero-width space
References[edit]
- ^ "The Unicode Standard". Unicode Consortium.
- ^ "Character design standards – space characters". Character design standards. Microsoft. 1998–1999. Archived from the original on March 14, 2010. Retrieved 2009-05-18.
- ^ The Unicode Standard 5.0, printed edition, p. 205; also available at "Chapter 6 — Writing Systems and Punctuation" (PDF). The Unicode Standard 5.0, electronic edition. Unicode Consortium. 2006-07-14. p. 11 (205). Retrieved 2022-12-22.
- ^ "General Punctuation" (PDF). The Unicode Standard 5.1. Unicode Inc. 1991–2008. Retrieved 2009-05-13.
- ^ Sargent, Murray III (2006-08-29). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)". Unicode Technical Note #28. Unicode Inc. pp. 19–20. Retrieved 2009-05-19.
- ^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard. Addison-Wesley. ISBN 0-201-70052-2.
- ^ Jump up to: a b Hickson, Ian. "12.5 Named character references". HTML Standard. WHATWG.
- ^ Wolfram. "\[NegativeThickSpace]". Wolfram Language Documentation.
- ^ Wolfram. "\[NegativeMediumSpace]". Wolfram Language Documentation.
- ^ Wolfram. "\[NegativeThinSpace]". Wolfram Language Documentation.
- ^ Wolfram. "\[NegativeVeryThinSpace]". Wolfram Language Documentation.
- ^ Faltstrom, P., ed. (August 2010). "Zero Width Non-Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.1. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.
- ^ Faltstrom, P., ed. (August 2010). "Zero Width Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.2. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.
- ^ "Unicode Standard Annex #44, Unicode Character Database".
- ^ Jump up to: a b c d e f European Computer Manufacturers Association (1968-11-28). Graphic Representation of the Control Characters of the ECMA 7-Bit Coded Character Set for Information Interchange (PDF). ECMA-17.
- ^ Jump up to: a b c d e f g h Mackenzie, Charles E. (1980). Coded Character Sets, History and Development (PDF). The Systems Programming Series (1 ed.). Addison-Wesley Publishing Company, Inc. pp. 41, 47, 52, 102–103, 117, 119, 130, 132, 141, 148, 150–151, 212, 424. ISBN 978-0-201-14460-4. LCCN 77-90165. Archived (PDF) from the original on May 26, 2016. Retrieved August 25, 2019.
- ^ "American Standard Code for Information Interchange, ASA X3.4-1963". American Standards Association (ASA). 1963-06-17.
- ^ Niklaus Wirth, Programming in Modula-2
- ^ "Cambridge Z88 User Guide". 4.7 (4th ed.). Cambridge Computer Limited. 2016 [1987]. Basic concepts - The keyboard. Archived from the original on 2016-12-12. Retrieved 2016-12-12.
- ^ Jump up to: a b c "Cambridge Z88 User Guide". 4.0 (4th ed.). Cambridge Computer Limited. 1987. Appendix D. Archived from the original on 2016-12-12. Retrieved 2016-12-12.
- ^ Jump up to: a b c "Cambridge Z88 User Guide". 4.7 (4th ed.). Cambridge Computer Limited. 2015 [1987]. Appendix D. Archived from the original on 2016-12-12. Retrieved 2016-12-12.
- ^ Unicode chart U+2800, braille patterns
- ^ Chung, Jaemin (2017-03-30). Proposal to add an informative note to U+3164 HANGUL FILLER (PDF). Unicode Consortium. UTC L2/17-081.
- ^ Hangul Jamo (PDF). Unicode Consortium. 2020-10-25.
- ^ "ibm-933_P110-1995". ICU Demonstration - Converter Explorer. International Components for Unicode.
- ^ "ibm-933_P110-1995 (lead bytes 0E84)". ICU Demonstration - Converter Explorer. International Components for Unicode.
- ^ "Chapter 6 — Writing Systems and Punctuation" (PDF). The Unicode Standard 15.0, electronic edition. Unicode Consortium. 2022-09-13. pp. 12–13 (267–268). Retrieved 2022-12-23.
The fixed-width space characters (U+2000..U+200A) are derived from conventional (hot lead) typography. Algorithmic kerning and justification in computerized typography do not use these characters. However, where they are used (for example, in typesetting mathematical formulae), their width is generally font-specified, and they typically do not expand during justification. The exception is U+2009 thin space, which sometimes gets adjusted.
- ^ Usage of the different dash types is illustrated, e.g., in The Chicago Manual of Style, §§ 6.80, 6.83–6.86
- ^ http://www.open-std.org/jtc1/sc22/wg14/www/docs/n1548.pdf Section 6.4, paragraph 3
- ^ Fielding, R.; et al. (June 1999), "2.2 Basic Rules", Hypertext Transfer Protocol—HTTP/1.1, doi:10.17487/RFC2616, RFC 2616
- ^ "3.3.3 Attribute-Value Normalization". Extensible Markup Language (XML) 1.0 (Fifth Edition). World Wide Web Consortium.
- ^ "9.1 Whitespace". W3CHTML 4.01 Specification. World Wide Web Consortium.