Ссылка на числовые символы - Numeric character reference

А ссылка на числовой символ (NCR) является обычным разметка конструкция, используемая в SGML и языки разметки на основе SGML, такие как HTML и XML. Он состоит из короткой последовательности символы это, в свою очередь, представляет собой один символ. С WebSgml, XML и HTML 4, кодовые точки Универсальный набор символов (UCS) из Unicode используются. NCR обычно используются для обозначения персонажей, которые не непосредственно кодируемый в конкретном документе (например, потому что это международные символы, которые не подходят для используемого 8-битного набора символов, или потому что они имеют особое синтаксическое значение в языке). Когда документ интерпретируется читателем с учетом разметки, каждый NCR обрабатывается так, как если бы это был символ, который он представляет.

Примеры

В SGML, HTML и XML все следующие допустимые числовые ссылки на символы греческой заглавной буквы сигма.

Цифровое обозначение U + 03A3 Σ ГРЕЧЕСКАЯ ЗАГЛАВНАЯ БУКВА СИГМА
(3A316 = 931)
Символ UnicodeЧисловая базаЦифровая ссылка в разметкеЭффект
U + 03A3ДесятичныйΣΣ
U + 03A3ДесятичныйΣΣ
U + 03A3Шестнадцатеричный& # x3A3;Σ
U + 03A3Шестнадцатеричный& # x03A3;Σ
U + 03A3Шестнадцатеричный& # x3a3;Σ

В SGML, HTML и XML следующие допустимые числовые ссылки на символы латинской заглавной буквы AE

Цифровое обозначение U + 00C6 Æ ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА AE
Символ UnicodeЧисловая базаЦифровая ссылка в разметкеЭффект
U + 00C6ДесятичныйÆÆ
U + 00C6Шестнадцатеричный& # xC6;Æ

В SGML, HTML и XML все следующие допустимые числовые ссылки на символы латинской строчной буквы s ß

Цифровое обозначение U + 00DF SS ЛАТИНСКАЯ СТРОЧНАЯ БУКВА SHARP S
Символ UnicodeЧисловая базаЦифровая ссылка в разметкеЭффект
U + 00DFДесятичныйßSS
U + 00DFШестнадцатеричный& # xDF;SS

Список ссылок на числовые символы для печати ASCII символы:

Символ UnicodeХарактер
Ссылка
(десятичный)
Характер
Ссылка
(шестнадцатеричный)
Эффект
U + 0020 & # x20;(Космос)
U + 0021!& # x21;!
U + 0022"& # x22;"
U + 0023#& # x23;#
U + 0024$& # x24;$
U + 0025%& # x25;%
U + 0026&& # x26;&
U + 0027'& # x27;'
U + 0028(& # x28;(
U + 0029)& # x29;)
U + 002A*& # x2A;*
U + 002B+& # x2B;+
U + 002C,& # x2C;,
U + 002D-& # x2D;-
U + 002E.& # x2E;.
U + 002F/& # x2F;/
U + 00300& # x30;0
U + 00311& # x31;1
U + 00322& # x32;2
U + 00333& # x33;3
U + 00344& # x34;4
U + 00355& # x35;5
U + 00366& # x36;6
U + 00377& # x37;7
U + 00388& # x38;8
U + 00399& # x39;9
U + 003A:& # x3A;:
U + 003B&#59;& # x3B;;
U + 003C&#60;& # x3C;<
U + 003D&#61;& # x3D;=
U + 003E&#62;& # x3E;>
U + 003F&#63;& # x3F;?
U + 0040&#64;& # x40;@
U + 0041&#65;& # x41;А
U + 0042&#66;& # x42;B
U + 0043&#67;& # x43;C
U + 0044&#68;& # x44;D
U + 0045&#69;& # x45;E
U + 0046&#70;& # x46;F
U + 0047&#71;& # x47;грамм
U + 0048&#72;& # x48;ЧАС
U + 0049&#73;& # x49;я
U + 004A&#74;& # x4A;J
U + 004B&#75;& # x4B;K
U + 004C&#76;& # x4C;L
U + 004D&#77;& # x4D;M
U + 004E&#78;& # x4E;N
U + 004F&#79;& # x4F;О
U + 0050&#80;& # x50;п
U + 0051&#81;& # x51;Q
U + 0052&#82;& # x52;р
U + 0053&#83;& # x53;S
U + 0054&#84;& # x54;Т
U + 0055&#85;& # x55;U
U + 0056&#86;& # x56;V
U + 0057&#87;& # x57;W
U + 0058&#88;& # x58;Икс
U + 0059&#89;& # x59;Y
U + 005A&#90;& # x5A;Z
U + 005B&#91;& # x5B;[
U + 005C&#92;& # x5C;\
U + 005D&#93;& # x5D;]
U + 005E&#94;& # x5E;^
U + 005F&#95;& # x5F;_
U + 0060&#96;& # x60;'
U + 0061&#97;& # x61;а
U + 0062&#98;& # x62;б
U + 0063&#99;& # x63;c
U + 0064&#100;& # x64;d
U + 0065&#101;& # x65;е
U + 0066&#102;& # x66;ж
U + 0067&#103;& # x67;грамм
U + 0068&#104;& # x68;час
U + 0069&#105;& # x69;я
U + 006A&#106;& # x6A;j
U + 006B&#107;& # x6B;k
U + 006C&#108;& # x6C;л
U + 006D&#109;& # x6D;м
U + 006E&#110;& # x6E;п
U + 006F&#111;& # x6F;о
U + 0070&#112;& # x70;п
U + 0071&#113;& # x71;q
U + 0072&#114;& # x72;р
U + 0073&#115;& # x73;s
U + 0074&#116;& # x74;т
U + 0075&#117;& # x75;ты
U + 0076&#118;& # x76;v
U + 0077&#119;& # x77;ш
U + 0078&#120;& # x78;Икс
U + 0079&#121;& # x79;у
U + 007A&#122;& # x7A;z
U + 007B&#123;& # x7B;{
U + 007C&#124;& # x7C;-
U + 007D&#125;& # x7D;}
U + 007E&#126;& # x7E;~

Обсуждение

Языки разметки обычно определяются в виде символов UCS или Unicode. То есть документ состоит на самом фундаментальном уровне абстракции из последовательности символов, которые являются абстрактными единицами, существующими независимо от каких-либо кодирование.

В идеале, когда символы документа, использующие язык разметки, кодируются для хранения или передачи по сети в виде последовательности биты будет использоваться кодировка, которая поддерживает представление каждого символа в документе, если не во всем Юникоде, непосредственно в виде конкретной битовой последовательности.

Однако иногда по причинам удобства или из-за технических ограничений документы кодируются с помощью кодировки, которая не может представлять некоторые символы напрямую. Например, широко используемые кодировки на основе ISO 8859 может представлять не более 256 уникальных символов как один 8-битный байт каждый.

На практике в документах редко когда-либо разрешается использовать более одной кодировки внутри, поэтому ответственность обычно лежит на языке разметки, чтобы предоставить авторам документов средства для выражения некодируемых символов в терминах кодируемых. Обычно это делается с помощью какого-то механизм «побега».

Языки разметки на основе SGML позволяют авторам документов использовать специальные последовательности символов из диапазона ASCII (первые 128 кодовых точек Unicode) для представления или ссылка, любой символ Unicode, независимо от того, доступен ли представляемый символ непосредственно в кодировке документа. Эти специальные последовательности ссылки на символы.

Ссылки на символы, основанные на UCS или Unicode указанного символа кодовая точка называются числовой ссылки на символы. В HTML 4 и во всех версиях XHTML и XML кодовая точка может быть выражена как десятичный (основание 10) число или как шестнадцатеричный (основание 16) число. Синтаксис следующий:

Символ U + 0026 (амперсанд ), за которым следует символ U + 0023 (числовой знак ), за которым следует один из следующих вариантов:

  • одна или несколько десятичных цифр от нуля (U + 0030) до девяти (U + 0039); или же
  • символ U + 0078 ("x"), за которым следует одна или несколько шестнадцатеричных цифр, от нуля (U + 0030) до девяти (U + 0039), заглавная латинская буква от A (U + 0041) до F (U + 0046), и строчная латинская буква от a (U + 0061) до f (U + 0066);

за всеми следует символ U + 003B (точка с запятой ). В более старых версиях HTML шестнадцатеричный синтаксис запрещен.

Символы, составляющие числовую ссылку на символ, могут быть представлены в любой кодировке символов, используемой сегодня в вычислительной технике и телекоммуникациях, поэтому нет риска, что сама ссылка окажется некодируемой.

Существует еще один вид ссылки на символы, называемый ссылка на символьный объект, что позволяет называть персонажа именем, а не числом. (Имя персонажа создает персонаж юридическое лицо.) HTML определяет некоторые символьные сущности, но не многие; все остальные символы могут быть включены только путем прямого кодирования или с использованием NCR.

Ограничения

Универсальный набор символов, определенный в ISO 10646, является «набором символов документа» SGML, HTML 4, поэтому по умолчанию любой символ в таком документе и любой символ упомянутый в таком документе должен быть в ПСК.

Хотя синтаксис SGML не запрещает ссылки на недопустимые или неназначенные кодовые точки, такие как & # xFFFF;, Языки разметки, производные от SGML, такие как HTML и XML, могут и часто ограничивают ссылки на числовые символы только теми кодовыми точками, которые присвоены символам.

Ограничения могут применяться и по другим причинам. Например, в HTML 4 &#12;, который является ссылкой на непечатный управляющий символ «подачи страницы», разрешен, потому что разрешен символ подачи формы. Но в XML нельзя использовать символ подачи формы, даже по ссылке.[нужна цитата ] Другой пример: &#128;, который является ссылкой на другой управляющий символ, не может использоваться или ссылаться ни в HTML, ни в XML, но при использовании в HTML он обычно не помечается веб-браузерами как ошибка, некоторые из которых интерпретируют его как ссылку к символу, представленному значением кода 128 в Окна-1252 кодирование по соображениям совместимости. Этот символ "€" должен быть представлен как &#8364; в стандартном HTML-коде. В качестве еще одного примера, до публикации второго издания XML 1.0 6 октября 2000 г. XML 1.0 был основан на более старой версии ISO 10646 и запрещал использование символов выше U + FFFD, за исключением символьных данных, таким образом делая ссылку вроде &#65536; (U + 10000) незаконно. В XML 1.1 и более новых версиях XML 1.0 такая ссылка разрешена, поскольку доступный репертуар символов был явно расширен.

Языки разметки также накладывают ограничения на то, где могут встречаться ссылки на символы.

Проблемы совместимости

В начальных версиях SGML и HTML, числовые ссылки на символы интерпретировались в соответствии с кодировкой символов документа, а не Unicode. Для документов с латинским шрифтом, числовые ссылки на символы от x80 до x9F в этих документах будут неправильными. Unicode, и его необходимо перекодировать. Стандарты HTML до HTML 4 поддерживаются только документы с западным латинским шрифтом: обработка символьных ссылок выше # 7F может варьироваться в зависимости от приложения и национальных соглашений.

Например, как упоминалось выше, правильная ссылка на числовой символ для Знак евро "€" U + 20AC когда используешь Unicode десятичный &#8364; и шестнадцатеричный & # x20AC;. Однако при использовании инструментов, поддерживающих устаревшие реализации HTML, ссылка &#128; (Евро в Cp1252 кодовая страница) или &#164; (Евро в ИСО / МЭК 8859-15 ) может работать.

Другой пример: если какой-то текст был создан изначально МакРоман набор символов, левая двойная кавычка будет представлен с кодовой точкой xD2. Это не будет отображаться должным образом в системе, ожидающей документ, закодированный как UTF-8, ISO 8859-1 или CP1252, где эта кодовая точка занята буквой Ò. Правильная ссылка на числовой символ для в HTML 4 и новее & # x201C;, потому что U + 201C - это его код UCS. В некоторых системах ссылка на именованный символ & ldquo; также могут быть доступны.

Смотрите также

Рекомендации