CNS 11643 - CNS 11643

CNS 11643
Псевдоним (а)CSIC (Китайский стандартный код обмена)
Язык (и)Традиционный китайский
СтандартCNS 11643
КлассификацияISO 2022, DBCS, Кодирование CJK
Форматы кодирования
Другая связанная кодировка (и)Big5, CCCII

В CNS 11643 набор символов (китайский национальный стандарт 11643), также официально известный как Китайский стандартный код обмена или же CSIC[1] (Китайский : 中文 標準 交換 碼), официально является стандартным набором символов республика Китай. На практике варианты родственных Big5 набор символов де-факто стандарт.

CNS 11643 разработан в соответствии с ISO 2022. Он содержит 16 плоскостей, поэтому максимально возможное количество кодируемых символов составляет 16 × 94 × 94 = 141376. Плоскости с 1 по 7 определены стандартом; с 2007 года стандартом также определены самолеты с 10 по 15.[2]:115–122 До этого плоскости с 12 по 15 (35344 кодовых точки) были специально предназначены для определяемых пользователем символов.[нужна цитата ] В отличие от CCCII, кодирование вариантных символов в CNS 11643 не имеет отношения.

EUC-TW является закодированным представлением CNS 11643 и ASCII в форме расширенного кода Unix (EUC). Другие кодировки, способные представлять определенные плоскости CSIC, включают ISO-2022-CN (самолеты 1 и 2) и ISO-2022-CN-EXT (самолеты с 1 по 7).

История

Первое издание стандарта было опубликовано в 1986 году и включало плоскости 1 и 2, происходящие из уровней 1 и 2 Big5, с некоторым изменением порядка из-за исправленного количества штрихов, пропущенных двух повторяющихся символов и добавления 213 классических радикалы. Расширения стандарта были впоследствии опубликованы в 1988 г. (6319 знаков на плоскости 14) и 1990 г. (7169 знаков на плоскости 15).[2]:115–122

Unicode 1.0, хотя он еще не включал Ханзи, включены символы для совместимости с CNS 11643: Формы совместимости CJK блок был назван «Совместимость с CNS 11643» в Unicode 1.1.[3] Когда Юникод Унифицированные идеограммы CJK набор был скомпилирован для Unicode 1.0.1, национальные органы представили наборы символов CJK Joint Research Group для включения. Представленная версия CNS 11643 включала расширение плоскости 14 в дополнение к дополнительным желаемым символам, добавленным к плоскости 14 (после 68-21, последняя использованная кодовая точка в стандартной версии расширения).[2]:179–180

Во втором издании стандарта, опубликованном в 1992 г., гораздо больше Ханзи был определен на семи плоскостях. Подмножество расширения самолета 14 1988 года, включая 6148 кодовые точки 01-01–66–38, стала плоскостью 3 (с оставшимися 171 символом, кодовые точки с 66–39 до 68–21, вместо этого распределенными между плоскостью 4). Расширение самолета 15 не было включено, хотя 338 его персонажей были включены в число самолетов с 4 по 7.[2]:115–122

Третье издание стандарта, опубликованное в 2007 г., добавило Знак евро, идеографический ноль, Кана и расширения существующих бопомофо и латинский алфавит поддержка плоскости 1. Он ввел плоскости с 10 по 14, содержащие дополнительные ханзи, и включил существующее расширение плоскости 15 в сам стандарт (с зазорами, оставленными там, где символы уже существовали в плоскостях с 4 по 7). Он также добавил еще 128 ханзи к плоскости 3, начиная с кодовой точки 68-40.[2]:115–122

По состоянию на 2017 год, есть несколько тысяч символов CNS 11643 без соответствующего символа Unicode, в основном в плоскостях с 10 по 14; они сопоставлены с Unicode Дополнительная зона частного использования.[4]

Отношение к Big5

Уровни 1 и 2 Big5 кодирование соответствует в основном плоскостям 1 и 2 CNS 11643, соответственно, со случайными различиями в порядке и с удалением двух повторяющихся ханзи. Их можно сопоставить с помощью списка диапазонов.[5][6] В разделе Big5 hanzi только один символ отображается в Unicode иначе, чем CNS 11643: в U + 5F5D ( ), тогда как его аналог в плоскости 1 ЦНС отображается в родственный вариант в U + 5F5E ( ).[7]

В Большой5-2003 вариант Big5 определяется как частичное кодирование CNS 11643.

Рекомендации

  1. ^ ECMA (1993-01-21). Китайский стандартный код обмена (CSIC) - набор 1 (PDF). ITSCJ /IPSJ. ISO-IR-171.
  2. ^ а б c d е Лунде, Кен (2008). «3. Стандарты набора символов». CJKV Обработка информации (2-е изд.). O'Reilly Media. ISBN  9780596514471.
  3. ^ «3.8: Блок-за-блок-схемы» (PDF). Стандарт Юникода. версия 1.0. Консорциум Unicode.
  4. ^ «CNS 11643 в зоне дополнительного частного использования Unicode». [китайский макинтош]. Совет по восточноазиатским исследованиям Йельского университета.
  5. ^ Лунде, Кен (1995-12-18). «4.3: Проблемы совместимости набора символов CJK - китайский (Тайвань)». CJK.INF Версия 1.9.
  6. ^ Чжу, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Чанг, WCH .; Криспин, М. (1996). «RFC 1922: Кодировка китайских символов для Интернет-сообщений». Запросы на комментарии. IETF.
  7. ^ Лунде, Кен (2018-02-15). «Изучение IICore - Часть 4». Блог CJK Type. Adobe Inc.

внешняя ссылка