CNS 11643 - CNS 11643
Псевдоним (а) | CSIC (Китайский стандартный код обмена) |
---|---|
Язык (и) | Традиционный китайский |
Стандарт | CNS 11643 |
Классификация | ISO 2022, DBCS, Кодирование CJK |
Форматы кодирования |
|
Другая связанная кодировка (и) | Big5, CCCII |
В CNS 11643 набор символов (китайский национальный стандарт 11643), также официально известный как Китайский стандартный код обмена или же CSIC[1] (Китайский : 中文 標準 交換 碼), официально является стандартным набором символов республика Китай. На практике варианты родственных Big5 набор символов де-факто стандарт.
CNS 11643 разработан в соответствии с ISO 2022. Он содержит 16 плоскостей, поэтому максимально возможное количество кодируемых символов составляет 16 × 94 × 94 = 141376. Плоскости с 1 по 7 определены стандартом; с 2007 года стандартом также определены самолеты с 10 по 15.[2]:115–122 До этого плоскости с 12 по 15 (35344 кодовых точки) были специально предназначены для определяемых пользователем символов.[нужна цитата ] В отличие от CCCII, кодирование вариантных символов в CNS 11643 не имеет отношения.
EUC-TW является закодированным представлением CNS 11643 и ASCII в форме расширенного кода Unix (EUC). Другие кодировки, способные представлять определенные плоскости CSIC, включают ISO-2022-CN (самолеты 1 и 2) и ISO-2022-CN-EXT (самолеты с 1 по 7).
История
Первое издание стандарта было опубликовано в 1986 году и включало плоскости 1 и 2, происходящие из уровней 1 и 2 Big5, с некоторым изменением порядка из-за исправленного количества штрихов, пропущенных двух повторяющихся символов и добавления 213 классических радикалы. Расширения стандарта были впоследствии опубликованы в 1988 г. (6319 знаков на плоскости 14) и 1990 г. (7169 знаков на плоскости 15).[2]:115–122
Unicode 1.0, хотя он еще не включал Ханзи, включены символы для совместимости с CNS 11643: Формы совместимости CJK блок был назван «Совместимость с CNS 11643» в Unicode 1.1.[3] Когда Юникод Унифицированные идеограммы CJK набор был скомпилирован для Unicode 1.0.1, национальные органы представили наборы символов CJK Joint Research Group для включения. Представленная версия CNS 11643 включала расширение плоскости 14 в дополнение к дополнительным желаемым символам, добавленным к плоскости 14 (после 68-21, последняя использованная кодовая точка в стандартной версии расширения).[2]:179–180
Во втором издании стандарта, опубликованном в 1992 г., гораздо больше Ханзи был определен на семи плоскостях. Подмножество расширения самолета 14 1988 года, включая 6148 кодовые точки 01-01–66–38, стала плоскостью 3 (с оставшимися 171 символом, кодовые точки с 66–39 до 68–21, вместо этого распределенными между плоскостью 4). Расширение самолета 15 не было включено, хотя 338 его персонажей были включены в число самолетов с 4 по 7.[2]:115–122
Третье издание стандарта, опубликованное в 2007 г., добавило Знак евро, идеографический ноль, Кана и расширения существующих бопомофо и латинский алфавит поддержка плоскости 1. Он ввел плоскости с 10 по 14, содержащие дополнительные ханзи, и включил существующее расширение плоскости 15 в сам стандарт (с зазорами, оставленными там, где символы уже существовали в плоскостях с 4 по 7). Он также добавил еще 128 ханзи к плоскости 3, начиная с кодовой точки 68-40.[2]:115–122
По состоянию на 2017 год[Обновить], есть несколько тысяч символов CNS 11643 без соответствующего символа Unicode, в основном в плоскостях с 10 по 14; они сопоставлены с Unicode Дополнительная зона частного использования.[4]
Отношение к Big5
Уровни 1 и 2 Big5 кодирование соответствует в основном плоскостям 1 и 2 CNS 11643, соответственно, со случайными различиями в порядке и с удалением двух повторяющихся ханзи. Их можно сопоставить с помощью списка диапазонов.[5][6] В разделе Big5 hanzi только один символ отображается в Unicode иначе, чем CNS 11643: в U + 5F5D (彝 ), тогда как его аналог в плоскости 1 ЦНС отображается в родственный вариант в U + 5F5E (彞 ).[7]
В Большой5-2003 вариант Big5 определяется как частичное кодирование CNS 11643.
Рекомендации
- Эта страница основана на информации о Официальный сайт CNS.
- ^ ECMA (1993-01-21). Китайский стандартный код обмена (CSIC) - набор 1 (PDF). ITSCJ /IPSJ. ISO-IR-171.
- ^ а б c d е Лунде, Кен (2008). «3. Стандарты набора символов». CJKV Обработка информации (2-е изд.). O'Reilly Media. ISBN 9780596514471.
- ^ «3.8: Блок-за-блок-схемы» (PDF). Стандарт Юникода. версия 1.0. Консорциум Unicode.
- ^ «CNS 11643 в зоне дополнительного частного использования Unicode». [китайский макинтош]. Совет по восточноазиатским исследованиям Йельского университета.
- ^ Лунде, Кен (1995-12-18). «4.3: Проблемы совместимости набора символов CJK - китайский (Тайвань)». CJK.INF Версия 1.9.
- ^ Чжу, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Чанг, WCH .; Криспин, М. (1996). «RFC 1922: Кодировка китайских символов для Интернет-сообщений». Запросы на комментарии. IETF.
- ^ Лунде, Кен (2018-02-15). «Изучение IICore - Часть 4». Блог CJK Type. Adobe Inc.
внешняя ссылка
- Официальный сайт CNS 11643
- Текущие открытые данные CNS 11643, включая картографические данные
- Сопоставления Unicode для других версий / выпусков / расширений CNS 11643:
- Отображения консорциума Unicode для CNS 11643-1986: самолеты 1 и 2, а также самолет 14 1988 года с расширениями. Для обозначения плоскости используется одна шестнадцатеричная цифра с префиксом.
- CNS-11643-1992 в Международные компоненты для Unicode (ICU); использует префиксы от 0x81 до 0x8F для обозначения плоскости:
- Старая версия: плоскости с 1 по 7 плюс продолжение плоскости 15 как плоскости 9.
- Промежуточная версия: плоскости с 1 по 7, для внутреннего использования кодеком ISO-2022-CN-EXT.
- Текущая версия: включает только плоскости 1 и 2 для внутреннего использования кодеком ISO-2022-CN.
- EUC-TW-2014 в отделении интенсивной терапии: стандартные задания для самолетов с 1 по 7 и 15, а также корпоративные задания IBM в самолетах 12 и 13
- Зарегистрированные ISO-IR таблицы кодов CNS-11643:
Этот кодировка символов статья - это заглушка. Вы можете помочь Википедии расширяя это. |