Кодировка китайских иероглифов - Википедия - Chinese character encoding

В вычислениях Кодировки китайских иероглифов может использоваться для представления текста, написанного в CJK языки -Китайский, Японский, Корейский - и (редко) устаревшие вьетнамский, все из которых используют китайские иероглифы. Несколько универсальных кодировки символов вмещают китайские иероглифы, а некоторые из них были разработаны специально для китайского языка.

В добавление к Unicode (с набором Унифицированные идеограммы CJK ) существуют локальные системы кодирования. Китайский Guobiao (или GB, «национальный стандарт») используется в Материковый Китай и Сингапур, и (в основном) тайваньские Big5 система используется в Тайвань, Гонконг и Макао как две основные «унаследованные» локальные системы кодирования. Guobiao обычно отображается с помощью упрощенные символы а Big5 обычно отображается с использованием традиционные персонажи. Однако не существует обязательной связи между системой кодирования и шрифтом, используемым для отображения символов; шрифт и кодировка обычно связаны вместе по практическим соображениям.

Вопрос о том, какую кодировку использовать, также может иметь политические последствия, поскольку ГБ является официальным стандартом Китайская Народная Республика а Big5 - это де-факто стандарт Тайвань.

В отличие от ситуации с Японский, было относительно мало открытого противодействия Unicode, который решает многие проблемы, связанные с GB и Big5. Юникод широко считается политически нейтральным, имеет хорошую поддержку как упрощенных, так и традиционных символов и может быть легко преобразован в GB и Big5 и обратно. Кроме того, Unicode имеет то преимущество, что он не ограничивается только китайским языком, так как он также может отображать многие другие наборы символов.

Guobiao

Строка кодировок символов Guobiao (GB) начинается с Упрощенный китайский кодировка ГБ 2312 опубликовано в 1980 году. Для GB2312 существовало две схемы кодирования: одно- или двухбайтовое 8-битное EUC-CN обычно используется кодирование, а 7-битное кодирование называется Гц[1] для сообщений уснетов.[2]:94 Традиционный вариант под названием ГБ / т 12345 был опубликован в 1990 году.

Форма EUC-CN позже была расширена на ГБК включать все Unicode 1.1 CJK Идеографы в 1993 году, отказавшись от модели ISO-2022. Таким образом, GBK включает Традиционный китайский символы в дополнение к упрощенным в GB2312.[3] GBK завоевал популярность благодаря широкому распространению Кодовая страница 936 реализация найдена в Microsoft Windows 95.

В 2000 г. ГБ 18030 был опубликован как преемник GBK. Эта новая кодировка включает четырехбайтовый UTF, который кодирует все кодовые точки Unicode, которые ранее не кодировались.[4] В 2005 году, ГБ 18030 был опубликован, чтобы содержать справочные глифы для скриптов, используемых этнические меньшинства в Китае, а также глифы из Унифицированные идеограммы CJK Расширение B в связи с обновлением Unicode.

Adobe-GB1 - соответствующая кодировка PostScript для кодировок GB.

Big5

Семейство кодировок символов Big5 начинается с первоначального определения, разработанного консорциумом пяти компаний на Тайване.[5] Это двухбайтовый набор символов (DBCS) как-то похоже на Shift JIS, часто в сочетании с MBCS, например ASCII. Существует довольно много поставщиков, а также официальных расширений, среди которых ETEN, HKSCS (Гонконг) и Big5-2003 (в составе CNS 11643 Тайваня) являются самыми известными.[6] Adobe-CNS1 - кодировка PostScript, соответствующая семейству кодировок Big5.

Преобразование

До ГБК который включает в себя как традиционные, так и упрощенные символы, преобразование между кодировками традиционного китайского и упрощенного китайского было осложнено необходимостью транскрибировать текст между двумя вариантами китайского языка, поскольку одна кодировка охватывает многие символы другого только в своем собственном варианте. Преобразование между традиционным и упрощенным китайским обычно проблематично, потому что упрощение некоторых традиционных форм объединяет два или более разных символа в одну упрощенную форму. Преобразование традиционного в упрощенное (многие к одному) технически просто. Обратное преобразование часто приводит к потере данных при преобразовании в ГБ 2312: при сопоставлении «один ко многим» при назначении традиционных глифов упрощенным глифам некоторые символы неизбежно будут неправильным выбором в некоторых случаях использования. Таким образом, упрощенное преобразование в традиционное часто требует контекста использования или общих списков фраз для разрешения конфликтов. Эта проблема меньше проблем с новыми стандартами, такими как GBK, GB18030 и Unicode которые имеют отдельные кодовые точки как для упрощенных, так и для традиционных символов.[нужна цитата ]

Еще одна проблема заключается в том, что во многих системах кодирования отсутствуют символы. Хотя отсутствующие символы часто являются литературными и обычно не используются в обычном тексте, это действительно становится проблемой, потому что имена людей часто содержат эти символы. Пример проблемы - Тайваньский политик Ван Цзянь-Сюань у кого есть цзянь () символ в его имени, которого нет в некоторых системах символов, и бывший Премьер Китайской Народной Республики Чжу Жунцзи, чей Róng () символа нет в GB2312. Новейший стандарт GB, GB18030 имеет полный репертуар символов Unicode 4.0, включая Unihan расширения в Дополнительная идеографическая плоскость.[2]:105

Смотрите также

Рекомендации

  1. ^ RFC  1843
  2. ^ а б Лунде, Кен (декабрь 2008 г.). CJKV Обработка информации. O'Reilly Media, Inc. ISBN  978-0-596-51447-1. Получено 11 сентября 2016.
  3. ^ «GB18030-2000 - Новый китайский национальный стандарт - GB 18030». 2012-08-25. Архивировано 25 августа 2012 года.. Получено 2016-10-13.CS1 maint: BOT: статус исходного URL-адреса неизвестен (связь)
  4. ^ Официальная таблица сопоставления между GB18030-2000 и Unicode. ICU - Международные компоненты Unicode. 2001-02-21. Проверено 13 октября 2016 г.
  5. ^ "[китайский mac] Наборы символов". Chinesemac.org. Получено 2016-10-13.
  6. ^ "Варианты Big5 в Mozilla: Mozilla 系列 與 Big5 中 文字 碼". moztw.org. Получено 2016-10-13.

дальнейшее чтение

внешняя ссылка