Big5 - Big5

Big5
Язык (и)Традиционный китайский
КлассификацияРасширенный ASCII,[а][b] Кодирование переменной ширины, DBCS, Кодирование CJK
РасширяетсяASCII[b]
РасширенияОкна-950, Big5-HKSCS, многие другие
Другая связанная кодировка (и)CNS 11643
  1. ^ Не в самом строгом смысле этого слова, поскольку байты ASCII могут отображаться как байты следа.
  2. ^ а б Big5 не определяет однобайтовый компонент; однако на практике используется ASCII (или его расширение).

Большой-5 или Big5 это Кодировка китайских символов метод, используемый в Тайвань, Гонконг, и Макао для традиционные китайские иероглифы.

В Китайская Народная Республика (КНР), который использует упрощенные китайские иероглифы, использует ГБ 18030 набор символов вместо этого.

Big5 получил свое название от консорциума из пяти тайваньских компаний, которые его разработали.[1]

Организация

Исходный набор символов Big5 сортируется сначала по частоте использования, затем по количеству штрихов, а затем по Kangxi радикал.

В исходном наборе символов Big5 не хватало многих часто используемых символов. Для решения этой проблемы каждый производитель разработал собственное расширение. Расширение ETen стало частью текущего стандарта Big5 благодаря своей популярности.

Структура Big5 не соответствует ISO 2022 стандарт, но имеет определенное сходство с Shift JIS кодирование. Это двухбайтовый набор символов (DBCS) со следующей структурой:

Первый байт («ведущий байт»)От 0x81 до 0xfe (или от 0xa1 до 0xf9 для символов, не определенных пользователем)
Второй байтОт 0x40 до 0x7e, от 0xa1 до 0xfe

(префикс 0x обозначает шестнадцатеричные числа).

Стандартные назначения (за исключением расширений, определяемых поставщиком или пользователем) не используют байты от 0x7F до 0xA0 или 0xFF как ведущие (первые) или конечные (вторые) байты. Байты с 0xA1 по 0xFE используются как для начальных, так и для конечных байтов для двухбайтовых (Big5) кодов. Байты с 0x40 по 0x7E используются как конечные байты, следующие за старшим байтом, или для однобайтовых кодов в противном случае. Если второй байт не входит ни в один диапазон, поведение не указано (т.е. варьируется от системы к системе). Кроме того, некоторые варианты набора символов Big5, например HKSCS используйте расширенный диапазон для ведущего байта, включая значения в диапазоне от 0x81 до 0xA0 (аналогично Shift JIS), в то время как другие используют сокращенные диапазоны ведущих байтов (например, вариант Apple Macintosh использует коды от 0xFD до 0xFF в качестве однобайтовых кодов, ограничивая диапазон ведущих байтов от 0xA1 до 0xFC).[2]

Числовое значение отдельных кодов Big5 часто представляется в виде 4-значного шестнадцатеричного числа, которое описывает два байта, составляющих код Big5, как если бы эти два байта были прямой порядок байтов представление 16-битного числа. Например, код Big5 для полноразмерного пространства, которым являются байты 0xa1 0x40, обычно записывается как 0xa140 или просто A140.

Строго говоря, кодировка Big5 содержит только символы DBCS. Однако на практике коды Big5 всегда используются вместе с неуказанным системно-зависимым однобайтовым набором символов (ASCII или 8-битный набор символов, например кодовая страница 437 ), так что вы найдете смесь символов DBCS и однобайтовых символов в тексте с кодировкой Big5. Байты в диапазоне от 0x00 до 0x7f, которые не являются частью двухбайтового символа, считаются однобайтовыми символами. (Более подробное описание этой проблемы см. Ниже в разделе «Соответствие SBCS».)

Значение отдельных байтов, отличных от ASCII, за пределами разрешенных значений, которые не являются частью двухбайтового символа, варьируется от системы к системе. В старых системах на базе MSDOS они, вероятно, будут отображаться как 8-битные символы; в современных системах они могут дать непредсказуемые результаты или сгенерировать ошибку.

Более детальный взгляд на организацию

В оригинальной Big5 кодировка разделена на разные зоны:

С 0x8140 по 0xa0feЗарезервировано для пользовательских символов 造字
С 0xa140 по 0xa3bf«Графические персонажи» 圖形 碼
От 0xa3c0 до 0xa3feЗарезервированный, не для определяемых пользователем символов
С 0xa440 по 0xc67eЧасто используемые символы 常用 字
С 0xc6a1 по 0xc8feЗарезервировано для определяемых пользователем символов
С 0xc940 по 0xf9d5Менее часто используемые символы 次 常用 字
0xf9d6 в 0xfefeЗарезервировано для определяемых пользователем символов

«Графические символы» фактически включают знаки препинания, частичные знаки препинания (например, половина тире, половина многоточия; см. Ниже), дингбаты, иностранные символы и другие специальные символы (например, презентационные "полноширинные" формы, цифры для Цифры Сучжоу, Чжуинь Фухао, так далее.)

В большинстве расширений поставщиков расширенные символы помещаются в различные зоны, зарезервированные для определяемых пользователем символов, каждая из которых обычно считается связанной с предыдущей зоной. Например, ожидается, что дополнительные «графические символы» (например, знаки препинания) будут помещены в диапазон 0xa3c0–0xa3fe, а дополнительные логограммы будут размещены либо в диапазоне 0xc6a1–0xc8fe, либо в диапазоне 0xf9d6–0xfefe. Иногда это невозможно из-за добавления большого количества расширенных символов; например, Кириллица буквы и японский Кана были помещены в зону, связанную с «часто используемыми символами».

Что на самом деле кодирует код Big5

Отдельный код Big5 не всегда представляет собой законченную семантическую единицу. Коды Big5 логограмм всегда являются логограммами, но коды в разделе «графические символы» не всегда являются полными «графическими символами». Big5 кодирует конкретные графические представления символов или части символов, которые помещаются в пространство, занимаемое двумя моноширинными символами ASCII. Это свойство наборов двухбайтовых символов, обычно используемых в вычислениях CJK (китайский, японский и корейский), и не является уникальной проблемой Big5.

(Вышеупомянутое может потребовать некоторого объяснения, рассматривая его в исторической перспективе, так как это теоретически неверно: в те времена, когда персональные вычисления в текстовом режиме были нормой, символы обычно представлялись как отдельные байты, и каждый символ занимал одну позицию на экране. Таким образом, имелась практическая причина настаивать на том, чтобы двухбайтовые символы занимали две позиции на экране, а именно, что стандартное программное обеспечение американского производства можно было бы использовать без модификации в системе на основе DBCS. Если персонаж может занимать произвольное количество позиций на экране, программа, которая предполагает, что это одно байт текста, занимающего одну позицию на экране, приведет к неправильному выводу. Конечно, если бы компьютеру никогда не приходилось иметь дело с текстовым экраном, производитель не вводил бы это искусственное ограничение; Apple Macintosh является примером. Тем не менее, сама кодировка должна быть спроектирована так, чтобы она корректно работала в системах с текстовым экраном.)

Чтобы проиллюстрировать это, рассмотрим код Big5 0xa14b (…). Для англоговорящих это выглядит как многоточие, и стандарт Unicode определяет его как таковой; однако в китайском языке многоточие состоит из шести точек, которые помещаются в пространство двух китайских иероглифов (……), поэтому на самом деле нет кода Big5 для китайского многоточия, а код Big5 0xa14b представляет собой лишь половину китайского многоточия . Он представляет собой только половину многоточия, поскольку весь многоточие должен занимать пространство двух китайских символов, а во многих системах DBCS один символ DBCS должен занимать ровно пространство одного китайского символа.

Символы, закодированные в Big5, не всегда представляют вещи, которые можно легко использовать в текстовых файлах; Примером может служить «знак цитирования» (0xa1ca, ﹋), который, если он используется, должен быть набран под названием литературного произведения. Другой пример - Цифры Сучжоу, который является формой научная нотация это требует, чтобы номер был выложен в двумерной форме, состоящей как минимум из двух строк.

Соответствующие SBCS

На практике Big5 нельзя использовать без соответствия Однобайтовый набор символов (SBCS); в основном это связано с соображениями совместимости. Однако, как и в случае с другими наборами символов CJK DBCS, используемый SBCS никогда не указывался. Big5 всегда определялся как DBCS, хотя при использовании он должен сочетаться с подходящим, неопределенные SBCS и поэтому используется как то, что некоторые называют MBCS; тем не менее, Big5, по определению, является строго DBCS.

Неопределенный SBCS для использования означает, что используемый SBCS теоретически может варьироваться от системы к системе. В настоящее время ASCII - единственный возможный SBCS, который можно использовать. Однако в старых ДОС -системы, Кодовая страница 437 - с дополнительными специальными символами в области управляющего кода, включая позицию 127 - был гораздо более распространенным. Тем не менее, в системе Macintosh с комплектом китайского языка или в системе Unix, на которой запущен эмулятор терминала cxterm, SBCS в паре с Big5 не будет кодовой страницей 437.

За пределами допустимого диапазона Big5 старые системы на основе DOS будут обычно интерпретировать вещи в соответствии с SBCS, который связан с Big5 в этой системе. В таких системах, например, символы с 127 по 160, скорее всего, не избегались, потому что они приводили к недопустимому Big5, но использовались, потому что они были бы допустимыми символами в кодовой странице 437.

Современная характеристика Big5 как MBCS, состоящая из DBCS Big5 и SBCS из ASCII, поэтому исторически неверна и потенциально ошибочна, поскольку выбор соответствующей SBCS был и теоретически до сих пор остается совершенно независимым от используемого вкуса Big5. .

История

Неспособность ASCII поддержка больших наборов символов, таких как китайский, японский и корейский, побудила правительства и промышленность найти творческие решения, позволяющие воспроизводить их языки на компьютерах. Разнообразие специальных и обычно закрытых методов ввода привело к попыткам разработать стандартную систему. В результате кодировка Big5 была определена Институт информационной индустрии Тайваня в 1984 году. Название «Big5» означает признание того, что стандарт появился в результате сотрудничества пяти крупнейших ИТ-компаний Тайваня: Acer (宏 碁 ); MiTAC (神通); Цзяцзя (佳佳), ZERO ONE Technology (零 壹 или 01тех ); и, Первый международный компьютер (FIC) (大眾).

Big5 был быстро популяризирован на Тайване и во всем мире среди китайцев, которые использовали традиционный китайский набор символов, благодаря его внедрению в нескольких коммерческих программных пакетах, в частности E-TEN Китайский ДОС система ввода (Китайская система ETen ). В Китайская республика правительство объявило Big5 в качестве стандарта в середине 1980-х годов, поскольку к тому времени это был де-факто стандарт для использования традиционного китайского языка на компьютерах.

Расширения

Оригинальная «большая пятерка» включает только логотипы CJK из двух списков »常用 國 字 標準 字體 表; Чан Йонг Гуо Цзы Бао Чжун Цзы Ту Бао"(4808 знаков) и"次 常用 國 字 標準 字體 表; cì cháng yòng gúo zì bīao zhǔn zì tĭ bǐao"(6343 символа), но не буквы из имен людей, географических названий, диалектов, химия, биология, Японский Кана. В результате многие вспомогательные программы Большой пятерки включают расширения для решения проблем.

Множество вариаций делают UTF-8 или UTF-16 более согласованная кодовая страница для современного использования.

Расширения поставщика

Расширения ETEN

В ETEN (倚天) Китайская операционная система, следующие коды добавлены, чтобы сделать ее совместимой с IBM5550 кодовая страница:

  • A3C0 – A3E0: 33 управляющих символа.
  • C6A1 – C875: круг 1–10, скобка 1–10, римские цифры 1–9 (i – ix), радикальные глифы CJK, японский хирагана, Японский катакана, Кириллица символы
  • F9D6 – F9FE: «碁», «銹», «恒», «裏», «墻», «粧», «嫺» и 34 дополнительных символа.

В некоторых версиях Eten есть дополнительные графические символы и Упрощенный китайский символы.

Кодовые страницы Microsoft

Microsoft (微軟) создал собственную версию расширения Big5 как Кодовая страница 950 для использования с Майкрософт Виндоус, который поддерживает расширения ETEN, но только кодовые точки F9D6-F9FE. В Windows ME, то евро символ валюты был сопоставлен с кодовой точкой большой пятерки A3E1, но не в более поздних версиях операционной системы.

После установки Microsoft Патч HKSCS поверх традиционной китайской Windows (или любой версии Windows 2000 и выше с соответствующим языковым пакетом) приложения, использующие кодовую страницу 950, автоматически используют скрытую таблицу кодовой страницы 951. Таблица поддерживает все кодовые точки в HKSCS-2001, за исключением кодовых точек совместимости, указанных в стандарте.[3]

Кодовая страница 950, используемая в Windows 2000 и Windows XP, сопоставляет символы хираганы и катакана с блоком области частного использования Unicode при экспорте в Unicode, но с соответствующими блоками Unicode хираганы и катакана в Windows Vista.[нужна цитата ][требуется разъяснение ]

Шрифт ChinaSea

Китайское море шрифты (中國 海 字 集)[4] - это традиционные китайские шрифты, созданные ChinaSea. Шрифты редко продаются отдельно, но идут в комплекте с другими продуктами, такими как китайская версия Microsoft Office 97. Шрифты поддерживают японский Кана, кокудзи, и другие персонажи, отсутствующие в Большой пятерке. В результате расширения ChinaSea стали более популярными, чем расширения, поддерживаемые государством.[как? ] Некоторый Гонконг BBS использовал кодировки в шрифтах ChinaSea до появления HKSCS.

Шрифт 'Sakura'

В Шрифт 'Sakura' (日 和 字 集 Sakura Version) разработана в Гонконге и предназначена для совместимости с HKSCS. Он добавляет поддержку кокудзи и проприетарный дингбаты (в том числе Дораэмон ) не найден в HKSCS.

Unicode-at-on

Unicode-at-on (Юникод 補 完 計畫 ), ранее называвшееся расширением BIG5, расширяет BIG-5, изменяя таблицы кодовых страниц, но использует расширения ChinaSea, начиная с версии 2. Однако с банкротством ChinaSea, поздним развитием и растущей популярностью HKSCS и Unicode (проект несовместим с HKSCS), успех этого расширения в лучшем случае ограничен.

Несмотря на проблемы, символы, ранее сопоставленные с областью частного использования Unicode, переназначаются на стандартизованные эквиваленты при экспорте символов в формат Unicode.

OPG

Веб-сайты Oriental Daily News и Вс ежедневно, принадлежащих к Oriental Press Group Limited (東方 報業 集團 有限公司) в Гонконге использовался загружаемый шрифт с кодировкой расширения Big-5, отличной от HKSCS.

Официальные расширения

Шрифт Министерства образования Тайваня

Министерство образования Тайваня предоставило собственный шрифт, шрифт Министерства образования Тайваня (臺灣 教育部 造字 檔) для внутреннего использования.

Шрифт Тайваньского совета по сельскому хозяйству

Тайвань Шрифт Совета по сельскому хозяйству, Executive Yuan представил 133-символьный собственный шрифт Тайваньского совета по сельскому хозяйству (臺灣 農委會 常用 中文 外 字 集), который включает 84 символа из радикала «рыба» и 7 из радикала «птица».

Большой5 +

В Китайский фонд цифровых технологий (中文 數 位 化 技術 推廣 委員會) представил Big5 + в 1997 году, который использовал более 20000 кодовых точек для включения всех логограмм CJK в Unicode 1.1. Однако дополнительные кодовые точки превышают исходное определение Big-5 (Big5 + использует старшие байтовые значения 81-FE и младшие байтовые значения 40-7E и 80-FE), что не позволяет установить его в Microsoft Windows без новых файлов кодовых страниц.

Биг-5Э

Чтобы пользователи Windows могли использовать настраиваемые шрифты, Китайский фонд цифровых технологий представил Big-5E, который добавил 3954 символа (в трех блоках кодовых точек: 8E40-A0FE, 8140-86DF, 86E0-875C) и удалил японскую кана из расширения ETEN. В отличие от Big-5 +, Big5E расширяет Big-5 в пределах своего первоначального определения. Mac OS X 10.3 и позже поддерживает Big-5E в шрифтах LiHei Pro (儷 黑 Pro.ttf) и LiSong Pro (儷 宋 Pro.ttf).

Большой5-2003

В Китайский фонд цифровых технологий сделал определение Big5 и поместил его в CNS 11643 в виде заметок, что делает его частью официального стандарта Тайваня.

Big5-2003 включает в себя все символы Big-5, представленные в расширениях ETEN 1984 года (кодовые точки A3C0-A3E0, C6A1-C7F2 и F9D6-F9FE) и символ евро. Кириллические символы не были включены, поскольку, по утверждениям официальных органов, CNS 11643 не включает такие символы.

CDP

В Academia Sinica сделали китайский шрифт обработки данных (漢字 構 形 資料 庫) в конце 1990-х годов, который в последней версии 2.5 включал 112 533 символа, что немного меньше Модзикё шрифты.

HKSCS

Гонконг также принял Big5 для кодировки символов. Однако, письменный кантонский диалект имеет собственные символы, недоступные в обычном наборе символов Big5. Чтобы решить эту проблему, Правительство Гонконга создали расширения Big5 Правительственный набор китайских символов (GCCS) в 1995 г. и Набор дополнительных символов Гонконга в 1999 году. Гонконгские расширения обычно распространялись в виде патчей. Он все еще распространяется как патч Microsoft, но полный шрифт Unicode также доступен на веб-сайте правительства Гонконга.

Существует две схемы кодирования HKSCS: одна схема кодирования предназначена для стандарта кодирования Big-5, а другая - для стандарта кодирования. ISO 10646 стандарт. После первоначального выпуска существуют также HKSCS-2001 и HKSCS-2004. HKSCS-2004 технически согласован с ISO / IEC 10646: 2003 и поправкой 1 к нему, опубликованной в апреле 2004 года Международной организацией по стандартизации (ISO).

HKSCS включает все символы из общего расширения ETEN, а также некоторые символы из Упрощенный китайский, географические названия, имена людей и кантонские фразы (включая ненормативная лексика ).

По состоянию на 2020 год, самое последнее издание HKSCS - HKSCS-2016; однако последней версией HKSCS, которая закодировала все свои символы в Big5, была HKSCS-2008, в то время как символы, добавленные в более поздних редакциях, сопоставлены с ISO 10646 / Unicode только (как Единые иероглифы CJK горизонтальное расширение глифа там, где это необходимо).[5] Вдобавок, как и в случае с Гонконгом, есть также персонажи, которые нужны Макао, но не включены ни в Big5, ни в HKSCS, следовательно, Дополнительный набор символов Макао был разработан, включая символы, которых нет в Big5 или HKSCS; это, однако, также не закодировано в Big5. Первая партия из 121 символа MSCS была отправлена ​​для включения в отображение Unicode в 2009 году.[6] а первая финальная версия MSCS была создана в 2020 году.[5]

Кана и кириллица

Есть два основных макета расширения Big5 для кодирования Кана, Русская кириллица и перечислить маркеры в диапазоне от 0xC6A1 до 0xC875. Они несовместимы друг с другом.[7] Они сравниваются в таблице ниже.

Раскладка каны и кириллицы ETEN также используется HKSCS[8] (в том числе HTML5 )[9] и Unicode-At-On[10] варианты, и раскладка ETEN каны (с опущенной кириллицей) также используется вариантом Big5-2003.[11] Опубликованные файлы сопоставления для Окна-950 не включать ни то, ни другое, и этот диапазон Big5 отображается в Зона частного использования реализацией Windows-950 из Международные компоненты для Unicode.[12] Python с cp950 кодек использует макет BIG5.TXT.[13]

Смотрите также

использованная литература

  1. ^ Наборы символов китайского Mac
  2. ^ Apple, Inc (2005-04-04) [1996-06-31]. Сопоставление (внешняя версия) от китайской традиционной кодировки Mac OS до Unicode 3.0 и более поздних версий. Консорциум Unicode.
  3. ^ «狗 爺 語錄» Архив блога »Что такое кодовая страница 951 (CP951)?». Архивировано из оригинал на 2007-02-22. Получено 2006-09-27.
  4. ^ 黃 國書. "Chinasea 1.0 中國 海 字 集". ISU FTP. Архивировано из оригинал на 2005-03-19. Получено 2016-12-05.
  5. ^ а б Правительство Специального административного района Макао (11.06.2020). «Подача вертикального расширения Макао (символы UNC), горизонтального расширения и регистрации IVSes для MSCS» (PDF). ISO / IEC JTC 1 / SC 2 / РГ 2 IRGN 2430.
  6. ^ Рабочая группа компьютерного кодирования китайских иероглифов (12.06.2009). «Представление персонажей из набора символов информационных систем Макао» (PDF). ISO / IEC JTC 1 / SC 2 / РГ 2 IRGN 1580. Архивировано с оригинал (PDF) на 2015-01-04.
  7. ^ Лунде, Кен (1996-07-12). «2.3.1: БОЛЬШАЯ ПЯТЬ». CJK.INF Версия 2.1.
  8. ^ «Big5HKSCS-2004». Mozilla Тайвань.
  9. ^ ван Кестерен, Энн. "big5". Стандарт кодирования. WHATWG.
  10. ^ "UAO 2.41 b2u". Mozilla Тайвань.
  11. ^ "Биг5-2003 б2у". Mozilla Тайвань.
  12. ^ IBM; Консорциум Unicode (2002-12-03). "окна-950-2000". Международные компоненты для Unicode.
  13. ^ Скрипт, показывающий вывод кодека cp950 для ведущих байтов 0xC6 и 0xC7
  14. ^ Консорциум Unicode (2015-12-02) [1994-02-11]. Таблица BIG5 в Unicode (полная).
  15. ^ "Big5-ETen против таблицы сопоставления Unicode". Mozilla Тайвань. 2002-02-24.

внешние ссылки