Кодовая страница 950 - Code page 950

Кодовая страница 950
Язык (и)Традиционный китайский
СделаноMicrosoft
РасширяетсяBig5
На основеBig5-ETen

Кодовая страница 950 это кодовая страница используется на Майкрософт Виндоус за Традиционный китайский. Это реализация Microsoft де-факто стандарт Big5 кодировка символов. Кодовая страница не зарегистрирована с IANA,[1] и, следовательно, это не стандарт для передачи информации через Интернет, хотя обычно это обозначается просто как большой5, в том числе функциями библиотеки Microsoft.[2]

Терминология и варианты

Основное различие между кодовой страницей Windows 950 и «обычной» (не зависящей от производителя) Big5 заключается во включении подмножества ETEN расширения для Big5 на 0x С F9D6 по 0xF9FE (включая семь китайские иероглифы 碁, 銹, 裏, 墻, 恒, 粧 и 嫺, за которыми следуют 34 прямоугольные символы и элементы блока ). Диапазоны, используемые некоторыми другими расширенными символами ETEN, вместо этого определены как определенные конечным пользователем (частное использование) символы.[3]

Реализация IBM CCSID 950,[4] немного отличается, включая некоторые расширения ETEN для ведущих байтов 0xA3,[5] 0xC6,[3][6] 0xC7[7] и 0xC8,[3][8] опуская те, у которых ведущий байт 0xF9 (который включает Microsoft), сопоставив их вместо Зона частного использования как определяемые пользователем символы.[3][9]

Microsoft обновила свою версию кодовой страницы 950 в 2000 году, добавив знак евро (€) в двухбайтовом коде 0xA3E1. IBM называет обновление знака евро как CCSID 1370 (который включает как однобайтовые (0x80), так и двухбайтовые знаки евро)[10] или же CCSID 1373 (который включает только двухбайтовый знак евро).[11] Кодовая страница 1373 соответствует поведению Microsoft, в которое включены расширения ETEN.[12][13][14][15][16]

CCSID 950 состоит из один байт кодовая страница 1114 (CCSID 1114) и двойной байт кодовая страница 947 (CCSID 947),[4][17][18] тогда как расширенный CCSID 1370 знака евро состоит из однобайтовой кодовой страницы 1114 (CCSID 5210) и двухбайтовой кодовой страницы 947 (CCSID 21427).[10][19][20]

Однобайтовые коды

Ниже приведены однобайтовые графические символы, включенные IBM. Коды от 0x00 до 0x1F и 0x7F могут использоваться для Коды управления C0 вместо этого, в зависимости от контекста (сравните кодовая страница 437, кодовая страница 897 ). Как отмечалось выше, однобайтовый знак евро в 0x80 не включен ни в IBM CCSID 950, ни в 1373, ни в Microsoft.

Кодовая страница 1114[21][22]
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_
 

263A

263B

2665

2666

2663

2660

2022

25D8

25CB

25D9

2642

2640

266A

266B

263C
1_
25BA

25C4

2195

203C

00B6
§
00A7

25AC

21A8

2191

2193

2192

2190

221F

2194

25B2

25 г. до н.э.
2_SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_@
0040
А
0041
B
0042
C
0043
D
0044
E
0045
F
0046
грамм
0047
ЧАС
0048
я
0049
J
004A
K
004B
L
004C
M
004D
N
004E
О
004F
5_п
0050
Q
0051
р
0052
S
0053
Т
0054
U
0055
V
0056
W
0057
Икс
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_`
0060
а
0061
б
0062
c
0063
d
0064
е
0065
ж
0066
грамм
0067
час
0068
я
0069
j
006A
k
006B
л
006C
м
006D
п
006E
о
006F
7_п
0070
q
0071
р
0072
s
0073
т
0074
ты
0075
v
0076
ш
0077
Икс
0078
у
0079
z
007A
{
007B
|
007C
}
007D
~
007E

2302
8_
20AC

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Остальные - это части двухбайтовой последовательности.

Использование зоны частного использования

Картографирование от Big5 EUDC к PUA кодовые точки[23]
Диапазон Big5Диапазон UnicodeФормула[24]
81 40–8D FEU + EEB8 – U + F6B00xeeb8 + (157 * (H-0x81)) + (L <0x80)? (L-0x40) :( L-0x62)
8E 40 – A0 FEU + E311 – U + EEB70xe311 + (157 * (H-0x8e)) + (L <0x80)? (L-0x40) :( L-0x62)
C6 A1 – C8 FEU + F6B1 – U + F8480xf672 + (157 * (H-0xc6)) + (L <0x80)? (L-0x40) :( L-0x62)
FA 40 – FE FEU + E000 – U + E3100xe000 + (157 * (H-0xfa)) + (L <0x80)? (L-0x40) :( L-0x62)

Это отображение также используется в HKSCS где данный глиф еще не найден в указанной версии Unicode.[25]

Смотрите также

Рекомендации

  1. ^ «Наборы символов». IANA - Реестры протоколов.
  2. ^ "Свойство Encoding.WindowsCodePage - .NET Framework (текущая версия)". MSDN. Microsoft.
  3. ^ а б c d Чжу, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Чанг, WCH .; Криспин, М. (1996). «Кодировка китайских символов для Интернет-сообщений». Запросы на комментарии. IETF. Дои:10.17487 / rfc1922. RFC 1922.
  4. ^ а б «Информационный документ CCSID 950». Архивировано из оригинал на 2014-12-02.
  5. ^ "Ведущий байт A3: ibm-950_P110-1999". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  6. ^ "Ведущий байт C6: ibm-950_P110-1999". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  7. ^ "Ведущий байт C7: ibm-950_P110-1999". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  8. ^ "Ведущий байт C8: ibm-950_P110-1999". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  9. ^ "Ведущий байт F9: ibm-950_P110-1999". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  10. ^ а б «Информационный документ CCSID 1370». Архивировано из оригинал on 2016-03-27.
  11. ^ "ibm-1373_P100-2002". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  12. ^ "Ведущий байт A3: ibm-1373_P100-2002". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  13. ^ "Ведущий байт C6: ibm-1373_P100-2002". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  14. ^ "Ведущий байт C7: ibm-1373_P100-2002". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  15. ^ "Ведущий байт C8: ibm-1373_P100-2002". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  16. ^ «Ведущий байт F9: ibm-1373_P100-2002». Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  17. ^ «Информационный документ CCSID 1114». Архивировано из оригинал on 2016-03-27.
  18. ^ «Информационный документ CCSID 947». Архивировано из оригинал на 2014-12-01.
  19. ^ «Информационный документ CCSID 5210». Архивировано из оригинал 2014-11-29.
  20. ^ «Информационный документ CCSID 21427». Архивировано из оригинал on 2016-03-27.
  21. ^ Кодовая страница CPGID 01114 (pdf) (PDF), IBM
  22. ^ Кодовая страница CPGID 01114 (txt), IBM
  23. ^ "Таблица наилучшего соответствия Windows: CP950". unicode.org. Получено 13 сентября 2016.
  24. ^ "Big5". База данных кандзи. Получено 13 сентября 2016.
  25. ^ «Big5-HKSCS: 2008». Архивировано из оригинал на 2016-09-13.

внешняя ссылка