GB 2312 - Википедия - GB 2312

ГБ 2312
MIME / IANAGB_2312-80 (GB2312 для обычной формы EUC)
Псевдоним (а)iso-ir-58, китайский, csISO58GB231280
Язык (и)Упрощенный китайский, английский, русский
Частичная поддержка:
Греческий, Японский
СтандартГБ / т 2312-1980
КлассификацияISO-2022 -совместимый DBCS, CJK кодирование
РасширенияISO-IR-165
Форматы кодированияEUC-CN (GB2312),
HZ-GB-2312
ПредшествуетКитайский телеграфный код
ПреемникГБК, ГБ 18030
Другая связанная кодировка (и)JIS X 0208, KS X 1001

ГБ / т 2312-1980 ключевой чиновник набор символов из Китайская Народная Республика, используется для Упрощенные китайские иероглифы. GB2312 это зарегистрированное интернет-имя для EUC-CN, которая является его обычной закодированной формой. ГБ относится к Стандарты Guobiao (国家 标准), а Т суффикс (推荐; Tuījiàn; «рекомендация») обозначает необязательный стандарт.[1]

ГБ / т 2312-1980 изначально был обязательным национальным стандартом, обозначенным ГБ 2312-1980. Однако в соответствии с Национальным стандартным бюллетенем Китайская Народная Республика в 2017 году GB 2312 больше не является обязательным, а его стандартный код изменен на ГБ / т 2312-1980.[2] ГБ / т 2312-1980 был заменен ГБК и GB18030, которые включают дополнительные символы, но ГБ / т 2312 по-прежнему широко используется в качестве подмножества этих кодировок.

По состоянию на июнь 2020 г., GB2312 - самая популярная заявленная кодировка для китайского языка в Интернете, при этом 13,6% веб-страниц обслуживаются из Китая и территорий, заявивших об этом,[3] или 0,4% всех веб-страниц в мире, по сравнению с 3,5% в январе 2010 г.[4] Однако обратите внимание, что все основные веб-браузеры декодируют документы, помеченные как, например, «GB2312» или «ГБ 2312"(хотя не все для" GB_2312 "), как если бы было отмечено"ГБК ",[5] которая является кодировкой надмножества и ГБ 2312 и GBK в совокупности составляют 16,7% (или 0,6% в мире).

Существует аналогичный набор символов, известный как ГБ / т 12345, близкий к GB / T 2312, но с традиционный формы символов, заменяющие упрощенные формы, и некоторые дополнительные 62 дополнительных символа.[6][7] Шрифты с кодировкой GB часто идут парами: один с набором символов GB / T 2312 (упрощенный), а другой - с набором символов GB / T 12345 (традиционный).

Символы

В то время как GB / T 2312 покрывает более 99,99% использования современного китайского текста,[8] исторические тексты и многие имена остаются за рамками. Старый ГБ 2312 стандарт включает 6763 китайских иероглифа (на двух уровнях: первый - по чтению, второй - по радикальный затем количество штрихов), а также символы и знаки препинания, японский Кана, то Греческий и Кириллица, Чжуинь, и двухбайтовый набор Пиньинь буквы с тоновыми отметками. В более поздней версии GB / T 2312-1980 есть 7 445 букв.

Символы в GB / T 2312 расположены в сетке 94x94 (как в ISO 2022 ), а двухбайтовая кодовая точка каждого символа выражается в форме kuten (или quwei), которая определяет строку (ku или qu) и позицию символа в строке (cell, ten или wei).

Строки (пронумерованные от 1 до 94) содержат следующие символы:

Строки 10–15 и 90–94 не назначены.

Для GB / T 2312-1980 он содержит 682 знака и 6763 китайских иероглифа.

Кодировки GB / T 2312

EUC-CN

EUC-CN часто используется как кодировка символов (т.е. для внешнего хранилища) в программах, которые имеют дело с GB / T 2312, таким образом поддерживая совместимость с ASCII. Два байты используются для представления каждого символа, не найденного в ASCII. Значение первого байта - от 0xA1–0xF7 (161–247), а значение второго байта - от 0xA1–0xFE (161–254). Поскольку все эти диапазоны выходят за рамки ASCII, например UTF-8, при использовании EUC-CN можно проверить, является ли байт частью многобайтовой конструкции, но не является ли байт первым или последним.

В сравнении с UTF-8, GB2312 (собственный или закодированный в EUC-CN) более эффективен при хранении: в то время как UTF-8 использует три байта[а] на Идеограф CJK, GB2312 использует только два. Однако GB2312 не поддерживает столько идеограмм, сколько Unicode.

Чтобы сопоставить точки кода kuten с байтами, добавьте 160 (0xA0) к номеру строки (ku, разряды 1000 и 100) кодовой точки, чтобы сформировать старший байт, и добавьте 160 к номеру столбца (десять, 10 и 1-е место) кодовой точки для формирования младшего байта.

Например, если у вас есть кодовая точка 4566 GB / T 2312 ("外",[9] что означает иностранный), старший байт будет использовать номер строки 45: 45 + 160 = 205 = 0xCD, а младший байт будет взят из столбца, 66: 66 + 160 = 212 = 0xE2. Итак, полная кодировка - 0xCDE2.[10]

Гц

Гц это еще одна кодировка GB 2312, которая используется в основном для Usenet проводки.

Таблицы кодов

В таблицах ниже, где пара шестнадцатеричных чисел дана для байта префикса или байта кодирования, меньшее (с неустановленным или недоступным восьмым битом) используется при кодировании по GL (0x 21-0x7E), как в ISO-2022-CN или же HZ-GB-2312, а больший (с установленным восьмым битом) используется в более типичном случае, когда он кодируется через GR (0xA1-0xFE), как в EUC-CN, ГБК или же ГБ 18030. Qūwèi числа даны в десятичной системе счисления.

Когда GB / T 2312 кодируется через GR, для обоих байтов установлен восьмой бит (т.е. больше 0x7F). GBK и GB 18030 также используют двухбайтовые коды, в которых только первый байт имеет восьмой бит, установленный для целей расширения: такие коды находятся вне плоскости GB / T 2312 и не приводятся здесь в таблице.

Ведущий байт

Эта диаграмма детализирует общую компоновку основной плоскости набора символов GB / T 2312 по старшим байтам. Для ведущих байтов, используемых для символов, кроме Ханзи, предоставляются ссылки на диаграммы на этой странице, в которых перечислены символы, закодированные под этим старшим байтом. Для ведущих байтов, используемых для hanzi, приведены ссылки на соответствующий раздел Викисловарь Индекс Ханзи.

GB 2312 (ведущие байты)
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_SP[b]
0020
 
Пунктир.
ВЕСТИ
1-_
Список
ВЕСТИ
2-_
Alnum.
ВЕСТИ
3-_
Хирагана
ВЕСТИ
4-_
Катакана
ВЕСТИ
5-_
Греческий
ВЕСТИ
6-_
Кириллица
ВЕСТИ
7-_
Phonet.
ВЕСТИ
8-_
Коробка
ВЕСТИ
9-_

 
10-_

 
11-_

 
12-_

 
13-_

 
14-_

 
15-_
3_ / B_Hanzi L1
ВЕСТИ
16-_
Hanzi L1
ВЕСТИ
17-_
Hanzi L1
ВЕСТИ
18-_
Hanzi L1
ВЕСТИ
19-_
Hanzi L1
ВЕСТИ
20-_
Hanzi L1
ВЕСТИ
21-_
Hanzi L1
ВЕСТИ
22-_
Hanzi L1
ВЕСТИ
23-_
Hanzi L1
ВЕСТИ
24-_
Hanzi L1
ВЕСТИ
25-_
Hanzi L1
ВЕСТИ
26-_
Hanzi L1
ВЕСТИ
27-_
Hanzi L1
ВЕСТИ
28-_
Hanzi L1
ВЕСТИ
29-_
Hanzi L1
ВЕСТИ
30-_
Hanzi L1
ВЕСТИ
31-_
4_ / C_Hanzi L1
ВЕСТИ
32-_
Hanzi L1
ВЕСТИ
33-_
Hanzi L1
ВЕСТИ
34-_
Hanzi L1
ВЕСТИ
35-_
Hanzi L1
ВЕСТИ
36-_
Hanzi L1
ВЕСТИ
37-_
Hanzi L1
ВЕСТИ
38-_
Hanzi L1
ВЕСТИ
39-_
Hanzi L1
ВЕСТИ
40-_
Hanzi L1
ВЕСТИ
41-_
Hanzi L1
ВЕСТИ
42-_
Hanzi L1
ВЕСТИ
43-_
Hanzi L1
ВЕСТИ
44-_
Hanzi L1
ВЕСТИ
45-_
Hanzi L1
ВЕСТИ
46-_
Hanzi L1
ВЕСТИ
47-_
5_ / D_Hanzi L1
ВЕСТИ
48-_
Hanzi L1
ВЕСТИ
49-_
Hanzi L1
ВЕСТИ
50-_
Hanzi L1
ВЕСТИ
51-_
Hanzi L1
ВЕСТИ
52-_
Hanzi L1
ВЕСТИ
53-_
Hanzi L1
ВЕСТИ
54-_
Hanzi L1
ВЕСТИ
55-_
Hanzi L2
ВЕСТИ
56-_
Hanzi L2
ВЕСТИ
57-_
Hanzi L2
ВЕСТИ
58-_
Hanzi L2
ВЕСТИ
59-_
Hanzi L2
ВЕСТИ
60-_
Hanzi L2
ВЕСТИ
61-_
Hanzi L2
ВЕСТИ
62-_
Hanzi L2
ВЕСТИ
63-_
6_ / E_Hanzi L2
ВЕСТИ
64-_
Hanzi L2
ВЕСТИ
65-_
Hanzi L2
ВЕСТИ
66-_
Hanzi L2
ВЕСТИ
67-_
Hanzi L2
ВЕСТИ
68-_
Hanzi L2
ВЕСТИ
69-_
Hanzi L2
ВЕСТИ
70-_
Hanzi L2
ВЕСТИ
71-_
Hanzi L2
ВЕСТИ
72-_
Hanzi L2
ВЕСТИ
73-_
Hanzi L2
ВЕСТИ
74-_
Hanzi L2
ВЕСТИ
75-_
Hanzi L2
ВЕСТИ
76-_
Hanzi L2
ВЕСТИ
77-_
Hanzi L2
ВЕСТИ
78-_
Hanzi L2
ВЕСТИ
79-_
7_ / F_Hanzi L2
ВЕСТИ
80-_
Hanzi L2
ВЕСТИ
81-_
Hanzi L2
ВЕСТИ
82-_
Hanzi L2
ВЕСТИ
83-_
Hanzi L2
ВЕСТИ
84-_
Hanzi L2
ВЕСТИ
85-_
Hanzi L2
ВЕСТИ
86-_
Hanzi L2
ВЕСТИ
87-_

 
88-_

 
89-_

 
90-_

 
91-_

 
92-_

 
93-_

 
94-_
DEL
007F
 
}}

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Ряды без ханьци

В следующих таблицах перечислены не-Ханзи символы доступны в ГБ / Т 2312, в ГБ / Т 12345 и в двухбайтовой области 1 ГБ 18030 (что примерно соответствует области неганзи GB / T 2312). Примечания сделаны, где они различаются, и где ГБ 6345.1 и ISO-IR-165 отличаются от этих. Для сравнения сделаны перекрестные ссылки на статьи о других наборах национальных символов CJK.

Набор символов 0x21 / 0xA1 (строка 1: знаки препинания и символы)

Эта строка содержит знаки препинания, математические операторы и другие символы.

Отображения Unicode вставлять (Китайский : 间隔 点; горит 'разделительная точка') и em dash (Китайский : 破折号) в подмножестве ГБК и ГБ 18030 соответствует GB / T 2312 (U + 00B7 · СРЕДНЯЯ ТОЧКА и U + 2014 EM DASH) отличаются от перечисленных в GB2312.TXT (U + 30FB КАТАКАНА СРЕДНЯЯ ТОЧКА и U + 2015 ПЕРЕКЛАДИНА), который представляет собой файл данных, который ранее был предоставлен Консорциум Unicode,[11] хотя он был признан устаревшим с августа 2011 г.[12] и больше не размещается с сентября 2016 года.

По состоянию на 2015 год Microsoft .Net Framework следует сопоставлениям GB 18030 при сопоставлении этих двух символов в данных с меткой gb2312, в то время как ICU,[13] iconv-1.14,[14] php-5.6, ActivePerl-5.20, Java 1.7 и Python 3.4[15] следовать GB2312.TXT в ответ на gb2312 метка. Ruby 2.2 совместим с обеими реализациями; он внутренне преобразует конфликтующие символы в подмножество GB 18030. В W3C /WHATWG техническая рекомендация по использованию с HTML5 указывает кодировку GBK, которая будет выведена для потоков, помеченных gb2312, который, в свою очередь, использует декодер GB18030.[16]

Другие различные сопоставления были определены и используются отдельными поставщиками,[11] в том числе один из яблоко.[17] В следующей таблице показаны сопоставления GB 18030.[18] для этих символов GB / T 2312 сначала, а затем любые другие задокументированные сопоставления.

GB 2312 (с префиксом 0x21 / 0xA1)
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_IDSP
3000
1-1

3001
1-2

3002
1-3
· /
00B7 / 30FB
1-4
ˉ
02C9
1-5
ˇ
02C7
1-6
¨
00A8
1-7

3003
1-8

3005
1-9
/
2014/2015
1-10
/
FF5E / 301C
1-11
/
2016/2225
1-12
/
2026 / 22EF
1-13

2018
1-14

2019
1-15
3_ / B_
201C
1-16

201D
1-17

3014
1-18

3015
1-19

3008
1-20

3009
1-21

300А
1-22

300B
1-23

300C
1-24

300D
1-25

300E
1-26

300F
1-27

3016
1-28

3017
1-29

3010
1-30

3011
1-31
4_ / C_±
00B1
1-32
×
00D7
1-33
÷
00F7
1-34

2236
1-35

2227
1-36

2228
1-37

2211
1-38

220F
1-39

222A
1-40

2229
1-41

2208
1-42

2237
1-43

221A
1-44

22A5
1-45

2225
1-46

2220
1-47
5_ / D_
2312
1-48

2299
1-49

222B
1-50

222E
1-51

2261
1-52

224C
1-53

2248
1-54

223D
1-55

221D
1-56

2260
1-57

226E
1-58

226F
1-59

2264
1-60

2265
1-61

221E
1-62

2235
1-63
6_ / E_
2234
1-64

2642
1-65

2640
1-66
°
00B0
1-67

2032
1-68

2033
1-69

2103
1-70

FF04
1-71
¤
00A4
1-72
/¢
FFE0 / 00A2
1-73
/£
FFE1 / 00A3
1-74

2030
1-75
§
00A7
1-76

2116
1-77

2606
1-78

2605
1-79
7_ / F_
25CB
1-80

25CF
1-81

25CE
1-82

25C7
1-83

25C6
1-84

25A1
1-85

25A0
1-86

25B3
1-87

25B2
1-88

203B
1-89

2192
1-90

2190
1-91

2191
1-92

2193
1-93

3013
1-94

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x22 / 0xA2 (строка 2: маркеры списка)

Эта строка содержит различные типы маркеров списка. А знак евро также включен ГБ 18030.

GB 2312 (с префиксом 0x22 / 0xA2)
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_
2170
2-1

2171
2-2

2172
2-3

2173
2-4

2174
2-5

2175
2-6

2176
2-7

2177
2-8

2178
2-9

2179
2-10

 
2-11

 
2-12

 
2-13

 
2-14

 
2-15
3_ / B_
 
2-16

2488
2-17

2489
2-18

248A
2-19

248B
2-20

248C
2-21

248D
2-22

248E
2-23

248F
2-24

2490
2-25

2491
2-26

2492
2-27

2493
2-28

2494
2-29

2495
2-30

2496
2-31
4_ / C_
2497
2-32

2498
2-33

2499
2-34

249A
2-35

249B
2-36

2474
2-37

2475
2-38

2476
2-39

2477
2-40

2478
2-41

2479
2-42

247A
2-43

247B
2-44

247C
2-45

247D
2-46

247E
2-47
5_ / D_
247F
2-48

2480
2-49

2481
2-50

2482
2-51

2483
2-52

2484
2-53

2485
2-54

2486
2-55

2487
2-56

2460
2-57

2461
2-58

2462
2-59

2463
2-60

2464
2-61

2465
2-62

2466
2-63
6_ / E_
2467
2-64

2468
2-65

2469
2-66

20AC
2-67

 
2-68

3220
2-69

3221
2-70

3222
2-71

3223
2-72

3224
2-73

3225
2-74

3226
2-75

3227
2-76

3228
2-77

3229
2-78

 
2-79
7_ / F_
 
2-80

2160
2-81

2161
2-82

2162
2-83

2163
2-84

2164
2-85

2165
2-86

2166
2-87

2167
2-88

2168
2-89

2169
2-90

216A
2-91

216B
2-92

 
2-93

 
2-94

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x23 / 0xA3 (строка 3: ISO 646-CN)

Эта строка содержит ISO 646-CN (GB / T 1988-80), национальный аналог ASCII. Сравнивать 3 ряд КС Х 1001, который делает то же самое с Южная Корея версия ISO 646 и строка 3 JIS X 0208 и КПС 9566, которые включают только буквенно-цифровое подмножество, но в том же макете. В следующей таблице приведен ISO 646-CN.

ISO 646-CN; отображения неполной ширины
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_ 
 
 
!
0021
3-1
"
0022
3-2
#
0023
3-3
¥
00A5
3-4
%
0025
3-5
&
0026
3-6
'
0027
3-7
(
0028
3-8
)
0029
3-9
*
002A
3-10
+
002B
3-11
,
002C
3-12
-
002D
3-13
.
002E
3-14
/
002F
3-15
3_ / B_0
0030
3-16
1
0031
3-17
2
0032
3-18
3
0033
3-19
4
0034
3-20
5
0035
3-21
6
0036
3-22
7
0037
3-23
8
0038
3-24
9
0039
3-25
:
003A
3-26
;
003B
3-27
<
003C
3-28
=
003D
3-29
>
003E
3-30
?
003F
3-31
4_ / C_@
0040
3-32
А
0041
3-33
B
0042
3-34
C
0043
3-35
D
0044
3-36
E
0045
3-37
F
0046
3-38
грамм
0047
3-39
ЧАС
0048
3-40
я
0049
3-41
J
004A
3-42
K
004B
3-43
L
004C
3-44
M
004D
3-45
N
004E
3-46
О
004F
3-47
5_ / D_п
0050
3-48
Q
0051
3-49
р
0052
3-50
S
0053
3-51
Т
0054
3-52
U
0055
3-53
V
0056
3-54
W
0057
3-55
Икс
0058
3-56
Y
0059
3-57
Z
005A
3-58
[
005B
3-59
\
005C
3-60
]
005D
3-61
^
005E
3-62
_
005F
3-63
6_ / E_`
0060
3-64
а
0061
3-65
б
0062
3-66
c
0063
3-67
d
0064
3-68
е
0065
3-69
ж
0066
3-70
грамм
0067
3-71
час
0068
3-72
я
0069
3-73
j
006A
3-74
k
006B
3-75
л
006C
3-76
м
006D
3-77
п
006E
3-78
о
006F
3-79
7_ / F_п
0070
3-80
q
0071
3-81
р
0072
3-82
s
0073
3-83
т
0074
3-84
ты
0075
3-85
v
0076
3-86
ш
0077
3-87
Икс
0078
3-88
у
0079
3-89
z
007A
3-90
{
007B
3-91
|
007C
3-92
}
007D
3-93

203E
3-94
 
 
 

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

При использовании в кодировке, допускающей комбинацию с ASCII, например EUC-CN (и его надмножество ГБ 18030 ) эти символы обычно реализуются как полная ширина символы, следовательно, отображения на Формы половинной и полной ширины блок используются, как показано ниже. ГБ 6345.1 также обрабатывает эту строку как полную ширину и добавляет формы половинной ширины (как указано выше) как строку 10.[1] Apple в основном сопоставляет эту строку с кодовыми точками полной ширины, как показано ниже, но использует сопоставления неполной ширины для перекрытия и знак юаня как указано выше.[17]

GB 2312 (с префиксом 0x23 / 0xA3); сопоставления полной ширины
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_
FF01
3-1

FF02
3-2

FF03
3-3

FFE5
3-4

FF05
3-5

FF06
3-6

FF07
3-7

FF08
3-8

FF09
3-9

FF0A
3-10

FF0B
3-11

FF0C
3-12

FF0D
3-13

FF0E
3-14

FF0F
3-15
3_ / B_
FF10
3-16

FF11
3-17

FF12
3-18

FF13
3-19

FF14
3-20

FF15
3-21

FF16
3-22

FF17
3-23

FF18
3-24

FF19
3-25

FF1A
3-26

FF1B
3-27

FF1C
3-28

FF1D
3-29

FF1E
3-30

FF1F
3-31
4_ / C_
FF20
3-32

FF21
3-33

FF22
3-34

FF23
3-35

FF24
3-36

FF25
3-37

FF26
3-38

FF27
3-39

FF28
3-40

FF29
3-41

FF2A
3-42

FF2B
3-43

FF2C
3-44

FF2D
3-45

FF2E
3-46

FF2F
3-47
5_ / D_
FF30
3-48

FF31
3-49

FF32
3-50

FF33
3-51

FF34
3-52

FF35
3-53

FF36
3-54

FF37
3-55

FF38
3-56

FF39
3-57

FF3A
3-58

FF3B
3-59

FF3C
3-60

FF3D
3-61

FF3E
3-62
_
FF3F
3-63
6_ / E_
FF40
3-64

FF41
3-65

FF42
3-66

FF43
3-67

FF44
3-68

FF45
3-69

FF46
3-70
/ɡ[c]
FF47 / 0261
3-71

FF48
3-72

FF49
3-73

FF4A
3-74

FF4B
3-75

FF4C
3-76

FF4D
3-77

FF4E
3-78

FF4F
3-79
7_ / F_
FF50
3-80

FF51
3-81

FF52
3-82

FF53
3-83

FF54
3-84

FF55
3-85

FF56
3-86

FF57
3-87

FF58
3-88

FF59
3-89

FF5A
3-90

FF5B
3-91

FF5C
3-92

FF5D
3-93

FFE3
3-94

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x24 / 0xA4 (строка 4: хирагана)

Этот набор содержит Хирагана для написания японский язык.

Сравнить с ряд 4 JIS X 0208, которому соответствует эта строка, и с 10 ряд КС Х 1001 и КПС 9566, которые используют тот же макет, но в другой строке.

GB 2312 (с префиксом 0x24 / 0xA4)
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_
3041
4-1

3042
4-2

3043
4-3

3044
4-4

3045
4-5

3046
4-6

3047
4-7

3048
4-8

3049
4-9

304A
4-10

304B
4-11

304C
4-12

304D
4-13

304E
4-14

304F
4-15
3_ / B_
3050
4-16

3051
4-17

3052
4-18

3053
4-19

3054
4-20

3055
4-21

3056
4-22

3057
4-23

3058
4-24

3059
4-25

305A
4-26

305B
4-27

305C
4-28

305D
4-29

305E
4-30

305F
4-31
4_ / C_
3060
4-32

3061
4-33

3062
4-34

3063
4-35

3064
4-36

3065
4-37

3066
4-38

3067
4-39

3068
4-40

3069
4-41

306A
4-42

306B
4-43

306C
4-44

306D
4-45

306E
4-46

306F
4-47
5_ / D_
3070
4-48

3071
4-49

3072
4-50

3073
4-51

3074
4-52

3075
4-53

3076
4-54

3077
4-55

3078
4-56

3079
4-57

307A
4-58

307B
4-59

307C
4-60

307D
4-61

307E
4-62

307F
4-63
6_ / E_
3080
4-64

3081
4-65

3082
4-66

3083
4-67

3084
4-68

3085
4-69

3086
4-70

3087
4-71

3088
4-72

3089
4-73

308A
4-74

308B
4-75

308C
4-76

308D
4-77

308E
4-78

308F
4-79
7_ / F_
3090
4-80

3091
4-81

3092
4-82

3093
4-83

 
4-84

 
4-85

 
4-86

 
4-87

 
4-88

 
4-89

 
4-90

 
4-91

 
4-92

 
4-93

 
4-94

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x25 / 0xA5 (строка 5: катакана)

Этот набор содержит Катакана для написания японский язык. Тем не менее Знак долгой гласной (японского), который используется в тексте катаканы и включен в строку 1 JIS X 0208, не включен в GB / T 2312, хотя он добавлен в GBK и GB 18030 вне основного самолета GB / T 2312,[20] по адресу 0xA960.[18]

Сравнить с строка 5 JIS X 0208, которому соответствует эта строка, и с 11 ряд КС Х 1001 и КПС 9566, которые используют тот же макет, но в другой строке.

GB 2312 (с префиксом 0x25 / 0xA5)
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_
30A1
5-1

30A2
5-2

30A3
5-3

30A4
5-4

30A5
5-5

30A6
5-6

30A7
5-7

30A8
5-8

30A9
5-9

30AA
5-10

30AB
5-11

30AC
5-12

30 г.
5-13

30 AE
5-14

30AF
5-15
3_ / B_
30B0
5-16

30B1
5-17

30B2
5-18

30B3
5-19

30B4
5-20

30B5
5-21

30B6
5-22

30B7
5-23

30B8
5-24

30B9
5-25

30BA
5-26

30BB
5-27

30 г. до н.э.
5-28

30BD
5-29

30BE
5-30

30BF
5-31
4_ / C_
30C0
5-32

30C1
5-33

30C2
5-34

30C3
5-35

30C4
5-36

30C5
5-37

30C6
5-38

30C7
5-39

30C8
5-40

30C9
5-41

30CA
5-42

30КБ
5-43

30CC
5-44

30CD
5-45

30CE
5-46

30CF
5-47
5_ / D_
30D0
5-48

30D1
5-49

30D2
5-50

30D3
5-51

30D4
5-52

30D5
5-53

30D6
5-54

30D7
5-55

30D8
5-56

30D9
5-57

30DA
5-58

30 дБ
5-59

30DC
5-60

30DD
5-61

30DE
5-62

30DF
5-63
6_ / E_
30E0
5-64

30E1
5-65

30E2
5-66

30E3
5-67

30E4
5-68

30E5
5-69

30E6
5-70

30E7
5-71

30E8
5-72

30E9
5-73

30EA
5-74

30EB
5-75

30EC
5-76

30ED
5-77

30EE
5-78

30EF
5-79
7_ / F_
30F0
5-80

30F1
5-81

30F2
5-82

30F3
5-83

30F4
5-84

30F5
5-85

30F6
5-86

 
5-87

 
5-88

 
5-89

 
5-90

 
5-91

 
5-92

 
5-93

 
5-94

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x26 / 0xA6 (строка 6: греческие и вертикальные расширения)

В этом ряду содержится базовая поддержка современного Греческий алфавит, без диакритических знаков и последняя сигма.

Символы в рамке представляют собой формы представления знаков препинания для вертикального письма и не включены в собственно GB / T 2312, но включены в эту строку GB / T 12345,[1][6] Mac OS (упрощенный китайский),[17] и GB 18030.[18] Они рассматриваются как «стандартные расширения GB 2312».[17] Наоборот, ISO-IR-165 включает узорчатый полуграфический символы в этой строке (в большинстве случаев без точных аналогов в Unicode), конфликтующие с позициями кода, используемыми для вертикальных расширений.[21]

Сравнить с строка 6 JIS X 0208, которому эта строка соответствует, когда вертикальные формы не включены, и с 6 ряд КПС 9566, который включает те же греческие буквы в том же макете, но добавляет римские цифры, а не вертикальные формы. Контраст 5 ряд КС Х 1001, который смещает греческие буквы, чтобы сначала включить римские цифры.

GB 2312 (с префиксом 0x26 / 0xA6)
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_Α
0391
6-1
Β
0392
6-2
Γ
0393
6-3
Δ
0394
6-4
Ε
0395
6-5
Ζ
0396
6-6
Η
0397
6-7
Θ
0398
6-8
Ι
0399
6-9
Κ
039A
6-10
Λ
039B
6-11
Μ
039C
6-12
Ν
039D
6-13
Ξ
039E
6-14
Ο
039F
6-15
3_ / B_Π
03A0
6-16
Ρ
03A1
6-17
Σ
03A3
6-18
Τ
03A4
6-19
Υ
03A5
6-20
Φ
03A6
6-21
Χ
03A7
6-22
Ψ
03A8
6-23
Ω
03A9
6-24

 
6-25

 
6-26

 
6-27

 
6-28

 
6-29

 
6-30

 
6-31
4_ / C_
 
6-32
α
03B1
6-33
β
03B2
6-34
γ
03B3
6-35
δ
03B4
6-36
ε
03B5
6-37
ζ
03B6
6-38
η
03B7
6-39
θ
03B8
6-40
ι
03B9
6-41
κ
03BA
6-42
λ
03BB
6-43
μ
03BC
6-44
ν
03BD
6-45
ξ
03BE
6-46
ο
03BF
6-47
5_ / D_π
03C0
6-48
ρ
03C1
6-49
σ
03C3
6-50
τ
03C4
6-51
υ
03C5
6-52
φ
03C6
6-53
χ
03C7
6-54
ψ
03C8
6-55
ω
03C9
6-56
[d]
FE10
6-57
[d]
FE12
6-58
[d]
FE11
6-59
[d]
FE13
6-60
[d]
FE14
6-61
[d]
FE15
6-62
[d]
FE16
6-63
6_ / E_
FE35
6-64

FE36
6-65

FE39
6-66

FE3A
6-67
︿
FE3F
6-68

FE40
6-69

FE3D
6-70

FE3E
6-71

FE41
6-72

FE42
6-73

FE43
6-74

FE44
6-75
[d]
FE17
6-76
[d]
FE18
6-77

FE3B
6-78

FE3C
6-79
7_ / F_
FE37
6-80

FE38
6-81

FE31
6-82
[d]
FE19
6-83

FE33
6-84

FE34
6-85

 
6-86

 
6-87

 
6-88

 
6-89

 
6-90

 
6-91

 
6-92

 
6-93

 
6-94

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x27 / 0xA7 (строка 7: кириллица)

В этот набор входят оба падежа по 33 буквы из Кириллица достаточно, чтобы написать современный Русский алфавит и Болгарский алфавит, хотя другие формы кириллицы требуют дополнительных букв.[22]

Сравнить с строка 7 JIS X 0208, которому соответствует эта строка, и с 12 ряд КС Х 1001 и 5 ряд КПС 9566, которые используют тот же макет, но в разных строках.

GB 2312 (с префиксом 0x27 / 0xA7)
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_А
0410
7-1
Б
0411
7-2
В
0412
7-3
Г
0413
7-4
Д
0414
7-5
Е
0415
7-6
Ё
0401
7-7
Ж
0416
7-8
З
0417
7-9
И
0418
7-10
Й
0419
7-11
К
041A
7-12
Л
041B
7-13
М
041C
7-14
Н
041D
7-15
3_ / B_О
041E
7-16
П
041F
7-17
Р
0420
7-18
С
0421
7-19
Т
0422
7-20
У
0423
7-21
Ф
0424
7-22
Х
0425
7-23
Ц
0426
7-24
Ч
0427
7-25
Ш
0428
7-26
Щ
0429
7-27
Ъ
042A
7-28
Ы
042B
7-29
Ь
042C
7-30
Э
042D
7-31
4_ / C_Ю
042E
7-32
Я
042F
7-33

 
7-34

 
7-35

 
7-36

 
7-37

 
7-38

 
7-39

 
7-40

 
7-41

 
7-42

 
7-43

 
7-44

 
7-45

 
7-46

 
7-47
5_ / D_
 
7-48
а
0430
7-49
б
0431
7-50
в
0432
7-51
г
0433
7-52
д
0434
7-53
е
0435
7-54
ё
0451
7-55
ж
0436
7-56
з
0437
7-57
и
0438
7-58
й
0439
7-59
к
043A
7-60
л
043B
7-61
м
043C
7-62
н
043D
7-63
6_ / E_о
043E
7-64
п
043F
7-65
р
0440
7-66
с
0441
7-67
т
0442
7-68
у
0443
7-69
ф
0444
7-70
х
0445
7-71
ц
0446
7-72
ч
0447
7-73
ш
0448
7-74
щ
0449
7-75
ъ
044A
7-76
ы
044B
7-77
ь
044C
7-78
э
044D
7-79
7_ / F_ю
044E
7-80
я
044F
7-81

 
7-82

 
7-83

 
7-84

 
7-85

 
7-86

 
7-87

 
7-88

 
7-89

 
7-90

 
7-91

 
7-92

 
7-93

 
7-94

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x28 / 0xA8 (строка 8: чжуинь и пиньинь, отличная от ASCII)

Эта строка содержит бопомофо и пиньинь символы, за исключением букв ASCII (которые находятся в строке 3). Символы в рамке не входят в базовый набор GB 2312, но добавляются ГБ 6345.1,[17] а также включен в GB / T 12345,[1][6] Mac OS (упрощенный китайский)[17] и GB 18030.[18] Они рассматриваются как «стандартные расширения GB 2312».[17]

ГБ 6345.1 обрабатывает пиньинь в этой строке как полную ширину и включает в себя аналоги половинной ширины как строку 11;[1] GB 18030 этого не делает.

GB 2312 (с префиксом 0x28 / 0xA8)
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_ā
0101
8-1
á
00E1
8-2
ǎ
01CE
8-3
à
00E0
8-4
ē
0113
8-5
é
00E9
8-6
ě
011B
8-7
è
00E8
8-8
я
012B
8-9
я
00ED
8-10
ǐ
01D0
8-11
я
00EC
8-12
ō
014D
8-13
ó
00F3
8-14
ǒ
01D2
8-15
3_ / B_ò
00F2
8-16
ū
016B
8-17
ú
00FA
8-18
ǔ
01D4
8-19
ù
00F9
8-20
ǖ
01D6
8-21
ǘ
01D8
8-22
ǚ
01DA
8-23
ǜ
01DC
8-24
ü
00FC
8-25
ê
00EA
8-26
ɑ
0251
8-27
ḿ[e]
1E3F
8-28
ń
0144
8-29
ň
0148
8-30
ǹ[f]
01F9
8-31
4_ / C_ɡ /[грамм]
0261 / FF47
8-32

 
8-33

 
8-34

 
8-35

 
8-36

3105
8-37

3106
8-38

3107
8-39

3108
8-40

3109
8-41

310A
8-42

310B
8-43

310C
8-44

310D
8-45

310E
8-46

310F
8-47
5_ / D_
3110
8-48

3111
8-49

3112
8-50

3113
8-51

3114
8-52

3115
8-53

3116
8-54

3117
8-55

3118
8-56

3119
8-57

311A
8-58

311B
8-59

311C
8-60

311D
8-61

311E
8-62

311F
8-63
6_ / E_
3120
8-64

3121
8-65

3122
8-66

3123
8-67

3124
8-68

3125
8-69

3126
8-70

3127
8-71

3128
8-72

3129
8-73

 
8-74

 
8-75

 
8-76

 
8-77

 
8-78

 
8-79
7_ / F_
 
8-80

 
8-81

 
8-82

 
8-83

 
8-84

 
8-85

 
8-86

 
8-87

 
8-88

 
8-89

 
8-90

 
8-91

 
8-92

 
8-93

 
8-94

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Набор символов 0x29 / 0xA9 (строка 9: рисунок рамки)

GB 2312 (с префиксом 0x29 / 0xA9)
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
2_ / A_
 
9-1

 
9-2

 
9-3

2500
9-4

2501
9-5

2502
9-6

2503
9-7

2504
9-8

2505
9-9

2506
9-10

2507
9-11

2508
9-12

2509
9-13

250А
9-14

250B
9-15
3_ / B_
250C
9-16

250D
9-17

250E
9-18

250F
9-19

2510
9-20

2511
9-21

2512
9-22

2513
9-23

2514
9-24

2515
9-25

2516
9-26

2517
9-27

2518
9-28

2519
9-29

251A
9-30

251B
9-31
4_ / C_
251C
9-32

251D
9-33

251E
9-34

251F
9-35

2520
9-36

2521
9-37

2522
9-38

2523
9-39

2524
9-40

2525
9-41

2526
9-42

2527
9-43

2528
9-44

2529
9-45

252A
9-46

252B
9-47
5_ / D_
252C
9-48

252D
9-49

252E
9-50

252F
9-51

2530
9-52

2531
9-53

2532
9-54

2533
9-55

2534
9-56

2535
9-57

2536
9-58

2537
9-59

2538
9-60

2539
9-61

253A
9-62

253B
9-63
6_ / E_
253C
9-64

253D
9-65

253E
9-66

253F
9-67

2540
9-68

2541
9-69

2542
9-70

2543
9-71

2544
9-72

2545
9-73

2546
9-74

2547
9-75

2548
9-76

2549
9-77

254A
9-78

254B
9-79
7_ / F_
 
9-80

 
9-81

 
9-82

 
9-83

 
9-84

 
9-85

 
9-86

 
9-87

 
9-88

 
9-89

 
9-90

 
9-91

 
9-92

 
9-93

 
9-94

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Ханзи ряды

Смотрите также

Рекомендации

  1. ^ а б c d е ж Лунде, Кен (2009). Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния: О'Рейли. С. 94–111. ISBN  978-0-596-51447-1.
  2. ^ «2017 年 第 7 号 中国 国家 标准 公告 (Бюллетень национальных стандартов Китая за 2017 год № 7)». Управление стандартизации Китайской Народной Республики. Получено 3 июля 2018.
  3. ^ «Распределение кодировок символов среди веб-сайтов, использующих Китай и территории». w3techs.com. Получено 2020-06-01.
  4. ^ «Исторические тенденции использования кодировок символов, июнь 2020 г.». w3techs.com. Получено 2020-06-01.
  5. ^ «Кодирование: Обобщенные результаты тестирования». www.w3.org. Получено 2019-11-15.
  6. ^ а б c Лунде, Кен (1998). Приложение F: GB / T 12345 (PDF). CJKV Обработка информации. O'Reilly Media. ISBN  9781565922242.
  7. ^ GB12345-80 в таблицу Unicode. Консорциум Unicode. 1993-12-06. Архивировано из оригинал 17 июня 2004 г.
  8. ^ Ханнас, Уильям К. (1997). Орфографическая дилемма Азии. Гавайский университет Press. п. 264. набор обеспечивает более 99,99% всего использования. Тем не менее, дизайнеры сочли необходимым добавить 14 276 символов «специального использования» для покрытия непредвиденных обстоятельств!
  9. ^ https://archive.org/details/GB2312-1980/page/n17
  10. ^ https://web.archive.org/web/20160303230643/http://cs.nyu.edu/~yusuke/tools/unicode_to_gb2312_or_gbk_table.html
  11. ^ а б Хейбл, Бруно. «GB2312 (Таблицы преобразования)». Получено 29 сентября 2016.
  12. ^ "Readme - КАРТЫ / УСТАРЕВШИЕ / EASTASIA". 9 августа 2001 г.. Получено 29 сентября 2016.
  13. ^ "java-EUC_CN-1.3_P.ucm". Получено 29 сентября 2016.[постоянная мертвая ссылка ]
  14. ^ "libiconv: lib / gb2312.h". GNU Savannah. Получено 29 сентября 2016.
  15. ^ «Проблема 24036». Отслеживание ошибок Python.
  16. ^ «Кодировка § Имена и метки». W3C. Получено 29 сентября 2016.
  17. ^ а б c d е ж грамм час я j «Карта (внешняя версия) из упрощенной китайской кодировки Mac OS в Unicode 3.0 и выше». Apple, Inc.
  18. ^ а б c d е ж грамм час Управление по стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии - набор китайских кодированных символов.
  19. ^ а б Вишванадха, Рагурам (30 августа 2000 г.). «Таблица Unicode в ISO-IR-165». Международные компоненты для Unicode. IBM.
  20. ^ Лунде, Кен (2009). «Персонажи, которые кажутся пропавшими без вести». Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния: О'Рейли. п. 180. ISBN  978-0-596-51447-1.
  21. ^ а б CCITT (1992-07-13). Коды китайского графического набора символов для общения (PDF). ITSCJ /IPSJ. ISO-IR-165.
  22. ^ Чиборра, Роман (1998-11-30) [1998-05-25]. "Суп с кириллической кодировкой". В архиве из оригинала от 03.12.2016. Получено 2016-12-03.
  23. ^ «Политика стабильности кодировки символов Unicode». Консорциум Unicode. 2017-06-23.

Примечания

  1. ^ Только для идеографов, охватываемых GB / T 2312, все из которых относятся к Unicode BMP
  2. ^ Как ISO 2022 совместимый 94п-набор символов, простое пространство и удалить символ доступны как однобайтовые коды по адресу 0x20 и 0x7F (не 0xA0 и 0xFF) соответственно.
  3. ^ Используется для U + FF47 ГБ 6345.1 и ГБ 18030 (которые используют 8-32 для U + 0261),[18] а для U + 0261 по ISO-IR-165.[19] Первоначальный эталонный символ GB 2312-80 напоминал U + 0261, но он был изменен GB 6345.1.[1]
  4. ^ а б c d е ж грамм час я j Эти персонажи из Вертикальные формы блокировать. Некоторые используемые сопоставления были разработаны, когда единственными формами вертикального представления, существовавшими в Unicode, были формы представления Формы совместимости CJK блокировать. В частности, они сопоставляются GB 18030 с Зона частного использования, но с определенным глифом,[18] и Apple к обычному полноразмерному символу с добавленным символом частного использования U + F87E в качестве маркера вариации.[17]
  5. ^ Сопоставлен с Зона частного использования U + E7C7 первым (2000 г.) изданием ГБ 18030; это было исправлено изданием 2005 года.[18]
  6. ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот персонаж был сопоставлен с его композиционной последовательностью (т.е. U + 006E + 0300) от Apple.[17] Это изменение предшествует стабилизации Юникод нормализация Forms, который был представлен в Unicode 3.1.[23]
  7. ^ Используется для U + 0261 в ГБ 6345.1[17] и GB 18030[18] (которые используют 3-71 для U + FF47), но для U + FF47 в ISO-IR-165.[19][21]

дальнейшее чтение

внешняя ссылка