GB 2312 - Википедия - GB 2312
Эта статья может быть расширен текстом, переведенным с соответствующая статья на китайском. (Сентябрь 2016 г.) Щелкните [показать] для получения важных инструкций по переводу.
|
MIME / IANA | GB_2312-80 (GB2312 для обычной формы EUC) |
---|---|
Псевдоним (а) | iso-ir-58, китайский, csISO58GB231280 |
Язык (и) | Упрощенный китайский, английский, русский Частичная поддержка: Греческий, Японский |
Стандарт | ГБ / т 2312-1980 |
Классификация | ISO-2022 -совместимый DBCS, CJK кодирование |
Расширения | ISO-IR-165 |
Форматы кодирования | EUC-CN (GB2312 ),HZ-GB-2312 |
Предшествует | Китайский телеграфный код |
Преемник | ГБК, ГБ 18030 |
Другая связанная кодировка (и) | JIS X 0208, KS X 1001 |
ГБ / т 2312-1980 ключевой чиновник набор символов из Китайская Народная Республика, используется для Упрощенные китайские иероглифы. GB2312 это зарегистрированное интернет-имя для EUC-CN, которая является его обычной закодированной формой. ГБ относится к Стандарты Guobiao (国家 标准), а Т суффикс (推荐; Tuījiàn; «рекомендация») обозначает необязательный стандарт.[1]
ГБ / т 2312-1980 изначально был обязательным национальным стандартом, обозначенным ГБ 2312-1980. Однако в соответствии с Национальным стандартным бюллетенем Китайская Народная Республика в 2017 году GB 2312 больше не является обязательным, а его стандартный код изменен на ГБ / т 2312-1980.[2] ГБ / т 2312-1980 был заменен ГБК и GB18030, которые включают дополнительные символы, но ГБ / т 2312 по-прежнему широко используется в качестве подмножества этих кодировок.
По состоянию на июнь 2020 г.[Обновить], GB2312 - самая популярная заявленная кодировка для китайского языка в Интернете, при этом 13,6% веб-страниц обслуживаются из Китая и территорий, заявивших об этом,[3] или 0,4% всех веб-страниц в мире, по сравнению с 3,5% в январе 2010 г.[4] Однако обратите внимание, что все основные веб-браузеры декодируют документы, помеченные как, например, «GB2312» или «ГБ 2312"(хотя не все для" GB_2312 "), как если бы было отмечено"ГБК ",[5] которая является кодировкой надмножества и ГБ 2312 и GBK в совокупности составляют 16,7% (или 0,6% в мире).
Существует аналогичный набор символов, известный как ГБ / т 12345, близкий к GB / T 2312, но с традиционный формы символов, заменяющие упрощенные формы, и некоторые дополнительные 62 дополнительных символа.[6][7] Шрифты с кодировкой GB часто идут парами: один с набором символов GB / T 2312 (упрощенный), а другой - с набором символов GB / T 12345 (традиционный).
Символы
В то время как GB / T 2312 покрывает более 99,99% использования современного китайского текста,[8] исторические тексты и многие имена остаются за рамками. Старый ГБ 2312 стандарт включает 6763 китайских иероглифа (на двух уровнях: первый - по чтению, второй - по радикальный затем количество штрихов), а также символы и знаки препинания, японский Кана, то Греческий и Кириллица, Чжуинь, и двухбайтовый набор Пиньинь буквы с тоновыми отметками. В более поздней версии GB / T 2312-1980 есть 7 445 букв.
Символы в GB / T 2312 расположены в сетке 94x94 (как в ISO 2022 ), а двухбайтовая кодовая точка каждого символа выражается в форме kuten (или quwei), которая определяет строку (ku или qu) и позицию символа в строке (cell, ten или wei).
Строки (пронумерованные от 1 до 94) содержат следующие символы:
- 01–09, включая знаки препинания и другие специальные символы; также Хирагана, Катакана, Греческий, Кириллица, Пиньинь, Бопомофо
- 16–55, первый уровень китайские иероглифы, организованный в соответствии с Пиньинь. (3755 знаков).
- 56–87, второй уровень китайских иероглифов, расположенных по корню и штрихам. (3008 знаков).
- 88–89, далее китайские иероглифы. (103 символа). Определено только для GB / T 12345, но не для GB / T 2312.
Строки 10–15 и 90–94 не назначены.
Для GB / T 2312-1980 он содержит 682 знака и 6763 китайских иероглифа.
Кодировки GB / T 2312
EUC-CN
EUC-CN часто используется как кодировка символов (т.е. для внешнего хранилища) в программах, которые имеют дело с GB / T 2312, таким образом поддерживая совместимость с ASCII. Два байты используются для представления каждого символа, не найденного в ASCII. Значение первого байта - от 0xA1–0xF7 (161–247), а значение второго байта - от 0xA1–0xFE (161–254). Поскольку все эти диапазоны выходят за рамки ASCII, например UTF-8, при использовании EUC-CN можно проверить, является ли байт частью многобайтовой конструкции, но не является ли байт первым или последним.
В сравнении с UTF-8, GB2312 (собственный или закодированный в EUC-CN) более эффективен при хранении: в то время как UTF-8 использует три байта[а] на Идеограф CJK, GB2312 использует только два. Однако GB2312 не поддерживает столько идеограмм, сколько Unicode.
Чтобы сопоставить точки кода kuten с байтами, добавьте 160 (0xA0) к номеру строки (ku, разряды 1000 и 100) кодовой точки, чтобы сформировать старший байт, и добавьте 160 к номеру столбца (десять, 10 и 1-е место) кодовой точки для формирования младшего байта.
Например, если у вас есть кодовая точка 4566 GB / T 2312 ("外",[9] что означает иностранный), старший байт будет использовать номер строки 45: 45 + 160 = 205 = 0xCD, а младший байт будет взят из столбца, 66: 66 + 160 = 212 = 0xE2. Итак, полная кодировка - 0xCDE2.[10]
Гц
Гц это еще одна кодировка GB 2312, которая используется в основном для Usenet проводки.
Таблицы кодов
В таблицах ниже, где пара шестнадцатеричных чисел дана для байта префикса или байта кодирования, меньшее (с неустановленным или недоступным восьмым битом) используется при кодировании по GL (0x 21-0x7E), как в ISO-2022-CN или же HZ-GB-2312, а больший (с установленным восьмым битом) используется в более типичном случае, когда он кодируется через GR (0xA1-0xFE), как в EUC-CN, ГБК или же ГБ 18030. Qūwèi числа даны в десятичной системе счисления.
Когда GB / T 2312 кодируется через GR, для обоих байтов установлен восьмой бит (т.е. больше 0x7F). GBK и GB 18030 также используют двухбайтовые коды, в которых только первый байт имеет восьмой бит, установленный для целей расширения: такие коды находятся вне плоскости GB / T 2312 и не приводятся здесь в таблице.
Ведущий байт
Эта диаграмма детализирует общую компоновку основной плоскости набора символов GB / T 2312 по старшим байтам. Для ведущих байтов, используемых для символов, кроме Ханзи, предоставляются ссылки на диаграммы на этой странице, в которых перечислены символы, закодированные под этим старшим байтом. Для ведущих байтов, используемых для hanzi, приведены ссылки на соответствующий раздел Викисловарь Индекс Ханзи.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | SP[b] 0020 | Пунктир. ВЕСТИ 1-_ | Список ВЕСТИ 2-_ | Alnum. ВЕСТИ 3-_ | Хирагана ВЕСТИ 4-_ | Катакана ВЕСТИ 5-_ | Греческий ВЕСТИ 6-_ | Кириллица ВЕСТИ 7-_ | Phonet. ВЕСТИ 8-_ | Коробка ВЕСТИ 9-_ | 10-_ | 11-_ | 12-_ | 13-_ | 14-_ | 15-_ |
3_ / B_ | Hanzi L1 ВЕСТИ 16-_ | Hanzi L1 ВЕСТИ 17-_ | Hanzi L1 ВЕСТИ 18-_ | Hanzi L1 ВЕСТИ 19-_ | Hanzi L1 ВЕСТИ 20-_ | Hanzi L1 ВЕСТИ 21-_ | Hanzi L1 ВЕСТИ 22-_ | Hanzi L1 ВЕСТИ 23-_ | Hanzi L1 ВЕСТИ 24-_ | Hanzi L1 ВЕСТИ 25-_ | Hanzi L1 ВЕСТИ 26-_ | Hanzi L1 ВЕСТИ 27-_ | Hanzi L1 ВЕСТИ 28-_ | Hanzi L1 ВЕСТИ 29-_ | Hanzi L1 ВЕСТИ 30-_ | Hanzi L1 ВЕСТИ 31-_ |
4_ / C_ | Hanzi L1 ВЕСТИ 32-_ | Hanzi L1 ВЕСТИ 33-_ | Hanzi L1 ВЕСТИ 34-_ | Hanzi L1 ВЕСТИ 35-_ | Hanzi L1 ВЕСТИ 36-_ | Hanzi L1 ВЕСТИ 37-_ | Hanzi L1 ВЕСТИ 38-_ | Hanzi L1 ВЕСТИ 39-_ | Hanzi L1 ВЕСТИ 40-_ | Hanzi L1 ВЕСТИ 41-_ | Hanzi L1 ВЕСТИ 42-_ | Hanzi L1 ВЕСТИ 43-_ | Hanzi L1 ВЕСТИ 44-_ | Hanzi L1 ВЕСТИ 45-_ | Hanzi L1 ВЕСТИ 46-_ | Hanzi L1 ВЕСТИ 47-_ |
5_ / D_ | Hanzi L1 ВЕСТИ 48-_ | Hanzi L1 ВЕСТИ 49-_ | Hanzi L1 ВЕСТИ 50-_ | Hanzi L1 ВЕСТИ 51-_ | Hanzi L1 ВЕСТИ 52-_ | Hanzi L1 ВЕСТИ 53-_ | Hanzi L1 ВЕСТИ 54-_ | Hanzi L1 ВЕСТИ 55-_ | Hanzi L2 ВЕСТИ 56-_ | Hanzi L2 ВЕСТИ 57-_ | Hanzi L2 ВЕСТИ 58-_ | Hanzi L2 ВЕСТИ 59-_ | Hanzi L2 ВЕСТИ 60-_ | Hanzi L2 ВЕСТИ 61-_ | Hanzi L2 ВЕСТИ 62-_ | Hanzi L2 ВЕСТИ 63-_ |
6_ / E_ | Hanzi L2 ВЕСТИ 64-_ | Hanzi L2 ВЕСТИ 65-_ | Hanzi L2 ВЕСТИ 66-_ | Hanzi L2 ВЕСТИ 67-_ | Hanzi L2 ВЕСТИ 68-_ | Hanzi L2 ВЕСТИ 69-_ | Hanzi L2 ВЕСТИ 70-_ | Hanzi L2 ВЕСТИ 71-_ | Hanzi L2 ВЕСТИ 72-_ | Hanzi L2 ВЕСТИ 73-_ | Hanzi L2 ВЕСТИ 74-_ | Hanzi L2 ВЕСТИ 75-_ | Hanzi L2 ВЕСТИ 76-_ | Hanzi L2 ВЕСТИ 77-_ | Hanzi L2 ВЕСТИ 78-_ | Hanzi L2 ВЕСТИ 79-_ |
7_ / F_ | Hanzi L2 ВЕСТИ 80-_ | Hanzi L2 ВЕСТИ 81-_ | Hanzi L2 ВЕСТИ 82-_ | Hanzi L2 ВЕСТИ 83-_ | Hanzi L2 ВЕСТИ 84-_ | Hanzi L2 ВЕСТИ 85-_ | Hanzi L2 ВЕСТИ 86-_ | Hanzi L2 ВЕСТИ 87-_ | 88-_ | 89-_ | 90-_ | 91-_ | 92-_ | 93-_ | 94-_ | DEL 007F }} |
Письмо Число Пунктуация Символ Другой Неопределенный
Ряды без ханьци
В следующих таблицах перечислены не-Ханзи символы доступны в ГБ / Т 2312, в ГБ / Т 12345 и в двухбайтовой области 1 ГБ 18030 (что примерно соответствует области неганзи GB / T 2312). Примечания сделаны, где они различаются, и где ГБ 6345.1 и ISO-IR-165 отличаются от этих. Для сравнения сделаны перекрестные ссылки на статьи о других наборах национальных символов CJK.
Набор символов 0x21 / 0xA1 (строка 1: знаки препинания и символы)
Эта строка содержит знаки препинания, математические операторы и другие символы.
Отображения Unicode вставлять (Китайский : 间隔 点; горит 'разделительная точка') и em dash (Китайский : 破折号) в подмножестве ГБК и ГБ 18030 соответствует GB / T 2312 (U + 00B7 · СРЕДНЯЯ ТОЧКА и U + 2014 — EM DASH) отличаются от перечисленных в GB2312.TXT (U + 30FB ・ КАТАКАНА СРЕДНЯЯ ТОЧКА и U + 2015 ― ПЕРЕКЛАДИНА), который представляет собой файл данных, который ранее был предоставлен Консорциум Unicode,[11] хотя он был признан устаревшим с августа 2011 г.[12] и больше не размещается с сентября 2016 года.
По состоянию на 2015 год Microsoft .Net Framework следует сопоставлениям GB 18030 при сопоставлении этих двух символов в данных с меткой gb2312
, в то время как ICU,[13] iconv-1.14,[14] php-5.6, ActivePerl-5.20, Java 1.7 и Python 3.4[15] следовать GB2312.TXT в ответ на gb2312
метка. Ruby 2.2 совместим с обеими реализациями; он внутренне преобразует конфликтующие символы в подмножество GB 18030. В W3C /WHATWG техническая рекомендация по использованию с HTML5 указывает кодировку GBK, которая будет выведена для потоков, помеченных gb2312
, который, в свою очередь, использует декодер GB18030.[16]
Другие различные сопоставления были определены и используются отдельными поставщиками,[11] в том числе один из яблоко.[17] В следующей таблице показаны сопоставления GB 18030.[18] для этих символов GB / T 2312 сначала, а затем любые другие задокументированные сопоставления.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | IDSP 3000 1-1 | 、 3001 1-2 | 。 3002 1-3 | · /・ 00B7 / 30FB 1-4 | ˉ 02C9 1-5 | ˇ 02C7 1-6 | ¨ 00A8 1-7 | 〃 3003 1-8 | 々 3005 1-9 | — /― 2014/2015 1-10 | ~ /〜 FF5E / 301C 1-11 | ‖ /∥ 2016/2225 1-12 | … /⋯ 2026 / 22EF 1-13 | ‘ 2018 1-14 | ’ 2019 1-15 | |
3_ / B_ | “ 201C 1-16 | ” 201D 1-17 | 〔 3014 1-18 | 〕 3015 1-19 | 〈 3008 1-20 | 〉 3009 1-21 | 《 300А 1-22 | 》 300B 1-23 | 「 300C 1-24 | 」 300D 1-25 | 『 300E 1-26 | 』 300F 1-27 | 〖 3016 1-28 | 〗 3017 1-29 | 【 3010 1-30 | 】 3011 1-31 |
4_ / C_ | ± 00B1 1-32 | × 00D7 1-33 | ÷ 00F7 1-34 | ∶ 2236 1-35 | ∧ 2227 1-36 | ∨ 2228 1-37 | ∑ 2211 1-38 | ∏ 220F 1-39 | ∪ 222A 1-40 | ∩ 2229 1-41 | ∈ 2208 1-42 | ∷ 2237 1-43 | √ 221A 1-44 | ⊥ 22A5 1-45 | ∥ 2225 1-46 | ∠ 2220 1-47 |
5_ / D_ | ⌒ 2312 1-48 | ⊙ 2299 1-49 | ∫ 222B 1-50 | ∮ 222E 1-51 | ≡ 2261 1-52 | ≌ 224C 1-53 | ≈ 2248 1-54 | ∽ 223D 1-55 | ∝ 221D 1-56 | ≠ 2260 1-57 | ≮ 226E 1-58 | ≯ 226F 1-59 | ≤ 2264 1-60 | ≥ 2265 1-61 | ∞ 221E 1-62 | ∵ 2235 1-63 |
6_ / E_ | ∴ 2234 1-64 | ♂ 2642 1-65 | ♀ 2640 1-66 | ° 00B0 1-67 | ′ 2032 1-68 | ″ 2033 1-69 | ℃ 2103 1-70 | $ FF04 1-71 | ¤ 00A4 1-72 | ¢ /¢ FFE0 / 00A2 1-73 | £ /£ FFE1 / 00A3 1-74 | ‰ 2030 1-75 | § 00A7 1-76 | № 2116 1-77 | ☆ 2606 1-78 | ★ 2605 1-79 |
7_ / F_ | ○ 25CB 1-80 | ● 25CF 1-81 | ◎ 25CE 1-82 | ◇ 25C7 1-83 | ◆ 25C6 1-84 | □ 25A1 1-85 | ■ 25A0 1-86 | △ 25B3 1-87 | ▲ 25B2 1-88 | ※ 203B 1-89 | → 2192 1-90 | ← 2190 1-91 | ↑ 2191 1-92 | ↓ 2193 1-93 | 〓 3013 1-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x22 / 0xA2 (строка 2: маркеры списка)
Эта строка содержит различные типы маркеров списка. А знак евро также включен ГБ 18030.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | ⅰ 2170 2-1 | ⅱ 2171 2-2 | ⅲ 2172 2-3 | ⅳ 2173 2-4 | ⅴ 2174 2-5 | ⅵ 2175 2-6 | ⅶ 2176 2-7 | ⅷ 2177 2-8 | ⅸ 2178 2-9 | ⅹ 2179 2-10 | 2-11 | 2-12 | 2-13 | 2-14 | 2-15 | |
3_ / B_ | 2-16 | ⒈ 2488 2-17 | ⒉ 2489 2-18 | ⒊ 248A 2-19 | ⒋ 248B 2-20 | ⒌ 248C 2-21 | ⒍ 248D 2-22 | ⒎ 248E 2-23 | ⒏ 248F 2-24 | ⒐ 2490 2-25 | ⒑ 2491 2-26 | ⒒ 2492 2-27 | ⒓ 2493 2-28 | ⒔ 2494 2-29 | ⒕ 2495 2-30 | ⒖ 2496 2-31 |
4_ / C_ | ⒗ 2497 2-32 | ⒘ 2498 2-33 | ⒙ 2499 2-34 | ⒚ 249A 2-35 | ⒛ 249B 2-36 | ⑴ 2474 2-37 | ⑵ 2475 2-38 | ⑶ 2476 2-39 | ⑷ 2477 2-40 | ⑸ 2478 2-41 | ⑹ 2479 2-42 | ⑺ 247A 2-43 | ⑻ 247B 2-44 | ⑼ 247C 2-45 | ⑽ 247D 2-46 | ⑾ 247E 2-47 |
5_ / D_ | ⑿ 247F 2-48 | ⒀ 2480 2-49 | ⒁ 2481 2-50 | ⒂ 2482 2-51 | ⒃ 2483 2-52 | ⒄ 2484 2-53 | ⒅ 2485 2-54 | ⒆ 2486 2-55 | ⒇ 2487 2-56 | ① 2460 2-57 | ② 2461 2-58 | ③ 2462 2-59 | ④ 2463 2-60 | ⑤ 2464 2-61 | ⑥ 2465 2-62 | ⑦ 2466 2-63 |
6_ / E_ | ⑧ 2467 2-64 | ⑨ 2468 2-65 | ⑩ 2469 2-66 | € 20AC 2-67 | 2-68 | ㈠ 3220 2-69 | ㈡ 3221 2-70 | ㈢ 3222 2-71 | ㈣ 3223 2-72 | ㈤ 3224 2-73 | ㈥ 3225 2-74 | ㈦ 3226 2-75 | ㈧ 3227 2-76 | ㈨ 3228 2-77 | ㈩ 3229 2-78 | 2-79 |
7_ / F_ | 2-80 | Ⅰ 2160 2-81 | Ⅱ 2161 2-82 | Ⅲ 2162 2-83 | Ⅳ 2163 2-84 | Ⅴ 2164 2-85 | Ⅵ 2165 2-86 | Ⅶ 2166 2-87 | Ⅷ 2167 2-88 | Ⅸ 2168 2-89 | Ⅹ 2169 2-90 | Ⅺ 216A 2-91 | Ⅻ 216B 2-92 | 2-93 | 2-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x23 / 0xA3 (строка 3: ISO 646-CN)
Эта строка содержит ISO 646-CN (GB / T 1988-80), национальный аналог ASCII. Сравнивать 3 ряд КС Х 1001, который делает то же самое с Южная Корея версия ISO 646 и строка 3 JIS X 0208 и КПС 9566, которые включают только буквенно-цифровое подмножество, но в том же макете. В следующей таблице приведен ISO 646-CN.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | | ! 0021 3-1 | " 0022 3-2 | # 0023 3-3 | ¥ 00A5 3-4 | % 0025 3-5 | & 0026 3-6 | ' 0027 3-7 | ( 0028 3-8 | ) 0029 3-9 | * 002A 3-10 | + 002B 3-11 | , 002C 3-12 | - 002D 3-13 | . 002E 3-14 | / 002F 3-15 |
3_ / B_ | 0 0030 3-16 | 1 0031 3-17 | 2 0032 3-18 | 3 0033 3-19 | 4 0034 3-20 | 5 0035 3-21 | 6 0036 3-22 | 7 0037 3-23 | 8 0038 3-24 | 9 0039 3-25 | : 003A 3-26 | ; 003B 3-27 | < 003C 3-28 | = 003D 3-29 | > 003E 3-30 | ? 003F 3-31 |
4_ / C_ | @ 0040 3-32 | А 0041 3-33 | B 0042 3-34 | C 0043 3-35 | D 0044 3-36 | E 0045 3-37 | F 0046 3-38 | грамм 0047 3-39 | ЧАС 0048 3-40 | я 0049 3-41 | J 004A 3-42 | K 004B 3-43 | L 004C 3-44 | M 004D 3-45 | N 004E 3-46 | О 004F 3-47 |
5_ / D_ | п 0050 3-48 | Q 0051 3-49 | р 0052 3-50 | S 0053 3-51 | Т 0054 3-52 | U 0055 3-53 | V 0056 3-54 | W 0057 3-55 | Икс 0058 3-56 | Y 0059 3-57 | Z 005A 3-58 | [ 005B 3-59 | \ 005C 3-60 | ] 005D 3-61 | ^ 005E 3-62 | _ 005F 3-63 |
6_ / E_ | ` 0060 3-64 | а 0061 3-65 | б 0062 3-66 | c 0063 3-67 | d 0064 3-68 | е 0065 3-69 | ж 0066 3-70 | грамм 0067 3-71 | час 0068 3-72 | я 0069 3-73 | j 006A 3-74 | k 006B 3-75 | л 006C 3-76 | м 006D 3-77 | п 006E 3-78 | о 006F 3-79 |
7_ / F_ | п 0070 3-80 | q 0071 3-81 | р 0072 3-82 | s 0073 3-83 | т 0074 3-84 | ты 0075 3-85 | v 0076 3-86 | ш 0077 3-87 | Икс 0078 3-88 | у 0079 3-89 | z 007A 3-90 | { 007B 3-91 | | 007C 3-92 | } 007D 3-93 | ‾ 203E 3-94 | |
Письмо Число Пунктуация Символ Другой Неопределенный
При использовании в кодировке, допускающей комбинацию с ASCII, например EUC-CN (и его надмножество ГБ 18030 ) эти символы обычно реализуются как полная ширина символы, следовательно, отображения на Формы половинной и полной ширины блок используются, как показано ниже. ГБ 6345.1 также обрабатывает эту строку как полную ширину и добавляет формы половинной ширины (как указано выше) как строку 10.[1] Apple в основном сопоставляет эту строку с кодовыми точками полной ширины, как показано ниже, но использует сопоставления неполной ширины для перекрытия и знак юаня как указано выше.[17]
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | ! FF01 3-1 | " FF02 3-2 | # FF03 3-3 | ¥ FFE5 3-4 | % FF05 3-5 | & FF06 3-6 | ' FF07 3-7 | ( FF08 3-8 | ) FF09 3-9 | * FF0A 3-10 | + FF0B 3-11 | , FF0C 3-12 | - FF0D 3-13 | . FF0E 3-14 | / FF0F 3-15 | |
3_ / B_ | 0 FF10 3-16 | 1 FF11 3-17 | 2 FF12 3-18 | 3 FF13 3-19 | 4 FF14 3-20 | 5 FF15 3-21 | 6 FF16 3-22 | 7 FF17 3-23 | 8 FF18 3-24 | 9 FF19 3-25 | : FF1A 3-26 | ; FF1B 3-27 | < FF1C 3-28 | = FF1D 3-29 | > FF1E 3-30 | ? FF1F 3-31 |
4_ / C_ | @ FF20 3-32 | A FF21 3-33 | B FF22 3-34 | C FF23 3-35 | D FF24 3-36 | E FF25 3-37 | F FF26 3-38 | G FF27 3-39 | H FF28 3-40 | I FF29 3-41 | J FF2A 3-42 | K FF2B 3-43 | L FF2C 3-44 | M FF2D 3-45 | N FF2E 3-46 | O FF2F 3-47 |
5_ / D_ | P FF30 3-48 | Q FF31 3-49 | R FF32 3-50 | S FF33 3-51 | T FF34 3-52 | U FF35 3-53 | V FF36 3-54 | W FF37 3-55 | X FF38 3-56 | Y FF39 3-57 | Z FF3A 3-58 | [ FF3B 3-59 | \ FF3C 3-60 | ] FF3D 3-61 | ^ FF3E 3-62 | _ FF3F 3-63 |
6_ / E_ | ` FF40 3-64 | a FF41 3-65 | b FF42 3-66 | c FF43 3-67 | d FF44 3-68 | e FF45 3-69 | f FF46 3-70 | g /ɡ[c] FF47 / 0261 3-71 | h FF48 3-72 | i FF49 3-73 | j FF4A 3-74 | k FF4B 3-75 | l FF4C 3-76 | m FF4D 3-77 | n FF4E 3-78 | o FF4F 3-79 |
7_ / F_ | p FF50 3-80 | q FF51 3-81 | r FF52 3-82 | s FF53 3-83 | t FF54 3-84 | u FF55 3-85 | v FF56 3-86 | w FF57 3-87 | x FF58 3-88 | y FF59 3-89 | z FF5A 3-90 | { FF5B 3-91 | | FF5C 3-92 | } FF5D 3-93 |  ̄ FFE3 3-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x24 / 0xA4 (строка 4: хирагана)
Этот набор содержит Хирагана для написания японский язык.
Сравнить с ряд 4 JIS X 0208, которому соответствует эта строка, и с 10 ряд КС Х 1001 и КПС 9566, которые используют тот же макет, но в другой строке.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | ぁ 3041 4-1 | あ 3042 4-2 | ぃ 3043 4-3 | い 3044 4-4 | ぅ 3045 4-5 | う 3046 4-6 | ぇ 3047 4-7 | え 3048 4-8 | ぉ 3049 4-9 | お 304A 4-10 | か 304B 4-11 | が 304C 4-12 | き 304D 4-13 | ぎ 304E 4-14 | く 304F 4-15 | |
3_ / B_ | ぐ 3050 4-16 | け 3051 4-17 | げ 3052 4-18 | こ 3053 4-19 | ご 3054 4-20 | さ 3055 4-21 | ざ 3056 4-22 | し 3057 4-23 | じ 3058 4-24 | す 3059 4-25 | ず 305A 4-26 | せ 305B 4-27 | ぜ 305C 4-28 | そ 305D 4-29 | ぞ 305E 4-30 | た 305F 4-31 |
4_ / C_ | だ 3060 4-32 | ち 3061 4-33 | ぢ 3062 4-34 | っ 3063 4-35 | つ 3064 4-36 | づ 3065 4-37 | て 3066 4-38 | で 3067 4-39 | と 3068 4-40 | ど 3069 4-41 | な 306A 4-42 | に 306B 4-43 | ぬ 306C 4-44 | ね 306D 4-45 | の 306E 4-46 | は 306F 4-47 |
5_ / D_ | ば 3070 4-48 | ぱ 3071 4-49 | ひ 3072 4-50 | び 3073 4-51 | ぴ 3074 4-52 | ふ 3075 4-53 | ぶ 3076 4-54 | ぷ 3077 4-55 | へ 3078 4-56 | べ 3079 4-57 | ぺ 307A 4-58 | ほ 307B 4-59 | ぼ 307C 4-60 | ぽ 307D 4-61 | ま 307E 4-62 | み 307F 4-63 |
6_ / E_ | む 3080 4-64 | め 3081 4-65 | も 3082 4-66 | ゃ 3083 4-67 | や 3084 4-68 | ゅ 3085 4-69 | ゆ 3086 4-70 | ょ 3087 4-71 | よ 3088 4-72 | ら 3089 4-73 | り 308A 4-74 | る 308B 4-75 | れ 308C 4-76 | ろ 308D 4-77 | ゎ 308E 4-78 | わ 308F 4-79 |
7_ / F_ | ゐ 3090 4-80 | ゑ 3091 4-81 | を 3092 4-82 | ん 3093 4-83 | 4-84 | 4-85 | 4-86 | 4-87 | 4-88 | 4-89 | 4-90 | 4-91 | 4-92 | 4-93 | 4-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x25 / 0xA5 (строка 5: катакана)
Этот набор содержит Катакана для написания японский язык. Тем не менее Знак долгой гласной (японского), который используется в тексте катаканы и включен в строку 1 JIS X 0208, не включен в GB / T 2312, хотя он добавлен в GBK и GB 18030 вне основного самолета GB / T 2312,[20] по адресу 0xA960.[18]
Сравнить с строка 5 JIS X 0208, которому соответствует эта строка, и с 11 ряд КС Х 1001 и КПС 9566, которые используют тот же макет, но в другой строке.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | ァ 30A1 5-1 | ア 30A2 5-2 | ィ 30A3 5-3 | イ 30A4 5-4 | ゥ 30A5 5-5 | ウ 30A6 5-6 | ェ 30A7 5-7 | エ 30A8 5-8 | ォ 30A9 5-9 | オ 30AA 5-10 | カ 30AB 5-11 | ガ 30AC 5-12 | キ 30 г. 5-13 | ギ 30 AE 5-14 | ク 30AF 5-15 | |
3_ / B_ | グ 30B0 5-16 | ケ 30B1 5-17 | ゲ 30B2 5-18 | コ 30B3 5-19 | ゴ 30B4 5-20 | サ 30B5 5-21 | ザ 30B6 5-22 | シ 30B7 5-23 | ジ 30B8 5-24 | ス 30B9 5-25 | ズ 30BA 5-26 | セ 30BB 5-27 | ゼ 30 г. до н.э. 5-28 | ソ 30BD 5-29 | ゾ 30BE 5-30 | タ 30BF 5-31 |
4_ / C_ | ダ 30C0 5-32 | チ 30C1 5-33 | ヂ 30C2 5-34 | ッ 30C3 5-35 | ツ 30C4 5-36 | ヅ 30C5 5-37 | テ 30C6 5-38 | デ 30C7 5-39 | ト 30C8 5-40 | ド 30C9 5-41 | ナ 30CA 5-42 | ニ 30КБ 5-43 | ヌ 30CC 5-44 | ネ 30CD 5-45 | ノ 30CE 5-46 | ハ 30CF 5-47 |
5_ / D_ | バ 30D0 5-48 | パ 30D1 5-49 | ヒ 30D2 5-50 | ビ 30D3 5-51 | ピ 30D4 5-52 | フ 30D5 5-53 | ブ 30D6 5-54 | プ 30D7 5-55 | ヘ 30D8 5-56 | ベ 30D9 5-57 | ペ 30DA 5-58 | ホ 30 дБ 5-59 | ボ 30DC 5-60 | ポ 30DD 5-61 | マ 30DE 5-62 | ミ 30DF 5-63 |
6_ / E_ | ム 30E0 5-64 | メ 30E1 5-65 | モ 30E2 5-66 | ャ 30E3 5-67 | ヤ 30E4 5-68 | ュ 30E5 5-69 | ユ 30E6 5-70 | ョ 30E7 5-71 | ヨ 30E8 5-72 | ラ 30E9 5-73 | リ 30EA 5-74 | ル 30EB 5-75 | レ 30EC 5-76 | ロ 30ED 5-77 | ヮ 30EE 5-78 | ワ 30EF 5-79 |
7_ / F_ | ヰ 30F0 5-80 | ヱ 30F1 5-81 | ヲ 30F2 5-82 | ン 30F3 5-83 | ヴ 30F4 5-84 | ヵ 30F5 5-85 | ヶ 30F6 5-86 | 5-87 | 5-88 | 5-89 | 5-90 | 5-91 | 5-92 | 5-93 | 5-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x26 / 0xA6 (строка 6: греческие и вертикальные расширения)
В этом ряду содержится базовая поддержка современного Греческий алфавит, без диакритических знаков и последняя сигма.
Символы в рамке представляют собой формы представления знаков препинания для вертикального письма и не включены в собственно GB / T 2312, но включены в эту строку GB / T 12345,[1][6] Mac OS (упрощенный китайский),[17] и GB 18030.[18] Они рассматриваются как «стандартные расширения GB 2312».[17] Наоборот, ISO-IR-165 включает узорчатый полуграфический символы в этой строке (в большинстве случаев без точных аналогов в Unicode), конфликтующие с позициями кода, используемыми для вертикальных расширений.[21]
Сравнить с строка 6 JIS X 0208, которому эта строка соответствует, когда вертикальные формы не включены, и с 6 ряд КПС 9566, который включает те же греческие буквы в том же макете, но добавляет римские цифры, а не вертикальные формы. Контраст 5 ряд КС Х 1001, который смещает греческие буквы, чтобы сначала включить римские цифры.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | Α 0391 6-1 | Β 0392 6-2 | Γ 0393 6-3 | Δ 0394 6-4 | Ε 0395 6-5 | Ζ 0396 6-6 | Η 0397 6-7 | Θ 0398 6-8 | Ι 0399 6-9 | Κ 039A 6-10 | Λ 039B 6-11 | Μ 039C 6-12 | Ν 039D 6-13 | Ξ 039E 6-14 | Ο 039F 6-15 | |
3_ / B_ | Π 03A0 6-16 | Ρ 03A1 6-17 | Σ 03A3 6-18 | Τ 03A4 6-19 | Υ 03A5 6-20 | Φ 03A6 6-21 | Χ 03A7 6-22 | Ψ 03A8 6-23 | Ω 03A9 6-24 | 6-25 | 6-26 | 6-27 | 6-28 | 6-29 | 6-30 | 6-31 |
4_ / C_ | 6-32 | α 03B1 6-33 | β 03B2 6-34 | γ 03B3 6-35 | δ 03B4 6-36 | ε 03B5 6-37 | ζ 03B6 6-38 | η 03B7 6-39 | θ 03B8 6-40 | ι 03B9 6-41 | κ 03BA 6-42 | λ 03BB 6-43 | μ 03BC 6-44 | ν 03BD 6-45 | ξ 03BE 6-46 | ο 03BF 6-47 |
5_ / D_ | π 03C0 6-48 | ρ 03C1 6-49 | σ 03C3 6-50 | τ 03C4 6-51 | υ 03C5 6-52 | φ 03C6 6-53 | χ 03C7 6-54 | ψ 03C8 6-55 | ω 03C9 6-56 | ︐[d] FE10 6-57 | ︒[d] FE12 6-58 | ︑[d] FE11 6-59 | ︓[d] FE13 6-60 | ︔[d] FE14 6-61 | ︕[d] FE15 6-62 | ︖[d] FE16 6-63 |
6_ / E_ | ︵ FE35 6-64 | ︶ FE36 6-65 | ︹ FE39 6-66 | ︺ FE3A 6-67 | ︿ FE3F 6-68 | ﹀ FE40 6-69 | ︽ FE3D 6-70 | ︾ FE3E 6-71 | ﹁ FE41 6-72 | ﹂ FE42 6-73 | ﹃ FE43 6-74 | ﹄ FE44 6-75 | ︗[d] FE17 6-76 | ︘[d] FE18 6-77 | ︻ FE3B 6-78 | ︼ FE3C 6-79 |
7_ / F_ | ︷ FE37 6-80 | ︸ FE38 6-81 | ︱ FE31 6-82 | ︙[d] FE19 6-83 | ︳ FE33 6-84 | ︴ FE34 6-85 | 6-86 | 6-87 | 6-88 | 6-89 | 6-90 | 6-91 | 6-92 | 6-93 | 6-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x27 / 0xA7 (строка 7: кириллица)
В этот набор входят оба падежа по 33 буквы из Кириллица достаточно, чтобы написать современный Русский алфавит и Болгарский алфавит, хотя другие формы кириллицы требуют дополнительных букв.[22]
Сравнить с строка 7 JIS X 0208, которому соответствует эта строка, и с 12 ряд КС Х 1001 и 5 ряд КПС 9566, которые используют тот же макет, но в разных строках.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | А 0410 7-1 | Б 0411 7-2 | В 0412 7-3 | Г 0413 7-4 | Д 0414 7-5 | Е 0415 7-6 | Ё 0401 7-7 | Ж 0416 7-8 | З 0417 7-9 | И 0418 7-10 | Й 0419 7-11 | К 041A 7-12 | Л 041B 7-13 | М 041C 7-14 | Н 041D 7-15 | |
3_ / B_ | О 041E 7-16 | П 041F 7-17 | Р 0420 7-18 | С 0421 7-19 | Т 0422 7-20 | У 0423 7-21 | Ф 0424 7-22 | Х 0425 7-23 | Ц 0426 7-24 | Ч 0427 7-25 | Ш 0428 7-26 | Щ 0429 7-27 | Ъ 042A 7-28 | Ы 042B 7-29 | Ь 042C 7-30 | Э 042D 7-31 |
4_ / C_ | Ю 042E 7-32 | Я 042F 7-33 | 7-34 | 7-35 | 7-36 | 7-37 | 7-38 | 7-39 | 7-40 | 7-41 | 7-42 | 7-43 | 7-44 | 7-45 | 7-46 | 7-47 |
5_ / D_ | 7-48 | а 0430 7-49 | б 0431 7-50 | в 0432 7-51 | г 0433 7-52 | д 0434 7-53 | е 0435 7-54 | ё 0451 7-55 | ж 0436 7-56 | з 0437 7-57 | и 0438 7-58 | й 0439 7-59 | к 043A 7-60 | л 043B 7-61 | м 043C 7-62 | н 043D 7-63 |
6_ / E_ | о 043E 7-64 | п 043F 7-65 | р 0440 7-66 | с 0441 7-67 | т 0442 7-68 | у 0443 7-69 | ф 0444 7-70 | х 0445 7-71 | ц 0446 7-72 | ч 0447 7-73 | ш 0448 7-74 | щ 0449 7-75 | ъ 044A 7-76 | ы 044B 7-77 | ь 044C 7-78 | э 044D 7-79 |
7_ / F_ | ю 044E 7-80 | я 044F 7-81 | 7-82 | 7-83 | 7-84 | 7-85 | 7-86 | 7-87 | 7-88 | 7-89 | 7-90 | 7-91 | 7-92 | 7-93 | 7-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x28 / 0xA8 (строка 8: чжуинь и пиньинь, отличная от ASCII)
Эта строка содержит бопомофо и пиньинь символы, за исключением букв ASCII (которые находятся в строке 3). Символы в рамке не входят в базовый набор GB 2312, но добавляются ГБ 6345.1,[17] а также включен в GB / T 12345,[1][6] Mac OS (упрощенный китайский)[17] и GB 18030.[18] Они рассматриваются как «стандартные расширения GB 2312».[17]
ГБ 6345.1 обрабатывает пиньинь в этой строке как полную ширину и включает в себя аналоги половинной ширины как строку 11;[1] GB 18030 этого не делает.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | ā 0101 8-1 | á 00E1 8-2 | ǎ 01CE 8-3 | à 00E0 8-4 | ē 0113 8-5 | é 00E9 8-6 | ě 011B 8-7 | è 00E8 8-8 | я 012B 8-9 | я 00ED 8-10 | ǐ 01D0 8-11 | я 00EC 8-12 | ō 014D 8-13 | ó 00F3 8-14 | ǒ 01D2 8-15 | |
3_ / B_ | ò 00F2 8-16 | ū 016B 8-17 | ú 00FA 8-18 | ǔ 01D4 8-19 | ù 00F9 8-20 | ǖ 01D6 8-21 | ǘ 01D8 8-22 | ǚ 01DA 8-23 | ǜ 01DC 8-24 | ü 00FC 8-25 | ê 00EA 8-26 | ɑ 0251 8-27 | ḿ[e] 1E3F 8-28 | ń 0144 8-29 | ň 0148 8-30 | ǹ[f] 01F9 8-31 |
4_ / C_ | ɡ /g[грамм] 0261 / FF47 8-32 | 8-33 | 8-34 | 8-35 | 8-36 | ㄅ 3105 8-37 | ㄆ 3106 8-38 | ㄇ 3107 8-39 | ㄈ 3108 8-40 | ㄉ 3109 8-41 | ㄊ 310A 8-42 | ㄋ 310B 8-43 | ㄌ 310C 8-44 | ㄍ 310D 8-45 | ㄎ 310E 8-46 | ㄏ 310F 8-47 |
5_ / D_ | ㄐ 3110 8-48 | ㄑ 3111 8-49 | ㄒ 3112 8-50 | ㄓ 3113 8-51 | ㄔ 3114 8-52 | ㄕ 3115 8-53 | ㄖ 3116 8-54 | ㄗ 3117 8-55 | ㄘ 3118 8-56 | ㄙ 3119 8-57 | ㄚ 311A 8-58 | ㄛ 311B 8-59 | ㄜ 311C 8-60 | ㄝ 311D 8-61 | ㄞ 311E 8-62 | ㄟ 311F 8-63 |
6_ / E_ | ㄠ 3120 8-64 | ㄡ 3121 8-65 | ㄢ 3122 8-66 | ㄣ 3123 8-67 | ㄤ 3124 8-68 | ㄥ 3125 8-69 | ㄦ 3126 8-70 | ㄧ 3127 8-71 | ㄨ 3128 8-72 | ㄩ 3129 8-73 | 8-74 | 8-75 | 8-76 | 8-77 | 8-78 | 8-79 |
7_ / F_ | 8-80 | 8-81 | 8-82 | 8-83 | 8-84 | 8-85 | 8-86 | 8-87 | 8-88 | 8-89 | 8-90 | 8-91 | 8-92 | 8-93 | 8-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Набор символов 0x29 / 0xA9 (строка 9: рисунок рамки)
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | 9-1 | 9-2 | 9-3 | ─ 2500 9-4 | ━ 2501 9-5 | │ 2502 9-6 | ┃ 2503 9-7 | ┄ 2504 9-8 | ┅ 2505 9-9 | ┆ 2506 9-10 | ┇ 2507 9-11 | ┈ 2508 9-12 | ┉ 2509 9-13 | ┊ 250А 9-14 | ┋ 250B 9-15 | |
3_ / B_ | ┌ 250C 9-16 | ┍ 250D 9-17 | ┎ 250E 9-18 | ┏ 250F 9-19 | ┐ 2510 9-20 | ┑ 2511 9-21 | ┒ 2512 9-22 | ┓ 2513 9-23 | └ 2514 9-24 | ┕ 2515 9-25 | ┖ 2516 9-26 | ┗ 2517 9-27 | ┘ 2518 9-28 | ┙ 2519 9-29 | ┚ 251A 9-30 | ┛ 251B 9-31 |
4_ / C_ | ├ 251C 9-32 | ┝ 251D 9-33 | ┞ 251E 9-34 | ┟ 251F 9-35 | ┠ 2520 9-36 | ┡ 2521 9-37 | ┢ 2522 9-38 | ┣ 2523 9-39 | ┤ 2524 9-40 | ┥ 2525 9-41 | ┦ 2526 9-42 | ┧ 2527 9-43 | ┨ 2528 9-44 | ┩ 2529 9-45 | ┪ 252A 9-46 | ┫ 252B 9-47 |
5_ / D_ | ┬ 252C 9-48 | ┭ 252D 9-49 | ┮ 252E 9-50 | ┯ 252F 9-51 | ┰ 2530 9-52 | ┱ 2531 9-53 | ┲ 2532 9-54 | ┳ 2533 9-55 | ┴ 2534 9-56 | ┵ 2535 9-57 | ┶ 2536 9-58 | ┷ 2537 9-59 | ┸ 2538 9-60 | ┹ 2539 9-61 | ┺ 253A 9-62 | ┻ 253B 9-63 |
6_ / E_ | ┼ 253C 9-64 | ┽ 253D 9-65 | ┾ 253E 9-66 | ┿ 253F 9-67 | ╀ 2540 9-68 | ╁ 2541 9-69 | ╂ 2542 9-70 | ╃ 2543 9-71 | ╄ 2544 9-72 | ╅ 2545 9-73 | ╆ 2546 9-74 | ╇ 2547 9-75 | ╈ 2548 9-76 | ╉ 2549 9-77 | ╊ 254A 9-78 | ╋ 254B 9-79 |
7_ / F_ | 9-80 | 9-81 | 9-82 | 9-83 | 9-84 | 9-85 | 9-86 | 9-87 | 9-88 | 9-89 | 9-90 | 9-91 | 9-92 | 9-93 | 9-94 |
Письмо Число Пунктуация Символ Другой Неопределенный
Ханзи ряды
Смотрите также
- Код Гуобяо
- CJK
- Кодировка китайских символов
- Unicode
- Big5 - стандарт, используемый в Тайване и Гонконге
- ГБ 18030, который заменил GB / T 2312-1980
- GB / T 12345-1990, традиционный аналог GB / T 2312-1980, замененный GB18030
Рекомендации
- ^ а б c d е ж Лунде, Кен (2009). Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния: О'Рейли. С. 94–111. ISBN 978-0-596-51447-1.
- ^ «2017 年 第 7 号 中国 国家 标准 公告 (Бюллетень национальных стандартов Китая за 2017 год № 7)». Управление стандартизации Китайской Народной Республики. Получено 3 июля 2018.
- ^ «Распределение кодировок символов среди веб-сайтов, использующих Китай и территории». w3techs.com. Получено 2020-06-01.
- ^ «Исторические тенденции использования кодировок символов, июнь 2020 г.». w3techs.com. Получено 2020-06-01.
- ^ «Кодирование: Обобщенные результаты тестирования». www.w3.org. Получено 2019-11-15.
- ^ а б c Лунде, Кен (1998). Приложение F: GB / T 12345 (PDF). CJKV Обработка информации. O'Reilly Media. ISBN 9781565922242.
- ^ GB12345-80 в таблицу Unicode. Консорциум Unicode. 1993-12-06. Архивировано из оригинал 17 июня 2004 г.
- ^ Ханнас, Уильям К. (1997). Орфографическая дилемма Азии. Гавайский университет Press. п. 264.
набор обеспечивает более 99,99% всего использования. Тем не менее, дизайнеры сочли необходимым добавить 14 276 символов «специального использования» для покрытия непредвиденных обстоятельств!
- ^ https://archive.org/details/GB2312-1980/page/n17
- ^ https://web.archive.org/web/20160303230643/http://cs.nyu.edu/~yusuke/tools/unicode_to_gb2312_or_gbk_table.html
- ^ а б Хейбл, Бруно. «GB2312 (Таблицы преобразования)». Получено 29 сентября 2016.
- ^ "Readme - КАРТЫ / УСТАРЕВШИЕ / EASTASIA". 9 августа 2001 г.. Получено 29 сентября 2016.
- ^ "java-EUC_CN-1.3_P.ucm". Получено 29 сентября 2016.[постоянная мертвая ссылка ]
- ^ "libiconv: lib / gb2312.h". GNU Savannah. Получено 29 сентября 2016.
- ^ «Проблема 24036». Отслеживание ошибок Python.
- ^ «Кодировка § Имена и метки». W3C. Получено 29 сентября 2016.
- ^ а б c d е ж грамм час я j «Карта (внешняя версия) из упрощенной китайской кодировки Mac OS в Unicode 3.0 и выше». Apple, Inc.
- ^ а б c d е ж грамм час Управление по стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии - набор китайских кодированных символов.
- ^ а б Вишванадха, Рагурам (30 августа 2000 г.). «Таблица Unicode в ISO-IR-165». Международные компоненты для Unicode. IBM.
- ^ Лунде, Кен (2009). «Персонажи, которые кажутся пропавшими без вести». Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния: О'Рейли. п. 180. ISBN 978-0-596-51447-1.
- ^ а б CCITT (1992-07-13). Коды китайского графического набора символов для общения (PDF). ITSCJ /IPSJ. ISO-IR-165.
- ^ Чиборра, Роман (1998-11-30) [1998-05-25]. "Суп с кириллической кодировкой". В архиве из оригинала от 03.12.2016. Получено 2016-12-03.
- ^ «Политика стабильности кодировки символов Unicode». Консорциум Unicode. 2017-06-23.
Примечания
- ^ Только для идеографов, охватываемых GB / T 2312, все из которых относятся к Unicode BMP
- ^ Как ISO 2022 совместимый 94п-набор символов, простое пространство и удалить символ доступны как однобайтовые коды по адресу 0x20 и 0x7F (не 0xA0 и 0xFF) соответственно.
- ^ Используется для U + FF47 ГБ 6345.1 и ГБ 18030 (которые используют 8-32 для U + 0261),[18] а для U + 0261 по ISO-IR-165.[19] Первоначальный эталонный символ GB 2312-80 напоминал U + 0261, но он был изменен GB 6345.1.[1]
- ^ а б c d е ж грамм час я j Эти персонажи из Вертикальные формы блокировать. Некоторые используемые сопоставления были разработаны, когда единственными формами вертикального представления, существовавшими в Unicode, были формы представления Формы совместимости CJK блокировать. В частности, они сопоставляются GB 18030 с Зона частного использования, но с определенным глифом,[18] и Apple к обычному полноразмерному символу с добавленным символом частного использования U + F87E в качестве маркера вариации.[17]
- ^ Сопоставлен с Зона частного использования U + E7C7 первым (2000 г.) изданием ГБ 18030; это было исправлено изданием 2005 года.[18]
- ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот персонаж был сопоставлен с его композиционной последовательностью (т.е. U + 006E + 0300) от Apple.[17] Это изменение предшествует стабилизации Юникод нормализация Forms, который был представлен в Unicode 3.1.[23]
- ^ Используется для U + 0261 в ГБ 6345.1[17] и GB 18030[18] (которые используют 3-71 для U + FF47), но для U + FF47 в ISO-IR-165.[19][21]
дальнейшее чтение
- Лунде, Кен (2009). «Стандарты набора символов китайского языка - Китай». CJKV Обработка информации (2-е изд.). О'Рейли. ISBN 978-0-596-51447-1.
внешняя ссылка
- Графический вид GB2312 в проводнике конвертеров ICU
- Unicode в таблицу GB2312 или GBK
- Коды китайских символов
- Эволюция GBK и GB2312 в GB18030
- GB2312 Набор символов для китайских иероглифов
- Кодированный набор китайских графических символов для обмена информацией ISO-IR 58
- Код C генерирует 6763 основных символа с выводом
- Стандарт GB2312-80 на China-Language.gov.cn