JIS X 0201 - JIS X 0201

JIS X 0201
JIS-C-6220.svg
JIS X 0201 8-битная кодовая страница
MIME / IANA8 бит: JIS_X0201
7-битный Роман: JIS_C6220-1969-ro
7-битная Кана: JIS_C6220-1969-jp
Псевдоним (а)JIS C 6220
8 бит: csHalfWidthKatakana
Римский: ISO646-JP, iso-ir-14
Кана: iso-ir-13, x0201-7
Язык (и)Японский (базовая поддержка), английский
СтандартJIS X 0201: 1969
КлассификацияISO 646, Расширенный ISO 646
ПредшествуетКод Wabun, JIS C 0803
ПреемникShift JIS
Другая связанная кодировка (и)N-байтовый код хангыль

JIS X 0201, а Японский промышленный стандарт разработан в 1969 г. (тогда назывался JIS C 6220 до реформы категории JIS) был первым японским электронным набор символов стать широко используемым. Это либо 7-битное кодирование, либо 8-битное кодирование, хотя 8-битное кодирование является доминирующим для современного использования. Полное название этого стандарта: Наборы 7-битных и 8-битных кодированных символов для обмена информацией (7 ビ ッ ト 及 び 8 ビ ッ ト の 情報 交換 用 符号 化 文字 集合).

Первые 96 кодов составляют ISO 646 вариант, в основном следующие ASCII с некоторыми отличиями, в то время как вторые 96-символьные коды представляют фонетический японский катакана приметы. Поскольку кодировка не дает возможности выразить хирагана или же кандзи, он способен выражать только упрощенный письменный японский язык. Тем не менее, можно хотя бы фонетически выразить весь спектр звуков языка. В 1980-х годах это было приемлемо для таких средств массовой информации, как компьютерные терминалы в текстовом режиме, телеграммы, квитанции или другие данные, обрабатываемые электронным способом.

JIS X 0201 был заменен последующими кодировками, такими как Shift JIS (который сочетает в себе этот стандарт и JIS X 0208 ) и позже Unicode.

История

В Comite Consultatif International Telephonique et Telegraphique (CCITT) представил Международный телеграфный алфавит Код № 2 (ITA2) в качестве международного стандарта, представляющий собой 5-битную латинскую кодировку. В большинстве стран существуют свои собственные национальные стандарты, основанные на этом. В Японии Агентство промышленной науки и технологий (AIST) стандартизовало его как 6-битные коды символов JIS C 0803-1961 (Раскладка клавиатуры и коды для телетайпов), которые сочетаются с символами катаканы. Однако это не соответствовало отраслевым требованиям, потому что карта символов была небольшой, а макет кода был непрактичным. AIST рассмотрел практическую кодировку символов для замены различных кодов, используемых в Японии.[1]

В 1963 году ISO представила проект стандарта ISO R 646 (Наборы 6- и 7-битных кодированных символов для обмена информацией при обработке). AIST внедрил соединение ISO R 646 и отображения катаканы в Общество обработки информации Японии (IPSJ). IPSJ сформировал комитет по стандартизации кодов. Комитет не принял 6-битную форму проекта ISO, потому что набор катакана не мог вписаться в его карту символов. В раннем проекте JIS маленькие символы катаканы отображались рядом с каждым из их обычных символов катаканы. Считалось удобным для сортировки по Годзюон порядок. Некоторые члены комитета критиковали, что это усложнит механику клавиатуры, которая обрабатывает только обычные символы катаканы. В более позднем проекте маленькие символы катаканы были сопоставлены с позициями 0xA7-0xAF. В 1966 г. четвертый проект ISO определил символ национальной валюты как 0x24, и комитет JIS планировал сопоставить знак иены. Первое издание ISO 646 было опубликовано в 1967 году. В нем указывались коды ASCII. знак доллара 0x24 как инвариантный символ, поэтому комитет JIS решил заменить ASCII обратная косая черта 0x5c (один из вариантов символов) со знаком йены. Однако в 1968 году CCITT представил международный алфавит № 5 (IA5), в котором говорилось, что знак доллара не требуется и его можно заменить на знак международной валюты (¤).[2] ISO 646 был пересмотрен в 1973 году, чтобы соответствовать IA5.[3]

JIS C 6220 (Коды для обмена информацией, 情報 交換 用 符号) был опубликован в 1969 году. Его номер был изменен на JIS X 0201 в связи с реформой категории JIS в 1987 году, а название было изменено на Наборы 7-битных и 8-битных кодированных символов для обмена информацией (7 ビ ッ ト 及 び 8 ビ ッ ト の 情報 交換 用 符号 化 文字 集合) в издании 1990 года.

Набор символов JIS X 0201 широко использовался в Японии. Национальная система передачи банковских данных (全国 銀行 デ ー タ 通信 シ ス テ ム), крупнейшая система денежных переводов в Японии, была создана в 1973 году. В сообщениях о транзакциях между банками использовалась подмножество JIS X 0201. Система использовалась до 2018 года, и это было заменен ZEDI (Национальная система обмена банковскими электронными данными, 全 銀 EDI シ ス テ ム), которая могла обрабатывать символы хирагана и иероглифы.[4] В 1978 году JIS C 6226 (JIS X 0208 ) 2-байтовый набор символов был разработан для обозначения символов хирагана и кандзи. Он включает символы катакана, но их коды и раскладка отличаются от JIS X 0201. Производители компьютеров разработали собственные расширения JIS X 0208, чтобы сохранить совместимость с JIS X 0201. В 1982 г. Microsoft Схема кодирования кандзи (Кодовая страница 932 из MS-DOS ) и Цифровые исследования SJC26 (для японского CP / M-86 ) были разработаны для объединения однобайтового кодирования JIS X 0201 и двухбайтового кодирования JIS X 0208 без сдвинуть и перейти в символы.[5] Они назывались Shift JIS, который стал промышленным стандартом для персональных компьютеров.

Детали реализации

7-битный римский (перейти в ) набор
7-битный набор Kana (сдвиг)

Первая половина (римский набор) JIS X 0201 представляет собой японский вариант ISO 646, в размере ASCII с обратная косая черта () и тильда (~) заменено на иена (¥) и над чертой (‾),[6] а вторая половина (набор Кана) состоит в основном из катакана. Управляющие символы указаны в JIS X 0211.

В 7-битном формате сдвинуть управляющий символ (0x0E) переключает на набор Кана и перейти в (0x0F) переключает на римский набор.[7][8] В 8-битном формате, представленном в таблице ниже, байты с установленным старшим битом (т. Е. 0x80–0xFF) используются для набора Кана, а байты с неустановленным значением (т. Е. 0x00–0x7F) используются в противном случае.

Имена, используемые специально для 7-битного римского набора, включают "JISCII",[9] «JIS Роман», г.[10] "ISO646-JP",[11][12] "JIS C6220-1969-ro",[12][11] "Японско-римский",[13] "Японская 7-битная латынь",[14] и «ИСО-ИК-14»,[11][12][8] в то время как имена, используемые специально для 7-битного набора Кана, включают "ISO-IR-13",[7][11][12] "JIS C6220-1969-jp"[11][12] и «x0201-7».[11][12]

Замена символа иены на обратную косую черту может сделать пути на ДОС и Windows компьютеры с поддержкой японского языка странно отображаются, например, как «C: ¥ Program Files ¥».[15] Еще одна похожая проблема Язык программирования C управляющие символы строковые литералы, подобно printf ("Привет, мир. ¥ n");.

Макет кодовой страницы

Следующая таблица представляет собой исходный 8-битный набор символов JIS X 0201 (с набором кана, обозначенным байтами с установленным старшим битом).[16]

8-битная форма JIS X 0201-1997
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_
0
Коды C0
0000-001F
1_
16
2_
32
SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
А
0041
B
0042
C
0043
D
0044
E
0045
F
0046
грамм
0047
ЧАС
0048
я
0049
J
004A
K
004B
L
004C
M
004D
N
004E
О
004F
5_
80
п
0050
Q
0051
р
0052
S
0053
Т
0054
U
0055
V
0056
W
0057
Икс
0058
Y
0059
Z
005A
[
005B
¥
00A5
]
005D
^
005E
_
005F
6_
96
`
0060
а
0061
б
0062
c
0063
d
0064
е
0065
ж
0066
грамм
0067
час
0068
я
0069
j
006A
k
006B
л
006C
м
006D
п
006E
о
006F
7_
112
п
0070
q
0071
р
0072
s
0073
т
0074
ты
0075
v
0076
ш
0077
Икс
0078
y
0079
z
007A
{
007B
|
007C
}
007D

203E
DEL
007F
8_
128
Коды C1 или пустой блок
0080-009F
9_
144
A_
160

3002

300C

300D

3001

30FB

30F2

30A1

30A3

30A5

30A7

30A9

30E3

30E5

30E7

30C3
B_
176

30FC

30A2

30A4

30A6

30A8

30AA

30AB

30 г.

30AF

30B1

30B3

30B5

30B7

30B9

30BB

30BD
C_
192

30BF

30C1

30C4

30C6

30C8

30CA

30КБ

30CC

30CD

30CE

30CF

30D2

30D5

30D8

30 дБ

30DE
D_
208

30DF

30E0

30E1

30E2

30E4

30E6

30E8

30E9

30EA

30EB

30EC

30ED

30EF

30F3

309B

309C
E_
224
F_
240

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

В составе Shift JIS

Ниже приводится сопоставление, используемое для JIS X 0201 как часть Shift_JIS,[17][18] т.е. показ 8-битной формы JIS X 0201 и сопоставление символов катаканы с Формы половинной и полной ширины блок (который, в свою очередь, получает кана половинной ширины макет из JIS X 0201).

Набор однобайтовых символов Shift JIS
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_
0
1_
16
2_
32
SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
А
0041
B
0042
C
0043
D
0044
E
0045
F
0046
грамм
0047
ЧАС
0048
я
0049
J
004A
K
004B
L
004C
M
004D
N
004E
О
004F
5_
80
п
0050
Q
0051
р
0052
S
0053
Т
0054
U
0055
V
0056
W
0057
Икс
0058
Y
0059
Z
005A
[
005B
¥
00A5
]
005D
^
005E
_
005F
6_
96
`
0060
а
0061
б
0062
c
0063
d
0064
е
0065
ж
0066
грамм
0067
час
0068
я
0069
j
006A
k
006B
л
006C
м
006D
п
006E
о
006F
7_
112
п
0070
q
0071
р
0072
s
0073
т
0074
ты
0075
v
0076
ш
0077
Икс
0078
y
0079
z
007A
{
007B
|
007C
}
007D

203E
8_
128
9_
144
A_
160

FF61

FF62

FF63

FF64

FF65

FF66

FF67

FF68

FF69

FF6A

FF6B

FF6C

FF6D

FF6E

FF6F
B_
176

FF70

FF71

FF72

FF73

FF74

FF75

FF76

FF77

FF78

FF79

FF7A

FF7B

FF7C

FF7D

FF7E
ソ
FF7F
C_
192

FF80

FF81

FF82

FF83

FF84

FF85

FF86

FF87

FF88

FF89

FF8A

FF8B

FF8C

FF8D

FF8E

FF8F
D_
208

FF90

FF91

FF92

FF93

FF94

FF95

FF96

FF97

FF98

FF99

FF9A

FF9B

FF9C

FF9D

FF9E

FF9F
E_
224
F_
240

  Красные ячейки указывают первые байты двухбайтовых символов Shift JIS.[5]

Альтернативное отображение катаканы

Базовый ISO-2022-JP профиль не позволяет использовать набор Kana JIS X 0201, только римский набор и JIS X 0208 (хотя сам ISO 2022 / JIS X 0202 допускает это). Соответственно, при конвертации катаканы JIS X 0201 (или Unicode кана половинной ширины, которые используют тот же макет) в ISO-2022-JP, часто используется следующее отображение или преобразование.[20] Это позволяет конвертировать кана в JIS X 0208.

Теоретически это отображение так же верно, как и сам JIS X 0201. не указывает ширина дисплея, хотя на практике (и особенно в дуоширинный среды) JIS X 0201 используется для катаканы половинной ширины.

Для простоты сравнения с приведенной выше диаграммой сопоставление показано ниже в кодировке катакана JIS X 0201 и с установленным старшим битом.

Сопоставления, совместимые с JIS X 0208 для JIS X 0201 katakana[21]
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
A_
3002

300C

300D

3001

30FB

30F2

30A1

30A3

30A5

30A7

30A9

30E3

30E5

30E7

30C3
B_
30FC

30A2

30A4

30A6

30A8

30AA

30AB

30 г.

30AF

30B1

30B3

30B5

30B7

30B9

30BB

30BD
C_
30BF

30C1

30C4

30C6

30C8

30CA

30КБ

30CC

30CD

30CE

30CF

30D2

30D5

30D8

30 дБ

30DE
D_
30DF

30E0

30E1

30E2

30E4

30E6

30E8

30E9

30EA

30EB

30EC

30ED

30EF

30F3
[а]
309B
[b]
309C
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F

Варианты и расширения

Shift JIS

Реализации IBM

Кодовая страница 897 является IBM реализация 8-битной формы JIS X 0201. Он включает несколько дополнительных графических символов в C0 управляющие символы области, и рассматриваемые кодовые точки могут использоваться как управляющие символы или графические символы в зависимости от контекста,[23] аналогично концепции OEM-США, но с другими графическими символами. Строки C0 показаны ниже.

Кодовая страница 897, только строки 0x00 и 0x10[28]
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_
0
NUL
0000

2554

2557

255A

255D

2551

2550

FFEC
BS
0008

FFEE
LF
000A

303F
FF
000C
CR
000D

FFED

263C
1_
16

256C
DC1
0011

2195
DC3
0013

2593

2569

2566

2563
МОЖЕТ
0018

2560
/FS
2591 / 001C

21B5
/DEL
FFEA / 007F

FFE8

FFEB

FFE9

IBM также реализует 7-битный римский набор JIS X 0201 как Кодовая страница 895[29] и 7-битная Кана, установленная как Кодовая страница 896 для использования в качестве ISO 2022 или же EUC-JP кодовые наборы. Кодовая страница 896, в дополнение к стандартным назначениям JIS X 0201, определяет пять дополнительных назначений, показанных ниже.[30] Хотя использование этих расширенных символов не разрешено соответствующими CCSID 896,[31] они разрешены альтернативным CCSID 4992.[32]

Кодовая страница 896, только строка 0x60[30]
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
6_
96
¢
00A2
£
00A3
¬
00AC
\
005C
~
007E

IBM Кодовая страница 1041 - это расширенная версия кодовой страницы 897, кодирующая эти пять расширенных[33] персонажей в альтернативных местах, совместимых с Shift JIS (соответственно 0x80, 0xA0, 0xFD, 0xFE и 0xFF).[34]

IBM Кодовая страница 903 кодируется для использования в качестве однобайтового компонента некоторых упрощенный китайский кодировки символов.[35] Несмотря на это, он следует ISO 646-JP / римской половине JIS X 0201 в том, что он заменяет обратную косую черту ASCII 0x5C (а не знак доллара ASCII 0x24, как в GB 1988 / ISO 646-CN ) с знак йены / юаня. Он также использует ту же графику замены C0, что и кодовая страница 897.[36] Это тесно связано с Кодовая страница 904, который закодирован для использования в качестве однобайтового компонента некоторых традиционный китайский кодировки символов,[37][38] и использует ту же графику замены C0, но следует ASCII.[39]

Другие

Сноски

  1. ^ Сопоставляется с JIS X 0208 символ (сопоставлен с U + 309B), а не нормализация совместимости (это будет U + 3099, комбинированная версия).[22]
  2. ^ Сопоставляется, чтобы соответствовать JIS X 0208 символ (сопоставлен с U + 309C), а не нормализация совместимости (это будет U + 309A, комбинированная версия).[22]

Рекомендации

  1. ^ 行政管理 庁 (Агентство административного управления) (1968). 行政 に お け る 電子 計算機 の 共同 利用 に す る 調査 研究 報告 書 (на японском языке).行政事務 機械化 研究 協会. С. 108–113. OCLC  703804474.
  2. ^ CCITT (1969). «Рекомендация V.3: Международный алфавит № 5». Белая книга: Том VIII - CCITT (Мар-дель-Плата, 1968). Международный союз электросвязи. стр. 11–19. Получено 2019-07-25.
  3. ^ Ясуока, Коичи; Ясуока, Мотоко (2006). «2.2 ASCII と ISO R 646 と JIS C 6220». 文字 符号 の 歴 史 (на японском языке).共 立 出 Version. С. 89–112. ISBN  4-320-12102-3.
  4. ^ "経 理 部門 の 人材 不足 で 会 朗 報 、 金融 EDI「 ZEDI 」が 2018 年 稼 働 へ". Nikkei X-TECH. 2017-11-30. Получено 2019-07-24.
  5. ^ а б 西 田, 憲 正 (1983-12-19). "Unix-версия MS-DOS 2.0, версия". 日 経 エ レ ク ト ロ ニ ク ス (на японском языке). Никкей МакГроу-Хилл: 165–190. ISSN  0385-1680.
  6. ^ «3.1.1 Подробности проблем». Проблемы и решения для Unicode и символов, определенных пользователем / поставщиком. Открытая группа в Японии. Архивировано из оригинал на 1999-02-03. Получено 2019-04-15.
  7. ^ а б ISO-IR 013: японский графический набор символов KATAKANA (PDF), Комиссия по стандартам информационных технологий Японии (ITSCJ / IPSJ)
  8. ^ а б ISO-IR 014: Набор японских римских символов. (PDF), Комиссия по стандартам информационных технологий Японии (ITSCJ / IPSJ)
  9. ^ «IBM-943 и IBM-932», Центр знаний IBM, IBM
  10. ^ "kUnicodeForceASCIIRangeMask", Документация для разработчиков Apple, Apple Inc.
  11. ^ а б c d е ж RFC  1345
  12. ^ а б c d е ж «Наборы символов». IANA.
  13. ^ да Круз, Франк (2010-04-02), "Кермит и имена наборов символов MIME", Kermit Project, Колумбийский университет
  14. ^ "CP 00895", IBM Globalization - идентификаторы кодовых страниц, IBM
  15. ^ Каплан, Майкл С. (17 сентября 2005 г.). "Когда обратная косая черта не является обратной?".
  16. ^ JIS X 0201-1997 (на японском языке). Японская ассоциация стандартов. 1997-02-28. п. 17.
  17. ^ "ibm-943_P130-1999". Демонстрация ICU - Конвертер Explorer. Международные компоненты для Unicode.
  18. ^ Apple, Inc (2005-04-05) [1995-04-15]. "JAPANESE.TXT: преобразование (внешняя версия) японской кодировки Mac OS в Unicode 2.1 и более поздних версий". Консорциум Unicode.
  19. ^ ван Кестерен, Энн (2019-02-11). «12.2.2. Кодировщик ISO-2022-JP». Стандарт кодирования. WHATWG.
  20. ^ В WHATWG Стандарт кодирования, например, использует его как преобразование при кодировании данных кана половинной ширины Unicode в ISO-2022-JP.[19]
  21. ^ ван Кестерен, Энн (2018-01-06). «Индекс ISO-2022-JP Katakana». Стандарт кодирования. WHATWG.
  22. ^ а б ван Кестерен, Энн (2019-02-11). «5. Указатели». Стандарт кодирования. WHATWG.
  23. ^ «Идентификаторы кодовых страниц - CP 00897». IBM Глобализация. IBM. Архивировано из оригинал на 2016-03-17.
  24. ^ "CP00897.pdf" (PDF). IBM. В архиве (PDF) из оригинала на 2019-01-12. Получено 2017-12-05.
  25. ^ "CP00897.txt". IBM. В архиве из оригинала на 2019-01-12. Получено 2017-12-05.
  26. ^ "Converter Explorer - ibm-943_P130-1999". Демонстрация ICU. Международные компоненты для Unicode.
  27. ^ «Идентификаторы кодированного набора символов - CCSID 943». IBM Глобализация. IBM. Архивировано из оригинал 15 марта 2016 г.
  28. ^ Графика перечислены в CP00897.pdf и CP00897.txt, предоставленных IBM.[24][25] Элементы управления перечислены, в отсутствие графической функции или если они отличаются от ASCII, в соответствии с кодеком ibm-943_P130-1999, предоставленным IBM для Международные компоненты для Unicode[26] (IBM-943 - это надмножество кодовой страницы 897).[27] SUB назначается 0x7F.
  29. ^ "CP00895.pdf" (PDF). IBM. В архиве (PDF) из оригинала на 2017-12-08. Получено 2017-12-06.
  30. ^ а б "CP00896.pdf" (PDF). IBM. В архиве (PDF) из оригинала на 2019-01-12. Получено 2017-12-05.
  31. ^ «Идентификаторы кодированного набора символов - CCSID 896». IBM Глобализация. IBM. Архивировано из оригинал on 2016-03-26.
  32. ^ «Идентификаторы кодированного набора символов - CCSID 4992». IBM Глобализация. IBM. Архивировано из оригинал on 2016-03-27.
  33. ^ «11.2 - IBM Extended SBCS Set». Набор символов японской графики IBM для расширенного кода UNIX (EUC) (PDF). IBM. п. 315. В архиве (PDF) из оригинала на 2019-01-12. Получено 2017-12-07.
  34. ^ "CP01041.pdf" (PDF). IBM. В архиве (PDF) из оригинала на 2019-01-12. Получено 2017-12-05.
  35. ^ «Идентификаторы кодовых страниц - CP 903». IBM Глобализация. IBM. Архивировано из оригинал на 2016-03-17.
  36. ^ "CP00903.pdf" (PDF). IBM. В архиве (PDF) из оригинала на 2019-01-12. Получено 2018-02-17.
  37. ^ «Идентификаторы кодовых страниц - CP 904». IBM Глобализация. IBM.[постоянная мертвая ссылка ]
  38. ^ «Идентификаторы кодированного набора символов - CCSID 904». IBM Глобализация. IBM. Архивировано из оригинал on 2016-03-27.
  39. ^ "CP00904.pdf" (PDF). IBM. В архиве (PDF) из оригинала на 2019-01-12. Получено 2018-05-11.

внешняя ссылка