Индийский алфавитный код для обмена информацией - Indian Script Code for Information Interchange

Индийский алфавитный код для обмена информацией (ISCII) - это схема кодирования для представления различных систем письма Индия. Он кодирует основные Индийские скрипты и латинская транслитерация. Поддерживаемые скрипты: Ассамский, Бенгалия (Бангла), Деванагари, Гуджарати, Гурмукхи, Каннада, Малаялам, Ория, Тамильский, и телугу. ISCII не кодирует системы письма Индии, основанные на Персидский, но его коды переключения системы записи, тем не менее, предусматривают Кашмири, Синдхи, Урду, Персидский, Пушту и арабский. Системы письма на основе персидского языка были впоследствии закодированы в PASCII кодирование.

ISCII не использовался широко за пределами определенных государственных учреждений и в настоящее время в значительной степени устарел. Unicode. Unicode использует отдельный блок для каждой индийской системы письма и в значительной степени сохраняет структуру ISCII внутри каждого блока.

Фон

Системы письма, производные от брахми, имеют аналогичную структуру. Таким образом, ISCII кодирует буквы с одним и тем же фонетическим значением в одной и той же кодовой точке, перекрывая различные сценарии. Например, коды ISCII 0xB3 0xDB представляют [ki]. Это будет отображаться как കി в Малаялам, В Деванагари, как ਕਿ в Гурмукхи, и как கி на тамильском. Система записи может быть выбрана в формате RTF с помощью разметки или в виде обычного текста с помощью кода ATR, описанного ниже.

Одним из мотивов использования единой кодировки является идея, что она позволит легко транслитерация от одной системы письма к другой. Однако существует достаточно несовместимости, поэтому это не совсем практическая идея.

ISCII - это 8-битная кодировка. Нижние 128 кодовых точек просты ASCII, верхние 128 кодовых точек относятся к ISCII. В дополнение к кодовым точкам, представляющим символы, ISCII использует кодовую точку с мнемоническим ATR, которая указывает, что следующий байт содержит один из двух видов информации. Один набор значений изменяет систему записи до следующего индикатора системы записи или конца строки. Другой набор значений выбирает режимы отображения, такие как полужирный и курсив. ISCII не предоставляет средств указания системы письма по умолчанию.

Макет кодовой страницы

В следующей таблице показан набор символов для Деванагари. Наборы кодов для ассамского, бенгали, гуджарати, гурмукхи, каннада, малаялам, ория, тамильского и телугу аналогичны, причем каждая форма деванагари заменена эквивалентная форма в каждой системе письма. Каждый символ отображается с его десятичным кодом и Unicode эквивалент.

ISCII Деванагари
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_
0
NUL
0000
SOH
0001
STX
0002
ETX
0003
EOT
0004
ENQ
0005
ACK
0006
BEL
0007
BS
0008
HT
0009
LF
000A
VT
000B
FF
000C
CR
000D
ТАК
000E
SI
000F
1_
16
DLE
0010
DC1
0011
DC2
0012
DC3
0013
DC4
0014
НАК
0015
SYN
0016
ETB
0017
МОЖЕТ
0018
ЭМ
0019
SUB
001A
ESC
001B
FS
001C
GS
001D
RS
001E
нас
001F
2_
32
SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
А
0041
B
0042
C
0043
D
0044
E
0045
F
0046
грамм
0047
ЧАС
0048
я
0049
J
004A
K
004B
L
004C
M
004D
N
004E
О
004F
5_
80
п
0050
Q
0051
р
0052
S
0053
Т
0054
U
0055
V
0056
W
0057
Икс
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_
96
`
0060
а
0061
б
0062
c
0063
d
0064
е
0065
ж
0066
грамм
0067
час
0068
я
0069
j
006A
k
006B
л
006C
м
006D
п
006E
о
006F
7_
112
п
0070
q
0071
р
0072
s
0073
т
0074
ты
0075
v
0076
ш
0077
Икс
0078
у
0079
z
007A
{
007B
|
007C
}
007D
~
007E
DEL
007F
8_
128
9_
144
A_
160

0901

0902

0903

0905

0906

0907

0908

0909

090A

090B

090E

090F

0910

090D

0912
B_
176

0913

0914

0911

0915

0916

0917

0918

0919

091A

091B

091C

091D

091E

091F

0920

0921
C_
192

0922

0923

0924

0925

0926

0927

0928

0929

092A

092B

092C

092D

092E

092F
य़
095F

0930
D_
208

0931

0932

0933

0934

0935

0936

0937

0938

0939
INV
 

093E
ि
093F

0940

0941

0942

0943
E_
224

0946

0947

0948

0945

094A

094B

094C

0949

094D

093C

0964
ATR
 
F_
240
EXT
 

0966

0967

0968

0969

096A

096B

096C

096D

096E

096F

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Специальные кодовые точки

Символ INV - кодовая точка D9 (217)
Символ INV используется как псевдосогласный для изолированного отображения комбинируемых элементов. Например, क (ка) + ् (галант) + INV = क्‍ (половина ка). Эквивалент Unicode U + 200D НУЛЕВАЯ ШИРИНА СОЕДИНИТЕЛЯ.
Символ ATR - кодовая точка EF (239)
Символ ATR, за которым следует байтовый код, используется для переключения на другой атрибут шрифта (например, полужирный) или язык (например, бенгальский) до следующей последовательности ATR или до конца строки. У него нет прямого эквивалента Unicode, поскольку атрибуты шрифта не являются частью Unicode, и каждый скрипт имеет отдельный набор кодовых точек.
Символ EXT - кодовая точка F0 (240)
Символ EXT, за которым следует байтовый код, указывает на ведический акцент. У этого нет прямого эквивалента Unicode, поскольку ведические акценты назначаются отдельным кодовым точкам.
Символ Halant ् - кодовая точка E8 (232)
Галантный символ удаляет неявную гласную из согласной и используется между согласными для обозначения соединенных согласных. Например, क (ka) + ् (halant) + त (ta) = क्त (kta). Последовательность ् (halant) + ् (halant) отображает конъюнкт с явным halant, например क (ka) + ् (halant) + ् (halant) + त (ta) = क्‌त. Последовательность ् (галант) + ़ (нукта) отображает конъюнкт с половинными согласными, если они доступны, например क (ка) + ् (галант) + ़ (нукта) + त (та) = क्‍त.
ISCIIUnicode
одинарный галантE8Halant094D
галант + галантE8 E8галант + ZWNJ094D 200C
халант + нуктаE8 E9галант + ZWJ094D 200D
Символ нукта ़ - кодовая точка E9 (233)
В нукта Символ после другого символа ISCII используется для ряда более редких символов, которых нет в основном наборе ISCII. Например, क (ka) + ़ (nukta) = क़ (qa). Эти символы имеют предварительно составленные формы в Юникоде, как показано в следующей таблице.
ISCII
кодовая точка
Оригинал
персонаж
Характер
с нуктой
Unicode
кодовая точка
A1 (161)0950
A6 (166)090C
A7 (167)0961
AA (176)0960
B3 (179)क़0958
В4 (180)ख़0959
B5 (181)ग़095A
BA (186)ज़095B
BF (191)ड़095C
C0 (192)ढ़095D
C9 (201)फ़095E
ДБ (219)ि0962
DC (220)0963
DF (223)0944
EA (234)093D

Кодовые страницы для преобразования ISCII

Для преобразования из Unicode (UTF-8) в кодировку ISCII / ANSI могут использоваться следующие кодовые страницы:

  • 57002: деванагари (хинди, маратхи, санскрит, конкани)
  • 57003: бенгальский
  • 57004: тамильский
  • 57005: телугу
  • 57006: ассамский
  • 57007: Одиа
  • 57008: каннада
  • 57009: малаялам
  • 57010: гуджарати
  • 57011: пенджаби (гурмукхи)

Кодовые баллы для всех языков

внешняя ссылка