Indischer Skriptcode für den Informationsaustausch - Indian Script Code for Information Interchange

Indian Script Code for Information Interchange ( ISCII ) ist ein Kodierungsschema zur Darstellung verschiedener Schriftsysteme Indiens . Es kodiert die wichtigsten indischen Schriften und eine römische Transliteration. Die unterstützten Skripte sind: Assamesisch , Bengali (Bangla) , Devanagari , Gujarati , Gurmukhi , Kannada , Malayalam , Oriya , Tamil und Telugu . ISCII kodiert nicht die Schriftsysteme Indiens, die auf Persisch basieren , aber seine Schriftsystem-Umschaltcodes sehen dennoch Kaschmir , Sindhi , Urdu , Persisch , Paschtu und Arabisch vor . Die auf Persisch basierenden Schriftsysteme wurden anschließend in der PASCII- Kodierung kodiert.

ISCII wurde außerhalb bestimmter Regierungsinstitutionen nicht weit verbreitet verwendet, obwohl eine Variante ohne den ATR- Mechanismus auf dem klassischen Mac OS verwendet wurde und die jetzt von Unicode weitgehend veraltet ist . Unicode verwendet einen separaten Block für jedes indische Schreibsystem und behält das ISCII-Layout innerhalb jedes Blocks weitgehend bei.

Hintergrund

Die von Brahmi abgeleiteten Schriftsysteme haben eine ähnliche Struktur. ISCII codiert also Buchstaben mit demselben phonetischen Wert am selben Codepunkt und überlagert die verschiedenen Skripte. Beispielsweise repräsentieren die ISCII-Codes 0xB3 0xDB [ki]. Dies wird als കി in Malayalam , कि in Devanagari, als ਕਿ in Gurmukhi und als கி in Tamil wiedergegeben. Das Schriftsystem kann im Rich Text per Markup oder im Klartext über den unten beschriebenen ATR- Code ausgewählt werden.

Eine Motivation für die Verwendung einer einzigen Kodierung ist die Idee, dass sie eine einfache Transliteration von einem Schriftsystem in ein anderes ermöglicht. Es gibt jedoch genug Inkompatibilitäten, dass dies nicht wirklich eine praktische Idee ist.

ISCII ist eine 8-Bit-Codierung. Die unteren 128 Codepunkte sind reines ASCII , die oberen 128 Codepunkte sind ISCII-spezifisch. Zusätzlich zu den Codepunkten, die Zeichen darstellen, verwendet ISCII einen Codepunkt mit mnemonischer ATR , der angibt, dass das folgende Byte eine von zwei Arten von Informationen enthält. Ein Satz von Werten ändert das Schriftsystem bis zum nächsten Schriftsystemindikator oder Zeilenende. Ein weiterer Satz von Werten wählt Anzeigemodi wie fett und kursiv aus. ISCII bietet keine Möglichkeit, das Standardschriftsystem anzugeben.

Codepage-Layout

Die folgende Tabelle zeigt den Zeichensatz für Devanagari . Die Codesätze für Assamesisch, Bengali, Gujarati, Gurmukhi, Kannada, Malayalam, Oriya, Tamil und Telugu sind ähnlich, wobei jede Devanagari- Form in jedem Schriftsystem durch die entsprechende Form ersetzt wird . Jedes Zeichen wird mit seinem Dezimalcode und seinem Unicode- Äquivalent angezeigt .

ISCII Devanagari
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _EIN _B _C _D _E _F
0_
0
NUL
0000
SOH
0001
STX
0002
ETX
0003
EOT
0004
ENQ
0005
ACK
0006
BEL
0007
BS
0008
HT
0009
LF
000A
VT
000B
FF
000C
CR
000D
SO
000E
SI
000F
1_
16
DLE
0010
DC1
0011
DC2
0012
DC3
0013
DC4
0014
NAK
0015
SYN
0016
ETB
0017
CAN
0018
EM
0019
SUB
001A
ESC
001B
FS
001C
GS
001D
RS
001E
US
001F
2_
32
SP
0020
!
0021
"
0022
#
0023
0024 $
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
Ich
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_
96
`
0060
ein
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
i
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
w
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E
DEL
007F
8_
128
9_
144
A_
160

0901

0902

0903

0905

0906

0907

0908

0909

090A

090B

090E

090F

0910

090D

0912
B_
176

0913

0914

0911

0915

0916

0917

0918
19
0919

091A
1
091B

091C

091D

091E

091F

0920

0921
C_
192

0922

0923

0924

0925

0926

0927

0928
ऩ
0929

092A
2
092B

092C

092D

092E
2
092F
य़
095F

0930
D_
208
ऱ
0931
32
0932

0933
ऴ
0934

0935

0936

0937

0938

0939
INV
 

093E
ि
093F

0940

0941

0942

0943
E_
224

0946

0947

0948

0945

094A

094B

094C

0949

094D

093C
.
0964
ATR
 
F_
240
EXT
 
0
0966
1
0967
2
0968
3
0969
4
096A
6
096B
6
096C
7
096D
8
096E
9
096F

  Brief  Nummer  Interpunktion  Symbol  Andere  Nicht definiert

Spezielle Codepunkte

INV-Zeichen – Codepunkt D9 (217)
Das INV-Zeichen (unsichtbarer Konsonant) wird als Pseudokonsonant verwendet, um Kombinationselemente isoliert anzuzeigen. Zum Beispiel ist क (ka) + ् (Halogen) + INV = क्‍ (halbes ka). Das Unicode-Äquivalent ist U+200D ZERO WIDTH JOINER ( ZWJ ). Wie unten erwähnt , kann der ISCII-Halant-Charakter jedoch verdoppelt oder mit dem ISCII-Nukta kombiniert werden, um Effekte zu erzielen, die von ZWNJ oder ZWJ in Unicode erzeugt werden. Aus diesem Grund ordnet Apple das ISCII-INV-Zeichen der Unicode -Markierung von links nach rechts zu, um Round-Tripping zu gewährleisten .
ATR-Zeichen – Codepunkt EF (239)
Das ATR-Zeichen (Attribut) gefolgt von einem Byte-Code wird verwendet, um bis zur nächsten ATR-Sequenz oder dem Ende des . zu einem anderen Schriftattribut ( zB fett) oder zu einer anderen ISCII- oder PASCII- Sprache ( zB Bengali) zu wechseln Linie. Dies hat kein direktes Unicode-Äquivalent, da Schriftartattribute nicht Teil von Unicode sind und jedes Skript einen eigenen Satz von Codepunkten hat.
Präsentationsattribute
ATR + Byte Gedächtnisstütze Formatierungsoption
0x30 BLD Fett gedruckt
0x31 ITA Kursivschrift
0x32 UL Unterstreichen
0x33 EXP Erweitert
0x34 HLT Markieren
0x35 OTL Gliederung
0x36 SHD Schatten
0x37 OBEN Obere Hälfte des Zeichens (wird mit LOW verwendet, um Zeichen mit doppelter Höhe zu erstellen)
0x38 NIEDRIG Untere Hälfte des Zeichens (wird mit TOP verwendet, um Zeichen mit doppelter Höhe zu erstellen)
0x39 DBL Ganze Reihe doppelt breit und doppelt hoch
Wechselt zu ISCII-Skripten
ATR + Byte Gedächtnisstütze ISCII-Skript
0x40 DEF Standardskript (dh das Skript, auf das nach einem Zeilenumbruch zurückgeschaltet wird)
0x41 RMN Romanisierte Transliteration
0x42 DEV Devanagari
0x43 BNG Bengalische Schrift
0x44 TML Tamilisches Skript
0x45 TLG Telugu-Skript
0x46 ASM Assamesisches Skript
0x47 ORI Odia-Skript
0x48 KND Kannada-Skript
0x49 MLM Malayalam-Skript
0x4A GJR Gujarati-Skript
0x4B PNJ Gurmukh
Wechsel zu PASCII
ATR + Byte Gedächtnisstütze PASCII-Gebietsschema
0x71 ARB Arabisches Alphabet
0x72 SPE Persisches Alphabet
0x73 URD Urdu-Alphabet
0x74 SND Sindhi Alphabet
0x75 KSM Kaschmir-Alphabet
0x76 PST Pashto-Alphabet
EXT-Zeichen – Codepunkt F0 (240)
Das Zeichen EXT (Erweiterungen für Vedic) gefolgt von einem Byte-Code weist auf einen vedischen Akzent hin. Dies hat kein direktes Unicode-Äquivalent, da vedische Akzente verschiedenen Codepunkten zugewiesen werden.
Halant-Zeichen ् – Codepunkt E8 (232)
Das Halant-Zeichen entfernt den impliziten Vokal aus einem Konsonanten und wird zwischen Konsonanten verwendet, um konjunkte Konsonanten darzustellen. Zum Beispiel क (ka) + ् (halant) + त (ta) = क्त (kta). Die Folge ् (halant) + ् (halant) zeigt eine Konjunktion mit einem expliziten halant, zum Beispiel क (ka) + ् (halant) + ् (halant) + त (ta) = क्‌त. Die Folge ् (halant) + ़ (nukta) zeigt eine Konjunktion mit Halbkonsonanten, falls vorhanden, zum Beispiel क (ka) + ् (halant) + ़ (nukta) + त (ta) = क्‍त.
Entsprechungen zwischen ISCII und Unicode Halent/Virama- Verhalten
ISCII Unicode
einzelne halant E8 halant 094D
halant + halant E8 E8 halant + ZWNJ 094D 200C
Halant + Nukta E8 E9 halant + ZWJ 094D 200D
Nukta-Zeichen ़ – Codepunkt E9 (233)
Das Nukta- Zeichen nach einem anderen ISCII-Zeichen wird für eine Reihe seltenerer Zeichen verwendet, die im Haupt-ISCII-Set nicht vorhanden sind. Zum Beispiel क (ka) + ़ (nukta) = क़ (qa). Diese Zeichen haben in Unicode vorgefertigte Formen, wie in der folgenden Tabelle gezeigt.
Einzelne Unicode-Zeichen, die ISCII-Nukta-Sequenzen entsprechen
ISCII-
Codepunkt
Ursprünglicher
Charakter
Charakter
mit Nukta
Unicode-
Codepunkt
A1 (161) 0950
A6 (166) 090C
A7 (167) 0961
AA (176) 0960
B3 (179) क़ 0958
B4 (180) ख़ 0959
B5 (181) ग़ 095A
BA (186) ज़ 095B
BF (191) ड़ 095C
C0 (192) ढ़ 095D
C9 (201) फ़ 095E
DB (219) ि 0962
Gleichstrom (220) 0963
DF (223) 0944
EA (234) . 093D

Codepages für die ISCII-Konvertierung

Um von Unicode (UTF-8) in eine ISCII / ANSI-Codierung zu konvertieren, können die folgenden Codepages verwendet werden:

  • 57002: Devanagari (Hindi, Marathi, Sanskrit, Konkani)
  • 57003: Bengalisch
  • 57004: Tamil
  • 57005: Telugu
  • 57006: Assamesisch
  • 57007: Odia
  • 57008: Kannada
  • 57009: Malayalam
  • 57010: Gujarati
  • 57011: Punjabi (Gurmukhi)

Codepunkte für alle Sprachen

Verweise

Externe Links