ISO/IEC 646 - ISO/IEC 646
Standard | ISO/IEC 646, ITU T.50 |
---|---|
Einstufung | 7-Bit- Basiscodierung für Latein |
Vorangestellt | US-ASCII |
gefolgt von | ISO 8859 , ISO 10646 |
Andere zugehörige Codierung(en) |
DEC NRCS , World System Teletext Anpassungen an andere Alphabete : ELOT 927 , Symbol , KOI-7 , SRPSCII und MAKSCII , ASMO 449 , SI 960 |
ISO/IEC 646 ist der Name einer Reihe von ISO- Standards, die als Informationstechnologie – ISO 7-Bit-codierter Zeichensatz für den Informationsaustausch beschrieben und spätestens seit 1964 in Zusammenarbeit mit ASCII entwickelt wurden 7- Bit- Zeichencode, aus dem mehrere nationale Standards abgeleitet werden.
ISO/IEC 646 wurde auch von der ECMA als ECMA-6 ratifiziert . Die erste Version von ECMA-6 war 1965 veröffentlicht worden, basierend auf Arbeiten, die das Technische Komitee TC1 der ECMA seit Dezember 1960 durchgeführt hatte.
Zeichen im ISO/IEC 646 Basic Character Set sind unveränderliche Zeichen . Da dieser Teil der ISO / IEC 646, dass das ist invariant Zeichensatz von allen Ländern geteilt, angegeben werden nur die Buchstaben in dem verwendeten ISO Grunde lateinischen Alphabet , Länder zusätzliche Buchstaben mit dem erforderlichen nationalen Varianten von ISO erstellen 646 in der Lage sein , ihre zu verwenden native Skripte. Da die Übertragung und Speicherung von 8-Bit-Codes zu dieser Zeit nicht Standard war, mussten die nationalen Zeichen an die Vorgaben von 7 Bit angepasst werden, was bedeutet, dass einige Zeichen, die in ASCII vorkommen , in anderen nationalen Varianten von ISO 646 nicht vorkommen .
Geschichte
ISO/IEC 646 und sein Vorgänger ASCII ( ASA X3.4 ) unterstützten weitgehend die bestehende Praxis der Zeichenkodierung in der Telekommunikationsindustrie .
Da ASCII eine Reihe von Zeichen, die für andere Sprachen als Englisch benötigt werden, nicht bereitstellte, wurden eine Reihe von nationalen Varianten erstellt, die einige weniger verwendete Zeichen durch die benötigten ersetzten. Aufgrund der Inkompatibilität der verschiedenen nationalen Varianten wurde eine International Reference Version (IRV) der ISO/IEC 646 eingeführt, um den ersetzten Satz in allen Varianten zumindest auf die gleichen Zeichen zu beschränken. Die Originalversion (ISO 646 IRV) unterschied sich von ASCII nur darin, dass der Codepunkt 0x24, ASCII's Dollarzeichen ($) durch das internationale Währungssymbol (¤) ersetzt wurde. Die endgültige Version des Codes ISO 646:1991 von 1991 ist auch als ITU T.50 , International Reference Alphabet oder IRA, früher International Alphabet No. 5 (IA5) bekannt. Dieser Standard ermöglicht es Benutzern, die 12 variablen Zeichen (dh zwei alternative grafische Zeichen und 10 national definierte Zeichen) zu verwenden. Unter diesen Übungen ist ISO 646:1991 IRV (International Reference Version) explizit definiert und identisch mit ASCII .
Die Normenreihe ISO 8859 , die 8-Bit-Zeichenkodierungen regelt, ersetzt die internationale Norm ISO 646 und ihre nationalen Varianten, indem sie 96 zusätzliche Zeichen mit dem zusätzlichen Bit bereitstellt und somit jegliche Ersetzung von ASCII-Codes vermeidet. Der ISO 10646- Standard, der sich direkt auf Unicode bezieht , ersetzt alle ISO 646- und ISO 8859-Sätze durch einen einheitlichen Satz von Zeichenkodierungen mit einem größeren 21-Bit-Wert.
Ein Vermächtnis von ISO/IEC 646 ist unter Windows sichtbar, wo in vielen ostasiatischen Gebietsschemas der in Dateinamen verwendete umgekehrte Schrägstrich als ¥ oder andere Zeichen wie ₩ gerendert wird . Trotz der Tatsache, dass ein anderer Code für ¥ sogar auf der Codepage 437 des ursprünglichen IBM-PCs verfügbar war und ein separater Doppelbyte-Code für ¥ in Shift JIS verfügbar ist (obwohl dies oft alternative Zuordnungen verwendet ), wurde so viel Text mit erstellt den Backslash-Code, der für ¥ verwendet wird (da Shift_JIS offiziell auf ISO 646:JP basiert, obwohl Microsoft ihn als ASCII abbildet), dass sogar moderne Windows-Schriften es für notwendig hielten, den Code auf diese Weise zu rendern. Eine ähnliche Situation besteht bei ₩ und EUC-KR . Ein weiteres Vermächtnis ist die Existenz von trigraphs in der C - Programmiersprache .
Veröffentlichte Normen
- ISO/R646-1967
- ISO 646: 1972
- ISO 646: 1983
- ISO/IEC 646: 1991
- ECMA-6 (1965-04-30), Erstausgabe
- ECMA-6 (1967-06), zweite Auflage
- ECMA-6 (1970-07), dritte Auflage
- ECMA-6 (1973-08), vierte Auflage
- ECMA-6 (1984-12, 1985-03), fünfte Auflage
- ECMA-6 (1991-12, 1997-08), sechste Ausgabe
Codepage-Layout
Die folgende Tabelle zeigt den ISO/IEC 646 Invarianten Zeichensatz. Jedes Zeichen wird mit dem Hex-Code seines Unicode- Äquivalents angezeigt . Nationale Codepunkte sind grau mit dem ersetzten ASCII-Zeichen. Ein dickes Kästchen zeigt ein Zeichen an, das in einigen Regionen mit einem vorherigen Zeichen als diakritisches Zeichen unter Verwendung des Rücktastezeichens kombiniert werden könnte , was die Glyphenauswahl beeinflussen kann .
Zusätzlich zu den invarianten Mengenbeschränkungen ist 0x23 auf entweder # oder £ und 0x24 auf entweder $ oder ¤ in ECMA-6:1991, äquivalent zu ISO 646:1991 beschränkt. Diese Einschränkungen werden jedoch nicht von allen nationalen Varianten befolgt.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _EIN | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 |
NUL 0000 |
SOH 0001 |
STX 0002 |
ETX 0003 |
EOT 0004 |
ENQ 0005 |
ACK 0006 |
BEL 0007 |
BS 0008 |
HT 0009 |
LF 000A |
VT 000B |
FF 000C |
CR 000D |
SO 000E |
SI 000F |
1_ 16 |
DLE 0010 |
DC1 0011 |
DC2 0012 |
DC3 0013 |
DC4 0014 |
NAK 0015 |
SYN 0016 |
ETB 0017 |
CAN 0018 |
EM 0019 |
SUB 001A |
ESC 001B |
FS 001C |
GS 001D |
RS 001E |
US 001F |
2_ 32 |
SP 0020 |
! 0021 |
" 0022 |
# |
$ |
% 0025 |
& 0026 |
' 0027 |
( 0028 |
) 0029 |
* 002A |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ 48 |
0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ 64 |
@ |
A 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
Ich 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ 80 |
P 0050 |
Q 0051 |
R 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
W 0057 |
X 0058 |
Y 0059 |
Z 005A |
[ |
\ |
] |
^ |
_ 005F |
6_ 96 |
` |
ein 0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
h 0068 |
ich 0069 |
j 006A |
k 006B |
l 006C |
m 006D |
n 006E |
o 006F |
7_ 112 |
p 0070 |
q 0071 |
r 0072 |
s 0073 |
t 0074 |
u 0075 |
v 0076 |
w 0077 |
x 0078 |
y 0079 |
z 007A |
{ |
| |
} |
~ |
DEL 007F |
Brief Nummer Interpunktion Symbol Sonstiges Nicht definiert
Verwandte Codierungsfamilien
Nationaler Ersatzzeichensatz
Der National Replacement Character Set ( NRCS ) ist eine Familie von 7-Bit-Kodierungen, die 1983 von DEC mit der VT200- Serie von Computerterminals eingeführt wurden. Es ist eng mit ISO 646 verwandt, da es auf einer ähnlichen invarianten Teilmenge von ASCII basiert, die sich darin unterscheidet, $
als invariant _
beizubehalten _
, aber nicht (obwohl die meisten NRCS-Varianten das beibehalten und daher dem ISO 646-Invariantenset entsprechen). Die meisten NRCS-Varianten sind mit Ausnahme der niederländischen Variante eng verwandt mit entsprechenden nationalen ISO 646-Varianten, sofern vorhanden .
Weltsystem-Teletext
Der europäische Telekommunikationsstandard ETS 300 706, "Enhanced Teletext Specification", definiert lateinische, griechische, kyrillische, arabische und hebräische Codesätze mit mehreren nationalen Varianten für Latein und Kyrillisch. Wie NRCS und ISO 646 basiert innerhalb der lateinischen Varianten die als G0-Satz bekannte Kodierungsfamilie auf einer ähnlichen invarianten Teilmenge von ASCII, bleibt jedoch weder $
noch _
invariant. Im Gegensatz zu NRCS unterscheiden sich Varianten oft erheblich von entsprechenden nationalen ISO 646-Varianten.
Variantencodes und Beschreibungen
ISO 646 nationale Varianten
Einige nationale Varianten der ISO 646 sind wie folgt:
Code | ISO-IR | ISO-ESC | Zugelassen | Nationale Norm | Beschreibung |
---|---|---|---|---|---|
CA | 121 | Regler 2/8 7/7 | ISO 646 | CSA Z243.4-1985-1 |
Kanada (Nr. 1 Alternative, mit "î") ( französisch , klassisch) ( Codeseite 1020 ) |
CA2 | 122 | Regler 2/8 7/8 | ISO 646 | CSA Z243.4-1985-2 |
Kanada (Nr. 2 Alternative, mit "É") ( Französisch , reformierte Rechtschreibung) |
CN | 57 | Regler 2/8 5/4 | ? | GB/T 1988-80 | Volksrepublik China (Grundkenntnisse in Latein) |
CU | 151 | Regler 2/8 2/1 4/1 | ISO 646 | NC 99-10:81 / NC NC00-10:81 | Kuba ( Spanisch ) |
DANO | 9-1 | Regler 2/8 4/5 | SIS ? | NATS-DANO |
Norwegen und Dänemark (journalistische Texte). Der invariante Codepunkt 0x22 wird als « , angezeigt (vergleiche " im IRV). Es wird jedoch immer noch als doppeltes Anführungszeichen betrachtet. Begleitet SEFI (NATS-SEFI).
|
DE | 21 | Regler 2/8 4/11 | ISO 646 | DIN 66003 | Deutschland ( Deutsch ) ( Codepage 1011 , 20106 ) |
DK | — | ? | DS 2089 | Dänemark ( Dänisch ) ( Codeseite 1017 ) | |
ES | 17 | Regler 2/8 5/10 | ECMA | Olivetti | Spanisch (international) ( Codeseite 1023 ) |
ES2 | 85 | Regler 2/8 6/8 | ECMA | IBM | Spanien ( Baskisch , Kastilisch , Katalanisch , Galizisch ) ( Codepage 1014 ) |
FI | 10 | ISO 646 | SFS 4017 | Finnland (Grundversion) ( Codepage 1018 ) | |
NS | 69 | Regler 2/8 6/6 | ISO 646 | AFNOR NF Z 62010-1982 | Frankreich ( Französisch ) ( Codeseite 1010 ) |
FR1 | 25 | Regler 2/8 5/2 | ISO 646 | AFNOR NF Z 62010-1973 | Frankreich (veraltet seit April 1985) ( Codepage 1104 ) |
GB | 4 | Regler 2/8 4/1 | ISO 646 | BS 4730 | Vereinigtes Königreich ( Englisch ) ( Codeseite 1013 ) |
HU | 86 | Regler 2/8 6/9 | ISO 646 | MSZ 7795/3 | Ungarn ( ungarisch ) |
IE | 207 | ? | NSAI 433: 1996 | Irland ( Irisch ) | |
INV | 170 | Regler 2/8 2/1 4/2 | ISO 646 | ISO 646: 1983 | Invariante Teilmenge |
(IRV) | 2 | Regler 2/8 4/0 | ISO 646 | ISO 646: 1973 | Internationale Referenzversion. 0x7E als Überstrich (ISO-IR-002). |
? | ? | ISO 646 | ISO 646: 1983 | Internationale Referenzversion. 0x7E als Tilde ( Codepage 1009 , 20105 ). | |
ISO 646:1991 International Reference Version entspricht der US-Variante (siehe unten). | |||||
IST | ? | ? | ? | Island ( Isländisch ) | |
ES | fünfzehn | Regler 2/8 5/9 | ECMA | UNI 0204-70 / Olivetti ? | Italienisch ( Codeseite 1012 ) |
JP | 14 | Regler 2/8 4/10 | ISO 646 | JIS C 6220:1969-ro | Japan ( Romaji ) ( Codeseite 895 ). Wird auch als 8-Bit-Code mit dem entsprechenden Katakana-Ergänzungssatz verwendet . |
JP-OCR-B | 92 | Regler 2/8 6/14 | ISO 646 | JIS C 6229-1984-b | Japan ( OCR- B) |
KR | — | ? | KS C 5636-1989 | Südkorea | |
MT | — | ? | ? | Malta ( Maltesisch , Englisch ) | |
NL | — | ECMA | IBM | Niederlande ( Niederländisch ) ( Codeseite 1019 ) | |
NEIN | 60 | Regler 2/8 6/0 | ISO 646 | NS 4551 Ausführung 1 | Norwegen ( Codeseite 1016 ) |
NO2 | 61 | Regler 2/8 6/1 | ISO 646 | NS 4551 Ausführung 2 | Norwegen (veraltet seit Juni 1987) ( Codepage 20108 ) |
bitte | — | BN-74/3101-01 | Polen (Polnisch hat 18 Buchstaben mit diakritischen Zeichen, aber aus Coderaumgründen werden nur 9 Kleinbuchstaben normalisiert. | ||
PT | 16 | Regler 2/8 4/12 | ECMA | Olivetti | Portugiesisch (international) |
PT2 | 84 | Regler 2/8 6/7 | ECMA | IBM | Portugal ( Portugiesisch , Spanisch ) ( Codeseite 1015 |
SE | 10 | Regler 2/8 4/7 | ISO 646 | SEN 850200 Anhang B, SIS 63 61 27 | Schweden (Grundkenntnisse Schwedisch ) ( Codeseite 1018 , D47) |
SE2 | 11 | Regler 2/8 4/8 | ISO 646 | SEN 850200 Anhang C, SIS 63 61 27 | Schweden (erweitertes Schwedisch für Namen) ( Codepage 20107 , E47) |
SEFI | 8-1 | Regler 2/8 4/3 | SIS | NATS-SEFI | Schweden und Finnland (journalistische Texte). Begleitet DANO (NATS-DANO). |
T.61-7bit | 102 | Regler 2/8 7/5 | ? | ITU / CCITT T.61 Empfehlung | International ( Teletex ). Wird auch mit dem entsprechenden Ergänzungssatz als 8-Bit-Code verwendet. |
TW | — | ? | CNS 5205-1996 | Republik China ( Taiwan ) | |
USA / (IRV) | 6 | Regler 2/8 4/2 | ISO 646 | ANSI X3.4-1968 und ISO 646:1983 (auch IRV in ISO/IEC 646:1991) | Vereinigte Staaten ( ASCII , Codepage 367 , 20127 ) |
YU | 141 | Regler 2/8 7/10 | ISO 646 | JUS I.B1.002 ( YUSCII ) | ehemaliges Jugoslawien ( Kroatisch , Slowenisch , Serbisch , Bosnisch ) |
INI | 49 | Regler 2/8 5/7 | IAEA | INI | ISO 646 IRV-Untergruppe |
Nationale Derivate
Es existieren auch einige nationale Zeichensätze, die auf ISO 646 basieren, aber nicht strikt deren invarianten Menge folgen (siehe auch § Ableitungen für andere Alphabete ):
Zeichensatz | ISO-IR | ISO-ESC | Zugelassen | Nationale Norm | Beschreibung |
---|---|---|---|---|---|
BS_viewdata | 47 | Regler 2/8 5/6 | Britisches Postamt | Ansichtsdaten und Videotext . Viewdata Square (⌗) ersetzt normalerweise unveränderlichen Unterstrich (_), der auf der Zielhardware nicht angezeigt werden kann. Dies ist eigentlich die Kodierung von Microsofts WST_Engl. | |
GR / griechisch7 | 88 | Regler 2/8 6/10 | ? | HOS ELOT 927 | Griechenland (zurückgezogen im November 1986). Verwendet griechische Buchstaben anstelle von römischen und ist daher streng genommen keine ISO 646-Variante. |
griechisch7-alt | 18 | Regler 2/8 5/11 | ECMA | ? | Griechischer Grafiksatz. Im Konzept ähnlich wie greek7 , verwendet jedoch eine andere Buchstabenzuordnung. Außerdem folgt die Großschreibung auf die Kleinschreibung. |
Latein-Griechisch | 19 | Regler 2/8 5/12 | ECMA | ? | Lateinisch-griechische kombinierte Grafiken (nur Großbuchstaben). Folgt greek7-old , enthält jedoch lateinische Großbuchstaben ohne Änderung und griechische Großbuchstaben über dem lateinischen Kleinbuchstaben. |
Latein-Griechisch-1 | 27 | Regler 2/8 5/5 | ECMA | Honeywell-Bulle | Lateinisch-griechische gemischte Grafiken (nur griechische Großbuchstaben). Vereinheitlicht, wo möglich, griechische Hauptstädte visuell mit lateinischen Hauptstädten und fügt die verbleibenden griechischen Hauptstädte hinzu. Im Gegensatz zu den anderen griechischen Versionen bleiben alle grundlegenden lateinischen Buchstaben intakt. Ersetzt jedoch invariante Satzzeichen sowie nationale Zeichen und ist somit streng genommen noch keine ISO 646-Variante. |
swi | — | ECMA | Olivetti |
Schweiz ( Französisch , Deutsch ) ( Codepage 1021 ) Invarianter Codepunkt 0x5F wird von _ auf geändert è . Ist eine DEC NRCS- Variante, die eng mit ISO 646 verwandt ist, aber kein vollständig ISO 646-konformes Äquivalent hat.
|
Steuerzeichen
Alle oben aufgeführten Varianten sind ausschließlich grafische Zeichensätze und sind mit einem C0-Steuerzeichensatz wie in der folgenden Tabelle aufgeführt zu verwenden:
ISO-IR | ISO-ESC | Zugelassen | Beschreibung |
---|---|---|---|
1 | ESC 2/1 4/0 | ISO 646 | ISO 646-Kontrollen ("ASCII-Kontrollen") |
7 | Regler 2/1 4/1 | ISO 646 | Kontrollen der skandinavischen Zeitung (NATS) |
26 | Regler 2/1 4/3 | ISO 646 | IPTC- Steuerungen |
Zugehörige Zusatzzeichensätze
Die folgende Tabelle listet ergänzende grafische Zeichensätze auf, die von derselben Norm wie bestimmte ISO 646-Varianten definiert sind. Diese würden durch Verwendung eines Mechanismus wie Shift Out oder NATS Super Shift (Single Shift) oder durch Setzen des achten Bits in Umgebungen ausgewählt, in denen eines verfügbar war:
ISO-IR | ISO-ESC | Nationale Norm | Beschreibung |
---|---|---|---|
8-2 | Regler 2/8 4/4 | NATS-SEFI-ADD | Zusätzlicher Code, der mit NATS-SEFI verwendet wird. |
9-2 | Regler 2/8 4/6 | NATS-DANO-ADD | Zusätzlicher Code, der mit NATS-DANO verwendet wird. |
13 | Regler 2/8 4/9 | JIS C 6220:1969-jp | Katakana , verwendet als ergänzender Code mit ISO-646-JP. |
103 | Regler 2/8 7/6 | ITU / CCITT T.61 Empfehlung, Ergänzungssatz | Bei T.61 verwendeter Zusatzcode. |
Variantenvergleichstabelle
Die Einzelheiten der Änderungen für einige dieser Varianten sind in der folgenden Tabelle aufgeführt. Über alle aufgeführten Varianten hinweg unveränderte Zeichenzuweisungen (dh die gleich bleiben wie ASCII) werden nicht angezeigt.
Um den Vergleich zu erleichtern, umfassen die detaillierten Varianten nationale Varianten von ISO 646, DECs eng verwandte National Replacement Character Set (NRCS)-Serie, die auf VT200- Terminals verwendet wird, die verwandte European World System Teletext- Codierungsserie, die in ETS 300 706 definiert ist, und einige andere eng verwandte Codierungen nach ISO 646. Einzelne Codetabellen sind ab der zweiten Spalte verlinkt. Die Zellen mit nicht-weißem Hintergrund betonen die Unterschiede zu US-ASCII (auch die Basic Latin- Untermenge von ISO/IEC 10646 und Unicode).
Mehrere Zeichen , wie verwendet werden könnten Kombinationszeichen , wenn vor oder mit einer gefolgt Backspace C0 Steuerung . Dies wird in den Codetabellen für IRV, GB, FR1, CA und CA2 bezeugt, die darauf hinweisen, dass "',^
sich Diaerese , akuter Akzent , Zedille und Zirkumflex (statt Anführungszeichen , Komma und Aufwärtspfeil ) verhalten würden , wenn sie vorangestellt oder gefolgt werden durch eine Rücktaste. Das Tildezeichen (~) wurde ebenfalls als diakritisches Zeichen (˜) eingeführt. Diese Codierungsmethode entstand in der Schreibmaschinen-/ Fernschreibe- Ära, als die Verwendung von Backspace eine Glyphe überschreiben würde, und kann als veraltet angesehen werden .
Später, als breitere Zeichensätze mehr Akzeptanz fanden, wurden ISO 8859 , herstellerspezifische Zeichensätze und schließlich Unicode die bevorzugten Methoden zur Codierung der meisten dieser Varianten.
Variantencode | Codetabelle | Zeichen für jeden ISO 646 / NRCS-kompatiblen oder abgeleiteten Zeichensatz | |||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
USA/IRV (1991) | ISO-IR-006 | ! | " | # | $ | & | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ~ |
Ältere internationale Referenzversionen | |||||||||||||||||||
IRV (1973) | ISO-IR-002 | ! | " | # | ¤ | & | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | Ich |
IRV (1983) | CP01009 | ! | " | # | ¤ | & | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ~ |
Invariante und andere IRV-Untergruppen | |||||||||||||||||||
INV | ISO-IR-170 | ! | " | & | : | ? | _ | ||||||||||||
INV ( NRCS ) | --- | ! | " | $ | & | : | ? | ||||||||||||
INV ( Teletext ) | ETS WST | ! | " | & | : | ? | |||||||||||||
INIS-Untergruppe | ISO-IR-049 | $ | : | [ | ] | | | |||||||||||||
T.61 | ISO-IR-102 | ! | " | # | ¤ | & | : | ? | @ | [ | ] | _ | | | ||||||
Ostasiate | |||||||||||||||||||
JP | ISO-IR-014 | ! | " | # | $ | & | : | ? | @ | [ | ¥ | ] | ^ | _ | ` | { | | | } | Ich |
JP-OCR-B | ISO-IR-092 | ! | " | # | $ | & | : | ? | @ | [ | ¥ | ] | ^ | _ | { | | | } | ||
KR | (KSX1003) | ! | " | # | $ | & | : | ? | @ | [ | ₩ | ] | ^ | _ | ` | { | | | } | Ich |
CN | ISO-IR-057 | ! | " | # | ¥ | & | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | Ich |
TW | (CNS 5205) | ! | " | # | $ | & | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | Ich |
Briten und Iren | |||||||||||||||||||
GB | ISO-IR-004 | ! | " | £ | $ | & | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | Ich |
GB ( NRCS ) | CP01101 | ! | " | £ | $ | & | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ~ |
Daten anzeigen | ISO-IR-047 | ! | " | £ | $ | & | : | ? | @ | ← | ½ | → | ↑ | ⌗ | Ich | ¼ | Ich | ¾ | ÷ |
IE | ISO-IR-207 | ! | " | £ | $ | & | : | ? | Ö | É | ICH | Ú | EIN | _ | Ö | é | ich | ú | ein |
Italophon oder Frankophon | |||||||||||||||||||
ES | ISO-IR-015 | ! | " | £ | $ | & | : | ? | § | ° | C | é | ^ | _ | ù | ein | Ö | è | ich |
IT ( Teletext ) | ETS WST | ! | " | £ | $ | & | : | ? | é | ° | C | → | ↑ | ⌗ | ù | ein | Ö | è | ich |
FR (1983) | ISO-IR-069 | ! | " | £ | $ | & | : | ? | ein | ° | C | § | ^ | _ | µ | é | ù | è | ¨ |
FR (1973) | ISO-IR-025 | ! | " | £ | $ | & | : | ? | ein | ° | C | § | ^ | _ | ` | é | ù | è | ¨ |
FR- Videotext | ETS WST | ! | " | é | ich | & | : | ? | ein | ë | ê | ù | ich | ⌗ | è | ein | Ö | û | C |
CA | ISO-IR-121 | ! | " | # | $ | & | : | ? | ein | ein | C | ê | ich | _ | Ö | é | ù | è | û |
CA2 | ISO-IR-122 | ! | " | # | $ | & | : | ? | ein | ein | C | ê | É | _ | Ö | é | ù | è | û |
französisch-deutschsprachig | |||||||||||||||||||
swi ( NRCS ) | CP01021 | ! | " | ù | $ | & | : | ? | ein | é | C | ê | ich | è | Ö | ein | Ö | ü | û |
Deutschsprachig | |||||||||||||||||||
DE | ISO-IR-021 | ! | " | # | $ | & | : | ? | § | EIN | Ö | Ü | ^ | _ | ` | ein | Ö | ü | ß |
Nordisch (Ost) und Baltikum | |||||||||||||||||||
FI / SE | ISO-IR-010 | ! | " | # | ¤ | & | : | ? | @ | EIN | Ö | EIN | ^ | _ | ` | ein | Ö | ein | Ich |
SE2 | ISO-IR-011 | ! | " | # | ¤ | & | : | ? | É | EIN | Ö | EIN | Ü | _ | é | ein | Ö | ein | ü |
SE ( NRCS ) | CP01106 | ! | " | # | $ | & | : | ? | É | EIN | Ö | EIN | Ü | _ | é | ein | Ö | ein | ü |
FI ( NRCS ) | CP01103 | ! | " | # | $ | & | : | ? | @ | EIN | Ö | EIN | Ü | _ | é | ein | Ö | ein | ü |
SEFI (NATS) | ISO-IR-008-1 | ! | " | # | $ | & | : | ? |
|
EIN | Ö | EIN | ■ | _ |
|
ein | Ö | ein | – |
EE ( Teletext ) | ETS WST | ! | " | # | Ö | & | : | ? | S | EIN | Ö | Ž | Ü | Ö | S | ein | Ö | ž | ü |
LV / LT ( Teletext ) | ETS WST | ! | " | # | $ | & | : | ? | S | ë | ê | Ž | C | û | S | ein | ù | ž | ich |
Nordisch (West) | |||||||||||||||||||
DK | CP01017 | ! | " | # | ¤ | & | : | ? | @ | Æ | Ö | EIN | Ü | _ | ` | æ | Ö | ein | ü |
Weiß / Nein ( NRCS ) | CP01105 | ! | " | # | $ | & | : | ? | EIN | Æ | Ö | EIN | Ü | _ | ein | æ | Ö | ein | ü |
DK/NO-alt ( NRCS ) | CP01107 | ! | " | # | $ | & | : | ? | @ | Æ | Ö | EIN | ^ | _ | ` | æ | Ö | ein | ~ |
NEIN | ISO-IR-060 | ! | " | # | $ | & | : | ? | @ | Æ | Ö | EIN | ^ | _ | ` | æ | Ö | ein | Ich |
NO2 | ISO-IR-061 | ! | " | § | $ | & | : | ? | @ | Æ | Ö | EIN | ^ | _ | ` | æ | Ö | ein | | |
DANO (NATS) | ISO-IR-009-1 | ! | « | » | $ | & | : | ? |
|
Æ | Ö | EIN | ■ | _ |
|
æ | Ö | ein | – |
IST | ! | " | # | ¤ | & | : | ? | D | NS | \ | Æ | Ö | _ | D | NS | | | æ | Ö | |
Hispanophon | |||||||||||||||||||
ES | ISO-IR-017 | ! | " | £ | $ | & | : | ? | § | Ich | N | Ich | ^ | _ | ` | ° | n | C | ~ |
ES2 | ISO-IR-085 | ! | " | # | $ | & | : | ? | · | Ich | N | C | Ich | _ | ` | ´ | n | C | ¨ |
CU | ISO-IR-151 | ! | " | # | ¤ | & | : | ? | @ | Ich | N | ] | Ich | _ | ` | ´ | n | [ | ¨ |
Hispanophon-Lusophon | |||||||||||||||||||
ES/PT- Teletext | ETS WST | ! | " | C | $ | & | : | ? | Ich | ein | é | ich | Ö | ú | Ich | ü | n | è | ein |
Lusophon | |||||||||||||||||||
PT | ISO-IR-016 | ! | " | # | $ | & | : | ? | § | EIN | C | Ö | ^ | _ | ` | ein | C | Ö | ° |
PT2 | ISO-IR-084 | ! | " | # | $ | & | : | ? | ´ | EIN | C | Ö | ^ | _ | ` | ein | C | Ö | ~ |
PT ( NRCS ) | --- | ! | " | # | $ | & | : | ? | @ | EIN | C | Ö | ^ | _ | ` | ein | C | Ö | ~ |
griechisch | |||||||||||||||||||
Latein-GR gemischt | ISO-IR-027 | Ξ | " | Γ | ¤ | & | Ψ | Π | Δ | Ω | Θ | Φ | Λ | Σ | ` | { | | | } | Ich |
ISO-IR-088 (GR / ELOT 927), ISO-IR-018 und ISO-IR-019 ersetzen römische Buchstaben durch griechische Buchstaben und sind in einer separaten Tabelle aufgeführt . | |||||||||||||||||||
Slawisch (lateinische Schrift) | |||||||||||||||||||
YU | ISO-IR-141 | ! | " | # | $ | & | : | ? | Ž | S | Đ | C | C | _ | ž | S | đ | C | C |
YU- Teletext | ETS WST | ! | " | # | Ë | & | : | ? | C | C | Ž | Đ | S | ë | C | C | ž | đ | S |
YU-alt Teletext | ETS WST | ! | " | # | $ | & | : | ? | C | C | Ž | Đ | S | ë | C | C | ž | đ | S |
CS/CZ/SK ( Teletext ) | ETS WST | ! | " | # | ù | & | : | ? | C | T | ž | ý | ich | R | é | ein | ě | ú | S |
PL | BN-74/3101-01 | ! | " | # | zł | & | : | ? | ê | Ÿ | \ | n | S | _ | ein | Ö | ł | ż | C |
PL- Teletext | ETS WST | ! | " | # | n | & | : | ? | ein | Ž | S | Ł | C | Ö | ê | ż | S | ł | Ÿ |
Anpassungen für die kyrillische Schrift ersetzen römische Buchstaben und sind in einer separaten Tabelle aufgeführt | |||||||||||||||||||
Sonstiges | |||||||||||||||||||
NL | CP01019 | ! | " | # | $ | & | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | Ich |
NL NRCS | CP01102 | ! | " | £ | $ | & | : | ? | ¾ | ij | ½ | | | ^ | _ | ` | ¨ | ƒ | ¼ | ´ |
HU | ISO-IR-086 | ! | " | # | ¤ | & | : | ? | EIN | É | Ö | Ü | ^ | _ | ein | é | Ö | ü | ˝ |
MT | ! | " | # | $ | & | : | ? | @ | g | ż | h | ^ | _ | C | G | Ż | H | C | |
RO ( Teletext ) | ETS WST | ! | " | # | ¤ | & | : | ? | T | EIN | S | EIN | ICH | ich | T | ein | S | ein | ich |
TR ( Videotext ) | ETS WST | ! | " | TL | g | & | : | ? | ICH | S | Ö | C | Ü | G | ich | S | Ö | C | ü |
Ableitungen für andere Alphabete
Einige 7-Bit-Zeichensätze für nicht-lateinische Alphabete werden vom ISO 646-Standard abgeleitet: Diese stellen selbst nicht ISO 646 dar, da sie nicht den invarianten Codepunkten folgen (die oft die Buchstaben von mindestens einem Fall ersetzen), weil sie unterschiedliche Alphabete, für die der Satz nationaler Codepunkte keinen ausreichenden Codierungsraum bietet. Beispiele beinhalten:
- 7-Bit-Turkmenen (ISO-IR-230).
- 7-Bit-Griechisch.
- In ELOT 927 (ISO-IR-088) wird das griechische Alphabet in alphabetischer Reihenfolge (außer dem Schluss-Sigma) auf die Positionen 0x61–0x71 und 0x73–0x79 über den lateinischen Kleinbuchstaben abgebildet.
- ISO-IR-018 bildet das griechische Alphabet über beide Großbuchstaben nach einem anderen Schema ab (nicht in alphabetischer Reihenfolge, sondern versucht, wenn möglich, griechische Buchstaben über römische Buchstaben abzugleichen, die in gewisser Weise übereinstimmen), und ISO-IR-019 bildet das griechische . ab Großbuchstaben über den lateinischen Kleinbuchstaben nach dem gleichen Schema wie ISO-IR-018.
- Die untere Hälfte des Symbolschriftzeichenkodierung verwendet ein eigenes Schema zur Abbildung griechische Buchstaben der beiden Fälle in den ASCII - lateinischen Buchstaben, auch griechische Buchstaben über römische Buchstaben , die entsprechen in gewisser Weise abzubilden versucht, aber machte unterschiedliche Entscheidungen in dieser Hinsicht (siehe Diagramm unten). Es ersetzt auch invariante Codepunkte 0x22 und 0x27 und fünf nationale Codepunkte durch mathematische Symbole. Obwohl es nicht für den Satz griechischer Prosa gedacht ist, wird es manchmal zu diesem Zweck verwendet.
- ISO-IR-027 (detailliert in der Tabelle oben und nicht unten beschrieben) enthält das lateinische Alphabet unverändert, fügt jedoch einige griechische Großbuchstaben hinzu, die nicht mit lateinischen Homoglyphen dargestellt werden können ; obwohl es explizit auf ISO 646 basiert, werden einige davon auf Codepunkte abgebildet, die in ISO 646 invariant sind (0x21, 0x3A und 0x3F), und es ist daher keine echte ISO 646-Variante.
- Die Teletext- Codierung des Weltsystems für Griechisch verwendet noch ein weiteres Schema zum Abbilden griechischer Buchstaben in alphabetischer Reihenfolge über die ASCII-Buchstaben beider Fälle, insbesondere einschließlich mehrerer Buchstaben mit diakritischen Zeichen.
- 7-Bit-Kyrillisch
- KOI-7 oder Short KOI, wird für Russisch verwendet . Die kyrillischen Zeichen werden auf die Positionen 0x60–0x7E über den lateinischen Kleinbuchstaben abgebildet, wobei sie nach Möglichkeit mit homologen Buchstaben übereinstimmen (wobei в auf w, nicht auf v abgebildet wird). Abgelöst durch die KOI-8 Varianten.
- SRPSCII und MAKSCII , kyrillische Varianten von YUSCII (die lateinische Variante ist YU/ISO-IR-141 in der obigen Tabelle), die für Serbisch bzw. Mazedonisch verwendet werden. Weitgehend homolog zur lateinischen Variante von YUSCII (nach serbischen Digraphia- Regeln ), mit Ausnahme von Љ (lj), Њ (nj), Џ (dž) und ѕ (dz), die Digraphen in lateinischer Rechtschreibung entsprechen und abgebildet sind über Buchstaben, die nicht in Serbisch oder Mazedonisch verwendet werden (q, w, x, y).
- Die G0-Sets für die World System Teletext- Codierungen für Russisch/Bulgarisch und Ukrainisch verwenden G0-Sets ähnlich KOI-7 mit einigen Modifikationen. Das entsprechende G0-Set für Serbisch-Kyrillisch verwendet ein Schema, das auf der Teletext-Codierung für Serbokroatisch und Slowenisch in lateinischer Schrift basiert , im Gegensatz zu dem deutlich unterschiedlichen YUSCII.
- 7-Bit-Hebräisch, SI 960 . Das hebräische Alphabet wird den Positionen 0x60–0x7A über den lateinischen Kleinbuchstaben (und dem ernsten Akzent für Aleph) zugeordnet. 7-Bit-Hebräisch wurde immer in visueller Reihenfolge gespeichert. Diese Abbildung mit dem High-Bit-Set, dh mit den hebräischen Buchstaben in 0xE0–0xFA, ist ISO 8859-8 . Die World System Teletext-Codierung für Hebräisch verwendet die gleichen Buchstabenzuordnungen, verwendet jedoch BS_Viewdata als Basiscodierung (während SI 960 US-ASCII verwendet) und enthält ein Schekel-Zeichen bei 0x7B.
- 7-Bit-Arabisch, ASMO 449 (ISO-IR-089). Das arabische Alphabet wird den Positionen 0x41–0x5A und 0x60–0x6A über den lateinischen Groß- und Kleinbuchstaben zugeordnet.
Ein Vergleich einiger dieser Kodierungen ist unten. Es wird nur ein Fall angezeigt, außer in Fällen, in denen die Fälle verschiedenen Buchstaben zugeordnet sind. In solchen Fällen wird das Mapping mit dem kleinsten Code zuerst angezeigt. Für einige Buchstaben sind mögliche Transkriptionen angegeben; wird dies weggelassen, so kann davon ausgegangen werden, dass der Buchstabe dem römischen entspricht, über den er abgebildet wird.
Englisch ( ASCII ) |
Kyrillische Alphabete | griechisches Alphabet | hebräisch | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Semitransliterativ | Natürlich bestellt | ||||||||||
Russisch ( KOI-7 ) |
Russisch, Bulgarisch ( WST RU/BG ) |
Ukrainisch ( WST UKR ) |
Serbisch ( SRPSCII ) |
Mazedonisch ( MAKSCII ) |
Serbisch, Mazedonisch ( WST SRP ) |
Griechisch ( Symbol ) |
Griechisch (IR-18) |
Griechisch ( ELOT 927 ) |
Griechisch ( WST EL ) |
Hebräisch ( SI 960 ) |
|
@ ` |
Ю (ju/yu) | Ю (ju/yu) | Ю (ju/yu) | Ж (ž) | Ж (ž) | Ч (č) | ≅ ‾ |
´ ` |
@ ` |
ΐ ΰ |
(ʾ/ʔ) |
EIN | А | А (a/á) | А | А | А | А | Α | Α | Α | Α | (b) |
B | Б | Б | Б | Б | Б | Б | Β | Β | Β | Β | (g) |
C | Ц (c/ts) | Ц (c/ts) | Ц (c/ts) | Ц (c/ts) | Ц (c/ts) | Ц (c/ts) | Χ (ch/kh) | Ψ (ps) | (g) | (g) | ד (d) |
D | Д | Д | Д | Д | Д | Д | Δ | Δ | Δ | Δ | ה (h) |
E | Е (je/ye) | Е (je/ye) | Е (e) | Е (e) | Е (e) | Е (e) | Ε | Ε | Ε | Ε | (w) |
F | Ф | Ф | Ф | Ф | Ф | Ф | (ph/w) | (ph/w) | Ζ (z) | Ζ (z) | ז (z) |
g | Г | Г | Г | Г | Г | Γ | Γ | Γ | (ē) | (ē) | ח (ch/kh) |
h | Х (Std./Std./Std.) | Х (Std./Std./Std.) | Х (Std./Std./Std.) | Х (Std./Std./Std.) | Х (Std./Std./Std.) | Х (Std./Std./Std.) | (ē) | (ē) | Θ (d) | Θ (d) | ט (tt) |
ich | И | И | И (j) | И | И | И | Ι | Ι | Ι | Ι | י (j/j) |
J | Й (j/j) | Й (j/j) | Й (j/j) | Ј (j/j) | Ј (j/j) | Ј (j/j) | ϑ (th) ϕ (ph/w) |
Ξ (x/k) | (k) | ך (k endgültig) | |
K | К | К | К | К | К | К | Κ | Κ | Κ | (l) | כ |
L | Л | Л | Л | Л | Л | Л | Λ | Λ | Λ | (m) | ל |
m | М | М | М | М | М | М | Μ | Μ | Μ | (n) | ם (m Finale) |
n | Н | Н | Н | Н | Н | Н | Ν | Ν | Ν | Ξ (x/k) | (m) |
Ö | О | О | О | О | О | О | Ο | Ο | Ξ (x/k) | Ο | ן (n endgültig) |
P | П | П | П | П | П | П | Π | Π | Ο (o) | Π | (n) |
Q | Я (ja/ja) | Я (ja/ja) | Я (ja/ja) | Љ (lj/ly) | Љ (lj/ly) | Ќ (Ḱ/kj) | Θ (d) | ͺ ( |
Π (p) | (r) | ס (s) |
R | Р | Р | Р | Р | Р | Р | Ρ | Ρ | Ρ | ʹ ς (s Finale) |
(ʽ/ŋ) |
S | С | С | С | С | С | С | Σ | Σ | Σ | Σ | ף (p endgültig) |
T | Т | Т | Т | Т | Т | Т | Τ | Τ | Τ | Τ | פ (p) |
U | У | У | У | У | У | У | Υ | Θ (d) | Υ | Υ | ץ (ṣ/ts Finale) |
V | Ж (ž) | Ж (ž) | Ж (ž) | В | В | В | ς (s Finale) ϖ (p) |
(ō) | Φ (w/ph) | Φ (w/ph) | (ṣ/ts) |
W | В (v) | В (v) | В (v) | Њ (nj/ny/ñ) | Њ (nj/ny/ñ) | Ѓ (ǵ/gj) | (ō) | ς (s Finale) | ς (s Finale) | Χ (ch/kh) | (q) |
x | Ь (') | Ь (') | Ь (') | Џ (dž) | Џ (dž) | Љ (lj/ly) | Ξ | Χ (ch/kh) | Χ (ch/kh) | Ψ (ps) | (r) |
Ja | (j/ı) | (″/ǎ/ŭ) | І (i) | Ѕ (dz) | Ѕ (dz) | Њ (nj/ny/ñ) | Ψ (ps) | Υ (u) | Ψ (ps) | (ō) | ש (š/sch) |
Z | З | З | З | З | З | З | Ζ | Ζ | (ō) | Ϊ | (t) |
[ { |
Ш (š/sch) | Ш (š/sch) | Ш (š/sch) | Ш (š/sch) | Ш (š/sch) | (ć) | [ { |
᾿̃ ῾̃ |
[ { |
Ϋ | [ { |
\ | |
Э (e) | Э (e) | Є (je/ye) | (đ/dj) | Ѓ (ǵ/gj) | Ж (ž) | ∴ | |
(H) |
\ | |
ά ό |
\ | |
] } |
Щ (šč) | Щ (šč) | Щ (šč) | (ć) | Ќ (Ḱ/kj) | (đ/dj) | ] } |
᾿' ῾' |
] } |
& egr; & ugr; |
] } |
^ ~ |
Ч (č) | Ч (č) | Ч (č) | Ч (č) | Ч (č) | Ш (š/sch) | ⊥ ~ |
˜ ¨ |
^ ‾ |
ή ώ |
^ ‾ |
_ | (″) | (j/ı) | Ї (ji/yi) | _ | _ | Џ (dž) | _ | _ | _ | ί | _ |
Siehe auch
- ISO/IEC 2022 Informationstechnologie: Zeichencodestruktur und Erweiterungstechniken
- ISO/IEC 6937 (ANSI)
- ISO/IEC JTC 1/SC 2
Fußnoten
Verweise
Weiterlesen
- Fischer, Eric, Hrsg. (1975) [1972]. Quellendokumente zur Geschichte der Zeichencodes, 1972–1975 (Zusammenstellung) . Abgerufen 2020-06-07 Quellendokumente zur Geschichte der Zeichencodes, 1972-1975: Zusammengestellt von Eric Fischer: Free Download, Borrow, and Streaming: Internet Archive (79 Seiten), darunter: Bemer, Robert William (1972). "ein Blick auf die Geschichte des ISO-Zeichensatzes". Honeywell Computer-Journal . Phoenix, Arizona, USA: Honeywell Informationssysteme. 6 (4): 274–286, 287–291. (13+5 Seiten) und viele weitere Dokumente und Korrespondenzen.
Externe Links
- Zeichensatz nach ISO 646 (ASCII )
- Geschichte auf der GNU Aspell- Website
- ISO646-Zeichentabellen Zeichentabellen von Koichi Yasuoka (安岡孝) (siehe Inländische ISO646-Zeichentabellen und Quasi-ISO646-Zeichentabellen )
- Turkish Text Deasciifier ist ein Werkzeug (basierend auf statistischer Pentagrammanalyse der türkischen Sprache), das einen ASCII-aktivierten türkischen Text umkehrt, indem die entsprechenden (aber mehrdeutigen) diakritischen Zeichen bestimmt werden, die normalerweise im Türkischen benötigt werden, aber im US-ASCII-Set fehlen.