Westlateinische Zeichensätze (Computer) - Western Latin character sets (computing)
In diesem Artikel werden mehrere binäre Darstellungen von 8-Bit- Zeichensätzen für gängige westeuropäische Sprachen verglichen. Diese Kodierungen wurden für die Darstellung von Italienisch , Spanisch , Portugiesisch , Französisch , Deutsch , Niederländisch , Englisch , Dänisch , Schwedisch , Norwegisch und Isländisch entwickelt , die das lateinische Alphabet verwenden , einige zusätzliche Buchstaben und solche mit vorkomponierten diakritischen Zeichen , einigen Satzzeichen und verschiedene Symbole(einschließlich einiger griechischer Buchstaben). Obwohl sie "westeuropäisch" genannt werden, werden viele dieser Sprachen auf der ganzen Welt gesprochen. Außerdem unterstützen diese Zeichensätze viele andere Sprachen wie Malaiisch , Swahili und klassisches Latein .
Dieses Material ist technisch veraltet und wurde funktional durch Unicode ersetzt . Es hat jedoch weiterhin historisches Interesse.
Zusammenfassung
Die ISO-8859- Serie von 8-Bit- Zeichensätzen codiert alle in Europa verwendeten lateinischen Zeichensätze , obwohl die gleichen Codepunkte mehrfach verwendet werden, was zu einigen Schwierigkeiten führte (einschließlich Mojibake oder verstümmelten Zeichen und Kommunikationsproblemen). Die Einführung von Unicode mit einem eindeutigen Codepunkt für jede Glyphe hat diese Probleme behoben.
- ISO/IEC 8859-1 oder Latin-1 wird am häufigsten verwendet und definiert auch die ersten 256 Codes in Unicode .
- ISO/IEC 8859-15 modifiziert ISO-8859-1 , um Estnisch , Finnisch und Französisch vollständig zu unterstützen und das Eurozeichen hinzuzufügen .
- Windows-1252 ist eine Obermenge von ISO-8859-1 , die die druckbaren Zeichen von ISO/IEC 8859-15 und gängige Satzzeichen wie gebogene Anführungszeichen (auch als intelligente Anführungszeichen bekannt , wie in Microsoft Word- Einstellungen und ähnlichen Programmen) enthält. Es ist üblich, dass Webseitentools für Windows Windows-1252 verwenden, die Webseite jedoch als ISO-8859-1 kennzeichnen. Dies wurde in HTML5 behoben, das vorschreibt, dass Seiten mit der Bezeichnung ISO-8859-1 als Windows interpretiert werden müssen. 1252.
- IBM CP437 , das nur für Englisch gedacht ist , hat sehr wenig Akzentbuchstaben (insbesondere Großbuchstaben ), aber viel mehr Grafikzeichen als die anderen hier aufgeführten IBM- Codepages und auch einige mathematische und griechische Zeichen , die als technische Symbole nützlich sind .
- IBM CP850 hat alle druckbaren Zeichen , die ISO-8859-1 hat (wenn auch anders angeordnet) und schafft es dennoch, genügend Grafikzeichen zu haben , um eine verwendbare Benutzeroberfläche im Textmodus zu erstellen .
- IBM CP858 unterscheidet sich von CP850 nur durch ein Zeichen – ein punktloses i ( ı ), das außerhalb der Türkei selten verwendet wird und keine Entsprechung in Großbuchstaben enthält , wurde durch das Euro-Währungszeichen ( € ) ersetzt.
- IBM CP859 enthält alle druckbaren Zeichen , die ISO/IEC 8859-15 hat, daher unterstützt es im Gegensatz zu CP850 das Eurozeichen , Estnisch , Finnisch und Französisch .
- Die IBM Codepages 037, 500 und 1047 sind EBCDIC- Codierungen, die alle ISO-8859-1- Zeichen enthalten.
- Der Mac OS Roman- Zeichensatz (oft als MacRoman bezeichnet und von der IANA einfach als MACINTOSH bekannt) enthält die meisten, aber nicht alle, dieselben Zeichen wie ISO/IEC 8859-1, jedoch in einer ganz anderen Anordnung; und es fügt auch viele technische und mathematische Zeichen hinzu (obwohl es das wichtige x fehlt ) und mehr diakritische Zeichen . Ältere Macintosh -Webbrowser waren dafür bekannt, die wenigen Zeichen, die in ISO/IEC 8859-1 enthalten waren, zu mungen, aber nicht ihren nativen Macintosh- Zeichensatz, wenn sie Text von Websites bearbeiten . Umgekehrt wurden in Webmaterial, das auf einem älteren Macintosh erstellt wurde, viele Zeichen falsch angezeigt, wenn sie von anderen Betriebssystemen gelesen wurden . Die Macintosh Latin-Codierung , eine Modifikation von Mac OS Roman zur Unterstützung von ISO/IEC 8859-1, wurde von den Machern von Kermit (Protokoll) entwickelt , um dieses Problem zu lösen.
Geschichte
Der frühere 7- Bit US- amerikanische Standard Code for Information Interchange ('ASCII') hat Zeichen, die ausreichen, um nur wenige Sprachen wie Englisch, Latein, Malaiisch und Swahili richtig darzustellen. Es fehlen einige Buchstaben und Buchstaben-Diagnose-Kombinationen, die in anderen Sprachen mit lateinischem Alphabet verwendet werden. Da es jedoch auf den meisten von den USA gelieferten Computerplattformen keine andere Wahl gab, war die Verwendung von ASCII unvermeidlich, es sei denn, es gab eine starke nationale Computerindustrie. Es gab die ISO 646- Gruppe von Codierungen, die einige der Symbole in ASCII durch lokale Zeichen ersetzten, aber der Platz war sehr begrenzt, und einige der ersetzten Symbole waren in Programmiersprachen recht häufig.
Die meisten Computer verwendeten intern 8-Bit-Bytes, aber die Kommunikation (die als von Natur aus unzuverlässig angesehen wurde) verwendete sieben Datenbits plus ein Paritätsbit . Mit der Zeit wurde es üblich, alle acht Bits für Daten zu verwenden, wodurch Platz für weitere 128 Zeichen geschaffen wurde. In den frühen Tagen waren die meisten davon systemspezifisch, aber nach und nach entstanden die ISO/IEC 8859- Standards, um eine gewisse plattformübergreifende Ähnlichkeit zu bieten, um den Informationsaustausch zu ermöglichen.
Gegen Ende des 20. Jahrhunderts, als die Speicher- und Speicherkosten sanken, sind die Probleme im Zusammenhang mit der Mehrfachbedeutung eines bestimmten 8-Bit-Codes (es gibt allein sieben ISO-Latein-Codesätze) nicht mehr gerechtfertigt. Alle wichtigen Betriebssysteme sind auf Unicode als ihre wichtigste interne Repräsentation umgestiegen. Da Windows jedoch die UTF-8- Methode zur Codierung von Unicode nicht unterstützte (bevorzugte UTF-16 ), waren viele Anwendungen weiterhin auf diese alten Zeichensätze beschränkt.
Das Eurozeichen
Der Euro und sein Eurozeichen führten zu einem erheblichen Druck, das Eurozeichen (€) zu unterstützen, und die meisten 8-Bit-Zeichensätze mussten in irgendeiner Weise angepasst werden.
- Apple mit MacRoman und Sun Microsystems mit Solaris OS ersetzten einfach das generische Währungszeichen ( ¤ ). Dies verursachte erhebliche Schwierigkeiten, da Organisationen andere Verwendungszwecke dafür gefunden hatten, wie zum Beispiel das Firmenlogo.
- ISO führte eine weitere Variante von ISO 8859 ein, ISO 8859-15 , die das generische Währungszeichen durch das Eurozeichen ersetzte sowie einige andere Ersetzungen von Symbolen durch Buchstaben mit diakritischen Zeichen vornahm. ISO 8859-15 wurde nie weit verbreitet.
- Bei Windows-1252 hat Microsoft das Eurozeichen in eine Lücke (Position 80 hex ) in den bestehenden C1-Steuercodes eingefügt .
Alle diese Probleme wurden behoben, da die Betriebssysteme aktualisiert wurden, um standardmäßig Unicode zu unterstützen , das das Eurozeichen bei U+20AC (dezimal 8364) codiert.
Vergleichstabelle
Die Codepunkte U+ 0000 bis U+007F werden in dieser Tabelle derzeit nicht angezeigt, da sie in allen hier aufgeführten Zeichensätzen direkt abgebildet werden. Der ASCII- Codierungsstandard definiert die ursprüngliche Spezifikation für die Abbildung der ersten 0-127 Zeichen.
Die Tabelle ist nach Unicode- Codepunkten geordnet . Zeichensätze werden hier mit ihren IANA- Namen in Großbuchstaben bezeichnet .
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
---|---|---|---|---|---|---|---|
NBSP | U+00A0 | A0 | A0 | A0 | FF | FF | CA |
Ich | U+00A1 | A1 | A1 | A1 | ANZEIGE | ANZEIGE | C1 |
¢ | U+00A2 | A2 | A2 | A2 | 9B | BD | A2 |
£ | U+00A3 | A3 | A3 | A3 | 9C | 9C | A3 |
¤ | U+00A4 | A4 | A4 | CF | |||
¥ | U+00A5 | A5 | A5 | A5 | 9D | SEIN | B4 |
| | U+00A6 | A6 | A6 | DD | |||
§ | U+00A7 | A7 | A7 | A7 | F5 | A4 | |
¨ | U+00A8 | A8 | A8 | F9 | AC | ||
© | U+00A9 | A9 | A9 | A9 | B8 | A9 | |
ª | U+00AA | AA | AA | AA | A6 | A6 | BB |
« | U+00AB | AB | AB | AB | AE | AE | C7 |
¬ | U+00AC | AC | AC | AC | AA | AA | C2 |
SCHÜCHTERN | U+00AD | ANZEIGE | ANZEIGE | ANZEIGE | F0 | ||
® | U+00AE | AE | AE | AE | A9 | A8 | |
¯ | U+00AF | AF | AF | AF | EE | F8 | |
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
° | U+00B0 | B0 | B0 | B0 | F8 | F8 | A1 |
± | U+00B1 | B1 | B1 | B1 | F1 | F1 | B1 |
² | U+00B2 | B2 | B2 | B2 | FD | FD | |
³ | U+00B3 | B3 | B3 | B3 | FC | ||
´ | U+00B4 | B4 | B4 | EF | AB | ||
µ | U+00B5 | B5 | B5 | B5 | E6 | E6 | B5 |
¶ | U+00B6 | B6 | B6 | B6 | F4 | A6 | |
· | U+00B7 | B7 | B7 | B7 | FA | FA | E1 |
¸ | U+00B8 | B8 | B8 | F7 | FC | ||
¹ | U+00B9 | B9 | B9 | B9 | FB | ||
º | U+00BA | BA | BA | BA | A7 | A7 | BC |
» | U+00BB | BB | BB | BB | AF | AF | C8 |
¼ | U+00BC | BC | BC | AC | AC | ||
½ | U+00BD | BD | BD | AB | AB | ||
¾ | U+00BE | SEIN | SEIN | F3 | |||
Ich | U+00BF | BF | BF | BF | A8 | A8 | C0 |
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
EIN | U+00C0 | C0 | C0 | C0 | B7 | CB | |
EIN | U+00C1 | C1 | C1 | C1 | B5 | E7 | |
EIN | U+00C2 | C2 | C2 | C2 | B6 | E5 | |
EIN | U+00C3 | C3 | C3 | C3 | C7 | CC | |
EIN | U+00C4 | C4 | C4 | C4 | 8E | 8E | 80 |
EIN | U+00C5 | C5 | C5 | C5 | 8F | 8F | 81 |
Æ | U+00C6 | C6 | C6 | C6 | 92 | 92 | AE |
C | U+00C7 | C7 | C7 | C7 | 80 | 80 | 82 |
È | U+00C8 | C8 | C8 | C8 | D4 | E9 | |
É | U+00C9 | C9 | C9 | C9 | 90 | 90 | 83 |
Ê | U+00CA | CA | CA | CA | D2 | E6 | |
Ë | U+00CB | CB | CB | CB | D3 | E8 | |
ICH | U+00CC | CC | CC | CC | DE | ED | |
ICH | U+00CD | CD | CD | CD | D6 | EA | |
ICH | U+00CE | CE | CE | CE | D7 | EB | |
ICH | U+00CF | CF | CF | CF | D8 | EC | |
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
D | U+00D0 | D0 | D0 | D0 | D1 | ||
N | U+00D1 | D1 | D1 | D1 | A5 | A5 | 84 |
Ö | U+00D2 | D2 | D2 | D2 | E3 | F1 | |
Ö | U+00D3 | D3 | D3 | D3 | E0 | EE | |
Ö | U+00D4 | D4 | D4 | D4 | E2 | EF | |
Ö | U+00D5 | D5 | D5 | D5 | E5 | CD | |
Ö | U+00D6 | D6 | D6 | D6 | 99 | 99 | 85 |
× | U+00D7 | D7 | D7 | D7 | 9E | ||
Ö | U+00D8 | D8 | D8 | D8 | 9D | AF | |
Ù | U+00D9 | D9 | D9 | D9 | EB | F4 | |
Ú | U+00DA | DA | DA | DA | E9 | F2 | |
Û | U+00DB | DB | DB | DB | EA | F3 | |
Ü | U+00DC | DC | DC | DC | 9A | 9A | 86 |
Ý | U+00DD | DD | DD | DD | ED | ||
NS | U+00DE | DE | DE | DE | E8 | ||
ß | U+00DF | DF | DF | DF | E1 | E1 | A7 |
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
ein | U+00E0 | E0 | E0 | E0 | 85 | 85 | 88 |
ein | U+00E1 | E1 | E1 | E1 | A0 | A0 | 87 |
ein | U+00E2 | E2 | E2 | E2 | 83 | 83 | 89 |
ein | U+00E3 | E3 | E3 | E3 | C6 | 8B | |
ein | U+00E4 | E4 | E4 | E4 | 84 | 84 | 8A |
ein | U+00E5 | E5 | E5 | E5 | 86 | 86 | 8C |
æ | U+00E6 | E6 | E6 | E6 | 91 | 91 | SEIN |
C | U+00E7 | E7 | E7 | E7 | 87 | 87 | 8D |
è | U+00E8 | E8 | E8 | E8 | 8A | 8A | 8F |
é | U+00E9 | E9 | E9 | E9 | 82 | 82 | 8E |
ê | U+00EA | EA | EA | EA | 88 | 88 | 90 |
ë | U+00EB | EB | EB | EB | 89 | 89 | 91 |
ich | U+00EC | EC | EC | EC | 8D | 8D | 93 |
ich | U+00ED | ED | ED | ED | A1 | A1 | 92 |
ich | U+00EE | EE | EE | EE | 8C | 8C | 94 |
ich | U+00EF | EF | EF | EF | 8B | 8B | 95 |
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
D | U+00F0 | F0 | F0 | F0 | D0 | ||
n | U+00F1 | F1 | F1 | F1 | A4 | A4 | 96 |
Ö | U+00F2 | F2 | F2 | F2 | 95 | 95 | 98 |
Ö | U+00F3 | F3 | F3 | F3 | A2 | A2 | 97 |
Ö | U+00F4 | F4 | F4 | F4 | 93 | 93 | 99 |
Ö | U+00F5 | F5 | F5 | F5 | E4 | 9B | |
Ö | U+00F6 | F6 | F6 | F6 | 94 | 94 | 9A |
÷ | U+00F7 | F7 | F7 | F7 | F6 | F6 | D6 |
Ö | U+00F8 | F8 | F8 | F8 | 9B | BF | |
ù | U+00F9 | F9 | F9 | F9 | 97 | 97 | 9D |
ú | U+00FA | FA | FA | FA | A3 | A3 | 9C |
û | U+00FB | FB | FB | FB | 96 | 96 | 9E |
ü | U+00FC | FC | FC | FC | 81 | 81 | 9F |
ý | U+00FD | FD | FD | FD | EC | ||
NS | U+00FE | FE | FE | FE | E7 | ||
ÿ | U+00FF | FF | FF | FF | 98 | 98 | D8 |
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
ich | U+0131 | D5 | F5 | ||||
Œ | U+0152 | BC | 8C | CE | |||
œ | U+0153 | BD | 9C | CF | |||
S | U+0160 | A6 | 8A | ||||
S | U+0161 | A8 | 9A | ||||
Ÿ | U+0178 | SEIN | 9F | D9 | |||
Ž | U+017D | B4 | 8E | ||||
ž | U+017E | B8 | 9E | ||||
ƒ | U+0192 | 83 | 9F | 9F | C4 | ||
ˆ | U+02C6 | 88 | F6 | ||||
ˇ | U+02C7 | FF | |||||
˘ | U+02D8 | F9 | |||||
˙ | U+02D9 | FA | |||||
˚ | U+02DA | FB | |||||
˛ | U+02DB | FE | |||||
~ | U+02DC | 98 | F7 | ||||
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
˝ | U+02DD | FD | |||||
Γ | U+0393 | E2 | |||||
Θ | U+0398 | E9 | |||||
Σ | U+03A3 | E4 | |||||
Φ | U+03A6 | E8 | |||||
Ω | U+03A9 | EA | BD | ||||
α | U+03B1 | E0 | |||||
δ | U+03B4 | EB | |||||
ε | U+03B5 | EE | |||||
π | U+03C0 | E3 | B9 | ||||
σ | U+03C3 | E5 | |||||
τ | U+03C4 | E7 | |||||
φ | U+03C6 | ED | |||||
– | U+2013 | 96 | D0 | ||||
— | U+2014 | 97 | D1 | ||||
Ich | U+2017 | F2 | |||||
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
' | U+2018 | 91 | D4 | ||||
' | U+2019 | 92 | D5 | ||||
‚ | U+201A | 82 | E2 | ||||
“ | U+201C | 93 | D2 | ||||
” | U+201D | 94 | D3 | ||||
„ | U+201E | 84 | E3 | ||||
Ich | U+2020 | 86 | A0 | ||||
Ich | U+2021 | 87 | E0 | ||||
• | U+2022 | 95 | A5 | ||||
… | U+2026 | 85 | C9 | ||||
Ich | U+2030 | 89 | E4 | ||||
Ich | U+2039 | 8B | DC | ||||
› | U+203A | 9B | DD | ||||
/ | U+2044 | DA | |||||
ⁿ | U+207F | FC | |||||
₧ | U+20A7 | 9E | |||||
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
€ | U+20AC | A4 | 80 | (D5) | DB | ||
™ | U+2122 | 99 | AA | ||||
∂ | U+2202 | B6 | |||||
Δ | U+2206 | C6 | |||||
Π | U+220F | B8 | |||||
Σ | U+2211 | B7 | |||||
∙ | U+2219 | F9 | |||||
√ | U+221A | FB | C3 | ||||
∞ | U+221E | EC | B0 | ||||
∩ | U+2229 | EF | |||||
∫ | U+222B | BA | |||||
≈ | U+2248 | F7 | C5 | ||||
≠ | U+2260 | ANZEIGE | |||||
≡ | U+2261 | F0 | |||||
≤ | U+2264 | F3 | B2 | ||||
≥ | U+2265 | F2 | B3 | ||||
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
⌐ | U+2310 | A9 | |||||
⌠ | U+2320 | F4 | |||||
⌡ | U+2321 | F5 | |||||
─ | U+2500 | C4 | C4 | ||||
│ | U+2502 | B3 | B3 | ||||
┌ | U+250C | DA | DA | ||||
┐ | U+2510 | BF | BF | ||||
└ | U+2514 | C0 | C0 | ||||
┘ | U+2518 | D9 | D9 | ||||
├ | U+251C | C3 | C3 | ||||
┤ | U+2524 | B4 | B4 | ||||
┬ | U+252C | C2 | C2 | ||||
┴ | U+2534 | C1 | C1 | ||||
┼ | U+253C | C5 | C5 | ||||
═ | U+2550 | CD | CD | ||||
║ | U+2551 | BA | BA | ||||
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
╒ | U+2552 | D5 | |||||
╓ | U+2553 | D6 | |||||
╔ | U+2554 | C9 | C9 | ||||
╕ | U+2555 | B8 | |||||
╖ | U+2556 | B7 | |||||
╗ | U+2557 | BB | BB | ||||
╘ | U+2558 | D4 | |||||
╙ | U+2559 | D3 | |||||
╚ | U+255A | C8 | C8 | ||||
╛ | U+255B | SEIN | |||||
╜ | U+255C | BD | |||||
╝ | U+255D | BC | BC | ||||
╞ | U+255E | C6 | |||||
╟ | U+255F | C7 | |||||
╠ | U+2560 | CC | CC | ||||
╡ | U+2561 | B5 | |||||
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
╢ | U+2562 | B6 | |||||
╣ | U+2563 | B9 | B9 | ||||
╤ | U+2564 | D1 | |||||
╥ | U+2565 | D2 | |||||
╦ | U+2566 | CB | CB | ||||
╧ | U+2567 | CF | |||||
╨ | U+2568 | D0 | |||||
╩ | U+2569 | CA | CA | ||||
╪ | U+256A | D8 | |||||
╫ | U+256B | D7 | |||||
╬ | U+256C | CE | CE | ||||
▀ | U+2580 | DF | DF | ||||
▄ | U+2584 | DC | DC | ||||
█ | U+2588 | DB | DB | ||||
▌ | U+258C | DD | |||||
▐ | U+2590 | DE | |||||
Charakter | Codepunkt | ISO-8859-1 | ISO-8859-15 | WINDOWS-1252 | IBM437 | IBM850 | MACINTOSH |
░ | U+2591 | B0 | B0 | ||||
▒ | U+2592 | B1 | B1 | ||||
▓ | U+2593 | B2 | B2 | ||||
■ | U+25A0 | FE | FE | ||||
◊ | U+25CA | D7 | |||||
fi | U+FB01 | DE | |||||
fl | U+FB02 | DF |
- Die Zuordnungen für die IBM-Codepages stammen von der von Microsoft bereitgestellten Unicode- Site . Informationen zu den Unterschieden zwischen den Zuordnungen von IBM und Microsoft für diese Codepages finden Sie im Dokument des Unicode-Konsortiums .
- IBM437 und IBM850 haben druckbare Zeichen für die Steuercodebereiche definiert. Während diese beim Drucken von Text über DOS nicht verwendet werden konnten , da sie vor dem Erreichen des Bildschirms abgefangen würden, könnten sie von Anwendungen verwendet werden, die den Bildschirmspeicher direkt verwenden.
- Macintosh hat ein Apple-Logo ⟨⟩ bei 0xF0 und übersetzt es in U+F8FF im Private Use Area für Unicode.