Unicode-Zeicheneigenschaft - Unicode character property
Der Unicode-Standard weist jedem Unicode-Zeichen und jedem Codepunkt verschiedene Eigenschaften zu .
Die Eigenschaften können verwendet werden, um Zeichen (Codepunkte) in Prozessen zu behandeln, wie z. B. beim Zeilenumbruch, der Skriptrichtung von rechts nach links oder beim Anwenden von Steuerelementen. Einige "Zeicheneigenschaften" werden auch für Codepunkte definiert, denen kein Zeichen zugewiesen ist, und Codepunkte, die wie "<kein Zeichen>" gekennzeichnet sind. Die Charaktereigenschaften sind im Standard Annex #44 beschrieben.
Eigenschaften haben Ebenen der Eindringlichkeit: normativ, informativ, beitragend oder provisorisch. Zur Vereinfachung der Spezifikation kann eine Zeicheneigenschaft zugewiesen werden, indem ein kontinuierlicher Bereich von Codepunkten angegeben wird, die dieselbe Eigenschaft haben.
Semantische Elemente
Eigenschaften werden in der folgenden Reihenfolge angezeigt:
[code];[name];[gc];[cc];[bc];[decomposition];;;[nv];[bm];[alias];;;;
- 'alias' = korrigierter Name
- 'bc' = bidi (bidirektional) Kategorie [L, R usw.]
- 'bm' = bidi gespiegelt [N oder Y]
- 'cc' = Kombinationsklasse [Position des diakritischen Zeichens]
- Zerlegung = Buchstabe + diakritisches Zeichen, Ligatur XY, hochgestelltes X, Schriftart X, anfängliches X, mediales X, finales X, isoliertes X, vertikales X usw.
- 'gc' = allgemeine Kategorie [Buchstabe, Symbol, Ziffer, Satzzeichen, Groß-/Kleinschreibung usw.]
- 'nv' = numerischer Wert [einer Ziffer]
Name
Einem Unicode-Zeichen wird ein eindeutiger Name (na) zugewiesen . Der Name besteht aus Großbuchstaben A–Z, Ziffern 0–9, - (Bindestrich-Minus) und <Leerzeichen>. Einige Sequenzen sind ausgeschlossen: Namen, die mit einem Leerzeichen oder Bindestrich beginnen, Namen, die mit einem Leerzeichen oder Bindestrich enden, wiederholte Leerzeichen oder Bindestriche und Leerzeichen nach einem Bindestrich sind nicht zulässig. Der Name ist innerhalb von Unicode garantiert eindeutig und kann verwendet werden, um einen Codepunkt und sein Zeichen zu identifizieren. Ideografische Zeichen, von denen es Zehntausende gibt, werden nach dem Muster „ cjk vereinheitlichter Ideograph – hhhh “ benannt. Beispiel: U+4E00 一 CJK UNIFIED IDEOGRAPH-4E00 . Formatierungszeichen werden ebenfalls benannt: U+00A0 NO-BREAK SPACE .
Die folgenden Codepunktklassen haben keinen Namen (na=""): Controls (General Category: Cc), Private use (Co), Surrogate (Cs), Non-Characters (Cn) und Reserved (Cn). Sie können verwiesen, informell werden von einem allgemeinen oder spezifischen Meta-name "Code Point Labels" genannt: <control>, <control-0088>, <reserviert>, <noncharacter- hhhh >, <privat Nutzungs- hhhh > , <Ersatz>. Da diese Labels <>-Klammern enthalten, können sie niemals als Name erscheinen, was Verwechslungen verhindert.
Namen der Version 1.0
In Version 2.0 von Unicode wurden viele Namen geändert. Von da an trat die Regel "ein Name wird sich nie ändern" in Kraft, einschließlich der strikten (normativen) Verwendung von Aliasnamen. Nicht mehr verwendete Version 1.0-Namen wurden in die Eigenschaft Alias verschoben, um eine gewisse Abwärtskompatibilität zu gewährleisten.
Aliasname des Charakternamens
Ab Unicode-Version 2.0 ändert sich der veröffentlichte Name für einen Codepunkt nie. Im Falle eines falsch geschriebenen Charakternamens oder wenn der Charaktername völlig falsch oder ernsthaft irreführend ist, kann dem Charakter daher ein formaler Charakternamen-Alias zugewiesen werden, der von Anwendungen anstelle des tatsächlichen fehlerhaften Charakternamens verwendet werden kann . Zum Beispiel U + FE18 ︘ PRESENTATION FORM FOR VERTICAL rechten weißen LENTICULAR BRAKCET hat den Charakternamen alias „PRESENTATION FORM FOR VERTICAL rechten weißen LENTICULAR bracket“, um die falsche Schreibweise von „Klammer“ als „brakcet“ im eigentlichen Charakternamen zu mildern; U+A015 ꀕ YI SYLLABLE WU hat den Zeichennamensalias "YI SYLLABLE ITERATION MARK", da er im Gegensatz zum Zeichennamen keinen festen Silbenwert hat.
Zusätzlich zu Zeichennamenaliasnamen, die Korrekturen an fehlerhaften Zeichennamen sind, werden einigen Zeichen Aliase zugewiesen, bei denen es sich um alternative Namen oder Abkürzungen handelt. Im Unicode-Standard sind fünf Arten von Zeichennamenaliasen definiert:
- Korrektur: Korrekturen für falsch geschriebene oder ernsthaft falsche Zeichennamen;
- Steuerung: ISO 6429- Namen für C0- und C1-Steuerungsfunktionen (die im Unicode-Standard keine Zeichennamen zugewiesen bekommen);
- Alternativ: alternative Namen für einige Formatzeichen (nur U+FEFF "ZERO WIDTH NO-BREAK SPACE" mit dem Alias "BYTE ORDER MARK");
- Abbildung: Dokumentierte Beschriftungen für einige C1-Steuercodefunktionen, die in keinem Standard tatsächlich Namen sind;
- Abkürzung: Abkürzungen oder Akronyme für Steuercodes, Formatzeichen, Leerzeichen und Variationsselektoren.
Alle formalen Zeichennamen-Aliasnamen folgen den Regeln für zulässige Zeichennamen und sind sowohl innerhalb des Zeichennamen-Alias als auch innerhalb der Zeichennamen-Namespaces garantiert eindeutig (aus diesem Grund ist der ISO 6429-Name "BELL" nicht als Alias für U . definiert). +0007, weil U+1F514 "BELL" heißt).
Ab Unicode-Version 12.1 sind 28 formale Zeichennamenaliase als Korrekturen für fehlerhafte Zeichennamen definiert. Diese sind unten aufgeführt .
Abgesehen von diesen normativen Namen können in den Unicode-Codediagrammen auch informelle Namen angezeigt werden. Dies sind andere häufig verwendete Namen für ein Zeichen und müssen nicht auf die Buchstaben A–Z, Ziffern 0–9, - (Bindestrich-Minus) und <Leerzeichen> beschränkt sein. Diese informellen Namen sind nicht garantiert eindeutig und können in späteren Versionen des Standards geändert oder entfernt werden.
Allgemeine Kategorie
Jedem Codepunkt wird ein Wert für die allgemeine Kategorie zugewiesen. Dies ist eine der Zeicheneigenschaften, die auch für nicht zugewiesene Codepunkte und Codepunkte, die als "kein Zeichen" definiert sind, definiert sind.
Allgemeine Kategorie (Unicode- Zeicheneigenschaft ) | |||||
---|---|---|---|---|---|
Wert | Kategorie Major, Minor | Grundtyp | Charakter zugewiesen | Anzahl (ab 14.0) |
Bemerkungen |
L, Buchstabe; LC, Großbuchstaben (nur Lu, Ll und Lt) | |||||
Lu | Buchstabe, Großbuchstaben | Grafik | Charakter | 1.831 | |
NS | Buchstabe, Kleinschreibung | Grafik | Charakter | 2.227 | |
Lt | Brief, Titeltasche | Grafik | Charakter | 31 | Ligaturen mit Großbuchstaben gefolgt von Kleinbuchstaben (z. B. Dž , Lj , Nj und Dz ) |
Lm | Buchstabe, Modifikator | Grafik | Charakter | 334 | Ein Modifikatorbuchstabe |
Lo | Brief, andere | Grafik | Charakter | 127.333 | Ein Ideogramm oder ein Buchstabe in einem Unicase-Alphabet |
M, Markus | |||||
Mn | Markierung, ohne Leerzeichen | Grafik | Charakter | 1.950 | |
Mc | Markierung, Abstandskombination | Grafik | Charakter | 445 | |
Mir | Markieren, beifügen | Grafik | Charakter | 13 | |
N, Zahl | |||||
Nd | Zahl, Dezimalstelle | Grafik | Charakter | 660 | Alle diese und nur diese haben numerischen Typ = De |
Nl | Zahl, Buchstabe | Grafik | Charakter | 236 | Ziffern, die aus Buchstaben oder buchstabenähnlichen Symbolen bestehen (z. B. römische Ziffern ) |
Nein | Nummer, andere | Grafik | Charakter | 895 | B. vulgäre Brüche , hochgestellte und tiefgestellte Ziffern |
P, Satzzeichen | |||||
PC | Satzzeichen, Stecker | Grafik | Charakter | 10 | Enthält "_" Unterstrich |
Pd | Satzzeichen, Bindestrich | Grafik | Charakter | 26 | Enthält mehrere Bindestrich Zeichen |
PS | Satzzeichen, offen | Grafik | Charakter | 79 | Öffnen Klammer Zeichen |
Sport | Satzzeichen, schließen | Grafik | Charakter | 77 | Schließende Klammerzeichen |
Pi | Satzzeichen, Anfangszitat | Grafik | Charakter | 12 | Öffnungs Anführungszeichen . Enthält nicht das ASCII-"neutrale" Anführungszeichen. Kann sich je nach Verwendung wie Ps oder Pe verhalten |
Pf | Satzzeichen, Schlusszitat | Grafik | Charakter | 10 | Schließendes Anführungszeichen. Kann sich je nach Verwendung wie Ps oder Pe verhalten |
Po | Satzzeichen, andere | Grafik | Charakter | 605 | |
S, Symbol | |||||
Sm | Symbol, Mathematik | Grafik | Charakter | 948 | Mathematische Symbole (zB + , − , = , × , ÷ , √ , ∊ , ≠ ). Enthält keine Klammern und Klammern, die in den Kategorien Ps und Pe enthalten sind. Enthält auch nicht ! , * , - oder / , die trotz häufiger Verwendung als mathematische Operatoren in erster Linie als "Interpunktion" angesehen werden. |
SC | Symbol, Währung | Grafik | Charakter | 63 | Währungssymbole |
Sk | Symbol, Modifikator | Grafik | Charakter | 125 | |
So | Symbol, andere | Grafik | Charakter | 6.605 | |
Z, Trennzeichen | |||||
Zs | Trennzeichen, Leerzeichen | Grafik | Charakter | 17 | Enthält das Leerzeichen, aber nicht TAB , CR oder LF , die Cc . sind |
Zl | Trennzeichen, Linie | Format | Charakter | 1 | Nur U+2028 LINE SEPARATOR (LSEP) |
Zp | Trennzeichen, Absatz | Format | Charakter | 1 | Nur U+2029 PARAGRAPH SEPARATOR (PSEP) |
C, Andere | |||||
CC | Andere, Kontrolle | Steuerung | Charakter | 65 (wird sich nie ändern) | Kein Name, <Kontrolle> |
Vgl | Sonstiges, Format | Format | Charakter | 163 | Umfasst der weiche Bindestrich , Füge- Steuerzeichen ( zwnj und zwj ), Steuerzeichen zur Unterstützung bidirektionaler Text und Sprache Tag Zeichen |
Cs | Andere, Ersatz | Surrogat | Nicht (nur in UTF-16 verwendet ) | 2.048 (wird sich nie ändern) | Kein Name, <Surrogat> |
Co | Sonstige, private Nutzung | Privater Gebrauch | Zeichen (aber keine Interpretation angegeben) | 137.468 insgesamt (wird sich nie ändern) ( 6.400 in BMP , 131.068 in Flugzeugen 15-16 ) | Kein Name, <private Nutzung> |
Cn | Sonstiges, nicht zugeordnet | Nichtcharakter | Nicht | 66 (wird sich nie ändern) | Kein Name, <kein Charakter> |
Reserviert | Nicht | 829.768 | Kein Name, <reserviert> | ||
Interpunktion
Zeichen haben separate Eigenschaften, um anzuzeigen, dass es sich um ein Satzzeichen handelt . Die Eigenschaften haben alle Ja/Nein-Werte : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .
Leerzeichen
Whitespace ist ein häufig verwendetes Konzept für einen typografischen Effekt. Grundsätzlich deckt es unsichtbare Zeichen ab, die einen Abstandseffekt im gerenderten Text haben. Es enthält Leerzeichen , Tabulatoren und Steuerelemente zur Formatierung von Zeilenumbrüchen. In Unicode hat ein solches Zeichen den Eigenschaftssatz "WSpace=yes". In Version 14.0 gibt es 25 Leerzeichen.
Name | Codepunkt | Breite Feld | Kann brechen ? | Im IDN ? |
Skript | Block | Allgemeine Kategorie |
Anmerkungen | |
---|---|---|---|---|---|---|---|---|---|
Zeichentabelle | U+0009 | 9 | Jawohl | Nein | Verbreitet | Grundkenntnisse in Latein | Andere, Kontrolle |
HT, Horizontale Registerkarte . HTML/XML benannte Entität : 	 , LaTeX : '\tab'
|
|
Zeilenvorschub | U+000A | 10 | Ist ein Zeilenumbruch | Verbreitet | Grundkenntnisse in Latein | Andere, Kontrolle |
LF, Zeilenvorschub . HTML/XML-benannte Entität:

|
||
Zeilentabellen | U+000B | 11 | Ist ein Zeilenumbruch | Verbreitet | Grundkenntnisse in Latein | Andere, Kontrolle |
VT, vertikale Registerkarte | ||
Formular-Feed | U+000C | 12 | Ist ein Zeilenumbruch | Verbreitet | Grundkenntnisse in Latein | Andere, Kontrolle |
FF, Formularvorschub | ||
Wagenrücklauf | U+000D | 13 | Ist ein Zeilenumbruch | Verbreitet | Grundkenntnisse in Latein | Andere, Kontrolle |
CR, Wagenrücklauf | ||
Platz | U+0020 | 32 | Jawohl | Nein | Verbreitet | Grundkenntnisse in Latein | Trennzeichen, Leerzeichen |
Am häufigsten (normaler ASCII-Raum) | |
nächste Zeile | U+0085 | 133 | Ist ein Zeilenumbruch | Verbreitet | Latein-1- Ergänzung |
Andere, Kontrolle |
NEL, Nächste Zeile | ||
Kein Pausenraum | U+00A0 | 160 | Nein | Nein | Verbreitet | Latein-1- Ergänzung |
Trennzeichen, Leerzeichen |
Geschütztes Leerzeichen : identisch mit U+0020, aber kein Punkt, an dem eine Linie unterbrochen werden darf. HTML/XML benannte Entität: , LaTeX: '\ '
|
|
ogham Leerzeichen | U+1680 | 5760 | Jawohl | Nein | Ogham | Ogham | Trennzeichen, Leerzeichen |
Wird zur Trennung zwischen Wörtern in Ogham- Text verwendet. Normalerweise eine vertikale Linie in vertikalem Text oder eine horizontale Linie in horizontalem Text, kann aber auch ein Leerzeichen in "stammlosen" Schriftarten sein. Erfordert eine Ogham-Schriftart. | |
de quad | U+2000 | 8192 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Breite von einem en . U+2002 entspricht diesem Zeichen kanonisch; U+2002 wird bevorzugt. | |
em quad | U+2001 | 8193 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Auch bekannt als "Hammelquad". Breite von einem em . U+2003 entspricht diesem Zeichen kanonisch; U+2003 wird bevorzugt. | |
en raum | U+2002 | 8194 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Auch als "Nuss" bekannt. Breite von einem en . U+2000 En Quad ist kanonisch äquivalent zu diesem Zeichen; U+2002 wird bevorzugt. HTML/XML benannte Entität:   , LaTeX: '\enspace'
|
|
em Raum | U+2003 | 8195 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Auch bekannt als "Hammel". Breite von einem em . U+2001 Em Quad ist kanonisch äquivalent zu diesem Zeichen; U+2003 wird bevorzugt. HTML/XML benannte Entität:   , LaTeX: '\quad'
|
|
Drei-pro-em-Raum | U+2004 | 8196 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Auch als "dicker Raum" bekannt. Ein Drittel eines em breit. HTML/XML-benannte Entität: 
|
|
Vier-pro-em-Raum | U+2005 | 8197 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Auch als "mittlerer Raum" bekannt. Ein Viertel eines em breit. HTML/XML-benannte Entität: 
|
|
Sechs-pro-em-Raum | U+2006 | 8198 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Ein Sechstel eines em breit. In der Computertypografie manchmal gleichgesetzt mit U+2009. | |
Figurenraum | U+2007 | 8199 | Nein | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Abbildung Raum . In Schriftarten mit einzeiligen Ziffern, die der Breite einer Ziffer entsprechen. HTML/XML-benannte Entität: 
|
|
Satzzeichen | U+2008 | 8200 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
So breit wie die schmale Interpunktion in einer Schrift, also die Vorschubbreite des Punktes oder des Kommas. HTML/XML-benannte Entität: 
|
|
dünner Raum | U+2009 | 8201 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Dünner Raum ; ein Fünftel (manchmal ein Sechstel) eines em breit. Empfohlen zur Verwendung als Tausendertrennzeichen für Messungen mit SI-Einheiten . Im Gegensatz zu U+2002 bis U+2008 kann seine Breite im Satz angepasst werden. HTML/XML benannte Entität:   ; LaTeX: '\,'
|
|
Haarraum | U+200A | 8202 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Dünner als ein dünner Raum. HTML/XML benannte Entität:   ( funktioniert nicht in allen Browsern)
|
|
Zeilentrenner | U+2028 | 8232 | Ist ein Zeilenumbruch | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Linie |
|||
Absatztrenner | U+2029 | 8233 | Ist ein Zeilenumbruch | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Absatz |
|||
schmaler unterbrechungsfreier Raum | U+202F | 8239 | Nein | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
Enger unterbrechungsfreier Raum . Funktion ähnlich wie U+00A0 No-Break Space. Wenn es mit Mongolian verwendet wird, beträgt seine Breite normalerweise ein Drittel des normalen Raums; in anderen Zusammenhängen ähnelt seine Breite manchmal der des Thin Space (U+2009). | |
mittlerer mathematischer Raum | U+205F | 8287 | Jawohl | Nein | Verbreitet | Allgemeine Interpunktion |
Trennzeichen, Leerzeichen |
MMSP. Wird in mathematischen Formeln verwendet. Vier-Achtzehntel-Em. In der mathematischen Typografie werden die Breiten von Leerzeichen normalerweise in ganzzahligen Vielfachen eines Achtzehntel-Ems angegeben, und 4/18-Em kann in verschiedenen Situationen verwendet werden, zum Beispiel zwischen dem a und dem + und zwischen dem + und dem b im Ausdruck a + b . HTML/XML-benannte Entität: 
|
|
ideografischer Raum | U+3000 | 12288 | Jawohl | Nein | Verbreitet | CJK-Symbole und Satzzeichen |
Trennzeichen, Leerzeichen |
So breit wie eine CJK- Zeichenzelle ( fullwidth ). Wird zum Beispiel im Tai Tou verwendet . |
Name | Codepunkt | Breite Feld | Kann brechen ? | Im IDN ? |
Skript | Block | Allgemeine Kategorie |
Anmerkungen | |
---|---|---|---|---|---|---|---|---|---|
mongolischer Vokaltrenner | U+180E | 6158 | | Jawohl | Nein | mongolisch | mongolisch | Sonstiges, Format |
MVS. Ein schmales Leerzeichen, das im Mongolischen verwendet wird, um zu bewirken, dass die letzten beiden Zeichen eines Wortes unterschiedliche Formen annehmen. Es wird in Unicode 6.3.0 nicht mehr als Leerzeichen (dh in der Kategorie Zs) klassifiziert, obwohl dies in früheren Versionen des Standards der Fall war. |
Leerzeichen mit Nullbreite | U+200B | 8203 | | Jawohl | Nein | ? | Allgemeine Interpunktion |
Sonstiges, Format |
ZWSP, Leerzeichen mit Nullbreite . Wird verwendet, um Textverarbeitungssystemen Wortgrenzen anzuzeigen, wenn Skripte verwendet werden, die keine expliziten Leerzeichen verwenden. Es ähnelt dem weichen Bindestrich , mit dem Unterschied, dass letzterer verwendet wird, um Silbengrenzen anzuzeigen, und einen sichtbaren Bindestrich anzeigen sollte, wenn die Zeile an ihm umbricht. HTML/XML benannte Entität :​
|
Nullbreite Nicht-Joiner | U+200C | 8204 | | Jawohl | Kontext abhängig | ? | Allgemeine Interpunktion |
Sonstiges, Format |
ZWNJ, Nicht-Joiner ohne Breite . Wenn es zwischen zwei Zeichen gesetzt wird, die sonst verbunden wären, bewirkt ein ZWNJ, dass sie in ihrer endgültigen bzw. ursprünglichen Form gedruckt werden. HTML/XML-benannte Entität:‌
|
Tischler mit Nullbreite | U+200D | 8205 | | Jawohl | Kontext abhängig | ? | Allgemeine Interpunktion |
Sonstiges, Format |
ZWJ, Tischlüfter ohne Breite . Wenn es zwischen zwei Zeichen gesetzt wird, die sonst nicht verbunden wären, bewirkt ein ZWJ, dass sie in ihrer verbundenen Form gedruckt werden. Kann auch verwendet werden, um Verbindungsformulare isoliert anzuzeigen. Je nachdem, ob standardmäßig eine Ligatur oder eine Konjunktion erwartet wird, kann die Substitution durch eine einzelne Glyphe entweder induziert (wie in Emoji und in Singhalesisch ) oder unterdrückt (wie in Devanagari ) werden, während die Verwendung einzelner Verbindungsformen (im Gegensatz zu ZWNJ) weiterhin möglich ist. HTML/XML-benannte Entität:‍
|
Wortverbinder | U+2060 | 8288 | | Nein | Nein | ? | Allgemeine Interpunktion |
Sonstiges, Format |
WJ, Wortverbinder . Ähnlich wie U+200B, aber kein Punkt, an dem eine Linie unterbrochen werden kann. HTML/XML-benannte Entität:⁠
|
Nullbreites geschütztes Leerzeichen | U+FEFF | 65279 | | Nein | Nein | ? | Arabische Präsentationsformen -B |
Sonstiges, Format |
Geschütztes Leerzeichen ohne Breite . Wird hauptsächlich als Byte Order Mark verwendet . Die Verwendung als Hinweis auf Non-breaking ist ab Unicode 3.2 veraltet; siehe stattdessen U+2060. |
Andere allgemeine Eigenschaften
Ideografisch, alphabetisch, charakterlos.
Kombinationsklasse
Einige gängige Codes:
- 0 = Leerzeichen, Symbol oder Modifikator (zB a, (, ʰ)
- 1 = Überlagerung
- 6 = Han-Lesung (CJK diakritische Lesezeichen)
- 7 = Nukta (diakritisches Nukta in brahmischen Schriften )
- 8 = Kana-Stimmzeichen
- 9 = virama
10–199 = verschiedene Festplatzklassen
Markierungen, die an den Basisbuchstaben angehängt werden:
- 200 = unten links angebracht
- 202 = direkt darunter angebracht (zB Cedille auf ç)
- 204 = unten rechts angebracht
- 208 = links angehängt
- 210 = rechts angebracht
- 212 = oben links angebracht
- 214 = direkt darüber angebracht
- 216 = oben rechts angebracht
Markierungen, die nicht mit dem Basisbuchstaben verbunden sind:
- 218 = unten links
- 220 = direkt darunter (zB Ring auf n̥)
- 222 = unten rechts
- 224 = links
- 226 = rechts
- 228 = oben links
- 230 = oben (zB akuter Akzent auf á)
- 232 = oben rechts
- 233 = unten doppelt (unterteilt zwei Basen)
- 234 = oben verdoppeln (verlängert zwei Basen)
- 240 = Jota tiefgestellt (nur das griechische diakritische Zeichen)
Formgebung, Breite.
Bidirektionales Schreiben
Sechs Zeicheneigenschaften beziehen sich auf bidirektionales Schreiben: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket und Bidi_Paired_Bracket_Type.
Eine der wichtigsten Funktionen von Unicode ist die Unterstützung der bidirektionalen ( Bidi ) Textanzeige von rechts nach links (R-nach-L) und von links nach rechts (L-nach-R). Der bidirektionale Unicode-Algorithmus UAX9 beschreibt den Prozess der Textpräsentation mit sich ändernden Skriptrichtungen. Sie ermöglicht beispielsweise ein hebräisches Zitat in einem englischen Text. Der Bidi_Character_Type kennzeichnet das Verhalten eines Zeichens beim gerichteten Schreiben. Um eine Richtung zu überschreiben, hat Unicode spezielle Formatierungssteuerzeichen ( Bidi-Control s) definiert. Diese Zeichen können eine Richtung erzwingen und wirken sich per Definition nur auf das bidirektionale Schreiben aus.
Jeder Codepunkt hat eine Eigenschaft namens Bidi_Class . Es definiert sein Verhalten in einem bidirektionalen Text, wie er vom Algorithmus interpretiert wird:
Typ | Beschreibung | Stärke | Direktionalität | Allgemeiner Geltungsbereich | Bidi_Control-Charakter |
---|---|---|---|---|---|
L | Links nach rechts | Stark | L-nach-R | Die meisten alphabetischen und silbischen Zeichen, chinesische Zeichen, nichteuropäische oder nichtarabische Ziffern, LRM-Zeichen, ... | U+200E MARKIERUNG VON LINKS NACH RECHTS (LRM) |
R | Rechts nach links | Stark | R-nach-L | Adlam, Hebräisch, Mandäisch, Mende Kikakui, N'Ko, Samaritan, alte Schriften wie Kharoshthi und Nabatäisch, RLM-Charakter, ... | U+200F RECHTS-nach-LINKS-MARKE (RLM) |
AL | Arabischer Buchstabe | Stark | R-nach-L | Arabisch, Hanifi Rohingya, Sogdisch, Syrisch und Thaana Alphabete und die meisten für diese Schriften spezifischen Satzzeichen, ALM-Zeichen, ... | U+061C Arabisches Buchstabenzeichen (ALM) |
DE | Europäische Nummer | Schwach | Europäische Ziffern, östliche arabisch-indische Ziffern, koptische Epaktzahlen, ... | ||
ES | Europäisches Trennzeichen | Schwach | Pluszeichen , Minuszeichen , ... | ||
ET | Europäischer Nummernabschluss | Schwach | Gradzeichen , Währungssymbole, ... | ||
EIN | Arabische Zahl | Schwach | Arabisch-indische Ziffern, arabische Dezimal- und Tausendertrennzeichen, Rumi-Ziffern, Hanifi-Rohingya-Ziffern, ... | ||
CS | Gemeinsames Zahlentrennzeichen | Schwach | Doppelpunkt , Komma , Punkt , Leerzeichen , ... | ||
NSM | Markierung ohne Leerzeichen | Schwach | Zeichen in den allgemeinen Kategorien Mark, kein Leerzeichen und Mark, einschließend (Mn, Me) | ||
BN | Grenzneutral | Schwach | Standard-Ignorables, Nicht-Zeichen, Steuerzeichen, die nicht explizit anderen Typen zugewiesen wurden | ||
B | Absatztrennzeichen | Neutral | Absatztrenner , entsprechende Newline-Funktionen, Absatzermittlung des übergeordneten Protokolls | ||
S | Segmenttrenner | Neutral | Registerkarten | ||
WS | Leerzeichen | Neutral | Leerzeichen , Zahlenraum , Zeilentrenner , Seitenvorschub , Allgemein Satzzeichenblock Leerzeichen (kleiner Satz als die Unicode-Whitespace- Liste) | ||
AN | Andere Neutrale | Neutral | Alle anderen Zeichen, einschließlich Objektersatzzeichen | ||
LRE | Einbettung von links nach rechts | Explizit | L-nach-R | Nur LRE-Charakter | U+202A EINBETTEN VON LINKS NACH RECHTS (LRE) |
LRO | Von links nach rechts überschreiben | Explizit | L-nach-R | Nur LRO-Charakter | U+202D LINKS NACH RECHTS OVERRIDE (LRO) |
RLE | Einbettung von rechts nach links | Explizit | R-nach-L | Nur RLE-Zeichen | U+202B EINBETTEN VON RECHTS NACH LINKS (RLE) |
VKE | Von rechts nach links überschreiben | Explizit | R-nach-L | Nur VKE-Charakter | U+202E RECHTS-nach-links-Override (RLO) |
Pop-Richtungsformat | Explizit | Nur PDF-Zeichen | U+202C POP-RICHTUNGSFORMATIERUNG (PDF) | ||
LRI | Von links nach rechts isolieren | Explizit | L-nach-R | Nur LRI-Zeichen | U+2066 VON LINKS NACH RECHTS ISOLIEREN (LRI) |
RLI | Von rechts nach links isolieren | Explizit | R-nach-L | Nur RLI-Zeichen | U+2067 RECHTS NACH LINKS ISOLIEREN (RLI) |
FSI | Erstes starkes Isolat | Explizit | Nur FSI-Charakter | U+2068 ERSTES STARKES ISOLAT (FSI) | |
PDI | Pop Directional Isolate | Explizit | Nur PDI-Zeichen | U+2069 POP-RICHTUNGSISOLAT (PDI) | |
Anmerkungen
|
Im Normalfall kann der Algorithmus anhand dieser Zeicheneigenschaft die Richtung eines Textes bestimmen. Um komplexere Bidi-Situationen zu kontrollieren, zB wenn ein englischer Text ein hebräisches Zitat enthält, werden Unicode zusätzliche Optionen hinzugefügt. Zwölf Zeichen haben die Eigenschaft Bidi_Control=Yes : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM und RLO wie in der Tabelle benannt. Dies sind unsichtbare Formatierungssteuerzeichen, die nur vom Algorithmus verwendet werden und außerhalb der bidirektionalen Formatierung keine Auswirkungen haben. Trotz des Namens sind sie Formatierungszeichen, keine Steuerzeichen und haben in der Unicode-Definition die allgemeine Kategorie "Sonstiges, Format (Cf)".
Grundsätzlich ermittelt der Algorithmus eine Zeichenfolge mit dem gleichen starken Richtungstyp (R-nach-L oder L-nach-R) unter Berücksichtigung einer Übersteuerung durch die spezielle Bidi-Steuerung. Zahlenzeichenfolgen (schwache Typen) erhalten eine Richtung entsprechend ihrer starken Umgebung, ebenso wie neutrale Zeichen. Schließlich werden die Zeichen in Richtung einer Zeichenfolge angezeigt.
Zwei Zeicheneigenschaften sind relevant, um ein Spiegelbild einer Glyphe in bidirektionalem Text zu bestimmen: Bidi_Mirrored=Yes gibt an, dass die Glyphe gespiegelt werden soll, wenn sie von R nach L geschrieben wird. Die Eigenschaft Bidi_Mirroring_Glyph=U+ hhhh kann dann auf das gespiegelte Zeichen zeigen. Beispielsweise werden Klammern "()" auf diese Weise gespiegelt. Das Formen von kursiven Schriften wie Arabisch und das Spiegeln von Glyphen, die eine Richtung haben, ist nicht Teil des Algorithmus.
Gehäuse
Der Case-Wert ist in Unicode normativ. Es bezieht sich auf Skripte mit Großbuchstaben (auch Großbuchstaben, Majuskel genannt) und Kleinbuchstaben (auch Kleinbuchstaben genannt). Fallunterschiede treten in Adlam, Armenisch, Cherokee, Koptisch, Kyrillisch, Deseret, Glagolitisch, Griechisch, Khutsuri und Mkhedruli Georgisch, Latein, Medefaidrin, Altungarisch, Osage, Vithkuqi und Warang Citi auf.
(oben, unten, Titel, Falzen – sowohl einfach als auch vollständig)
Numerische Werte und Typen
Dezimal
Zeichen werden mit einem numerischen Typ klassifiziert . Zeichen wie Brüche, tiefgestellte, hochgestellte Zeichen, römische Ziffern, Währungszähler, eingekreiste Zahlen und skriptspezifische Ziffern sind vom Typ Numerisch. Sie haben einen numerischen Wert , der dezimal sein kann, einschließlich Null und Negativ, oder ein vulgärer Bruch. Wenn es keinen solchen Wert gibt, wie bei den meisten Zeichen, ist der numerische Typ "Keiner".
Die Zeichen, die einen numerischen Wert haben, werden in drei Gruppen unterteilt: Dezimal (De), Ziffer (Di) und Numerisch (Nu, dh alle anderen). "Dezimal" bedeutet, dass das Zeichen eine gerade Dezimalziffer ist. Nur Zeichen, die Teil eines zusammenhängenden codierten Bereichs 0..9 sind, haben den numerischen Typ Dezimal. Andere Ziffern, wie hochgestellte Zeichen, haben den numerischen Typ Digit. Alle numerischen Zeichen wie Brüche und römische Ziffern enden mit dem Typ "Numerisch". Der beabsichtigte Effekt besteht darin, dass ein einfacher Parser diese dezimalen Zahlenwerte verwenden kann, ohne beispielsweise durch eine hochgestellte Zahl oder einen Bruch abgelenkt zu werden. Dreiundsiebzig CJK-Ideogramme, die eine Zahl darstellen, einschließlich der für die Buchhaltung verwendeten, werden numerisch eingegeben.
Auf der anderen Seite werden Zeichen, die einen numerischen Wert als zweite Bedeutung haben könnten, immer noch als numerischer Typ "Keine" gekennzeichnet und haben keinen numerischen Wert (""). ZB können lateinische Buchstaben in der Absatznummerierung wie "II.A.1.b" verwendet werden, aber die Buchstaben "I", "A" und "b" sind nicht numerisch (Typ "Keine") und haben keinen numerischen Wert.
Unicode- Zeicheneigenschaft ) | Numerischer Typ (||||
---|---|---|---|---|
Numerischer Typ | Code | Hat numerischen Wert | Beispiel | Bemerkungen |
Nicht numerisch | None |
Nein |
|
Numerischer Wert="NaN" |
Dezimal | De |
Jawohl |
|
Gerade Ziffer (Dezimal- Radix ). Entspricht in beide Richtungen mit General Category =Nd |
Ziffer | Di |
Jawohl |
|
Dezimal, aber im typografischen Kontext |
Numerisch | Nu |
Jawohl |
|
Numerischer Wert, aber kein Dezimal-Radix |
A. ^ "Abschnitt 4.6: Numerischer Wert" (PDF) . Der Unicode-Standard . Unicode-Konsortium. September 2021. | ||||
B. ^ "Unicode 14.0 Abgeleitete numerische Typen" . Datenbank für Unicode-Zeichen . Unicode-Konsortium. 2021-03-08. |
Hexadezimale Ziffern
Hexadezimalzeichen sind die der Reihe mit den Hexadezimalwerten 0...9ABCDEF (sechzehn Zeichen, Dezimalwert 0-15). Die Charaktereigenschaft Hex_Digit wird auf Yes gesetzt, wenn sich ein Charakter in einer solchen Serie befindet:
Zeichen in Unicode markiert Hex_Digit=Yes
|
|||
---|---|---|---|
0123456789ABCDEF |
Grundlegendes Latein, Großbuchstaben | Ebenfalls ASCII_Hex_Digit=Yes
|
|
0123456789abcdef |
Grundlegendes Latein, Kleinbuchstaben | Ebenfalls ASCII_Hex_Digit=Yes
|
|
0123456789ABCDEF |
Formulare in voller Breite , Großbuchstaben | ||
0123456789abcdef |
Formulare in voller Breite, Kleinbuchstaben | ||
A. ^ "Unicode 14.0 UCD: PropList.txt" . 2021-08-12 . Abgerufen 2020-03-12 . |
Vierundvierzig Zeichen sind als Hex_Digit gekennzeichnet. Die im Block Basic Latin sind auch als ASCII_Hex_Digit gekennzeichnet .
Unicode hat keine separaten Zeichen für hexadezimale Werte. Dies hat zur Folge, dass bei der Verwendung von regulären Zeichen nicht festgestellt werden kann, ob ein hexadezimaler Wert gemeint ist oder gar ein Wert gemeint ist. Das sollte auf einer höheren Ebene bestimmt werden, zB durch Voranstellen von "0x" an eine Hexadezimalzahl oder durch den Kontext. Die einzige Funktion besteht darin, dass Unicode feststellen kann, dass eine Sequenz ein hexadezimaler Wert sein kann oder nicht .
Block
Ein Block ist ein eindeutig benannter, zusammenhängender Bereich von Codepunkten. Es wird durch seinen ersten und letzten Codepunkt identifiziert. Blöcke überlappen sich nicht . Ein Block kann Codepunkte enthalten , die reserviert sind, nicht zugewiesen usw. Jedes Zeichen , das ist zugewiesen, einen einzelnen „Blockname“ Wert aus den wie von Unicode Version 14.0 Nicht zugewiesene Codepunkte außerhalb eines bestehenden Block zugewiesen Namen 320 hat, sind die Standardwert "No_block".
Ebene | Blockbereich | Blockname | Codepunkte | Zugewiesene Charaktere | Skripte |
---|---|---|---|---|---|
0 BMP | U+0000..U+007F | Grundkenntnisse in Latein | 128 | 128 | Latein (52 Zeichen), Allgemein (76 Zeichen) |
0 BMP | U+0080..U+00FF | Latein-1-Ergänzung | 128 | 128 | Latein (64 Zeichen), Allgemein (64 Zeichen) |
0 BMP | U+0100..U+017F | Lateinisches Extended-A | 128 | 128 | Latein |
0 BMP | U+0180..U+024F | Lateinisches Extended-B | 208 | 208 | Latein |
0 BMP | U+0250..U+02AF | IPA-Erweiterungen | 96 | 96 | Latein |
0 BMP | U+02B0..U+02FF | Abstandsmodifikatorbuchstaben | 80 | 80 | Bopomofo (2 Zeichen), Latein (14 Zeichen), Common (64 Zeichen) |
0 BMP | U+0300..U+036F | Kombinieren von diakritischen Zeichen | 112 | 112 | Vererbt |
0 BMP | U+0370..U+03FF | Griechisch und Koptisch | 144 | 135 | Koptisch (14 Zeichen), Griechisch (117 Zeichen), Gewöhnlich (4 Zeichen) |
0 BMP | U+0400..U+04FF | kyrillisch | 256 | 256 | Kyrillisch (254 Zeichen), Vererbt (2 Zeichen) |
0 BMP | U+0500..U+052F | Kyrillische Ergänzung | 48 | 48 | kyrillisch |
0 BMP | U+0530..U+058F | Armenisch | 96 | 91 | Armenisch |
0 BMP | U+0590..U+05FF | hebräisch | 112 | 88 | hebräisch |
0 BMP | U+0600..U+06FF | Arabisch | 256 | 256 | Arabisch (238 Zeichen), Allgemein (6 Zeichen), Vererbt (12 Zeichen) |
0 BMP | U+0700..U+074F | Syrisch | 80 | 77 | Syrisch |
0 BMP | U+0750..U+077F | Arabische Ergänzung | 48 | 48 | Arabisch |
0 BMP | U+0780..U+07BF | Thaana | 64 | 50 | Thaana |
0 BMP | U+07C0..U+07FF | NKo | 64 | 62 | Nko |
0 BMP | U+0800..U+083F | Samariter | 64 | 61 | Samariter |
0 BMP | U+0840..U+085F | Mandaisch | 32 | 29 | Mandaisch |
0 BMP | U+0860..U+086F | Syrische Ergänzung | 16 | 11 | Syrisch |
0 BMP | U+0870..U+089F | Arabisch Extended-B | 48 | 41 | Arabisch |
0 BMP | U+08A0..U+08FF | Arabisch Extended-A | 96 | 96 | Arabisch (95 Zeichen), Allgemein (1 Zeichen) |
0 BMP | U+0900..U+097F | Devanagari | 128 | 128 | Devanagari (122 Zeichen), Gewöhnlich (2 Zeichen), Vererbt (4 Zeichen) |
0 BMP | U+0980..U+09FF | Bengali | 128 | 96 | Bengali |
0 BMP | U+0A00..U+0A7F | Gurmukhi | 128 | 80 | Gurmukhi |
0 BMP | U+0A80..U+0AFF | Gujarati | 128 | 91 | Gujarati |
0 BMP | U+0B00..U+0B7F | Oriya | 128 | 91 | Oriya |
0 BMP | U+0B80..U+0BFF | Tamil | 128 | 72 | Tamil |
0 BMP | U+0C00..U+0C7F | Telugu | 128 | 100 | Telugu |
0 BMP | U+0C80..U+0CFF | Kannada | 128 | 90 | Kannada |
0 BMP | U+0D00..U+0D7F | Malayalam | 128 | 118 | Malayalam |
0 BMP | U+0D80..U+0DFF | singhalesisch | 128 | 91 | singhalesisch |
0 BMP | U+0E00..U+0E7F | Thai | 128 | 87 | Thai (86 Zeichen), Allgemein (1 Zeichen) |
0 BMP | U+0E80..U+0EFF | Laos | 128 | 82 | Laos |
0 BMP | U+0F00..U+0FFF | Tibetisch | 256 | 211 | Tibetisch (207 Zeichen), Gewöhnlich (4 Zeichen) |
0 BMP | U+1000..U+109F | Myanmar | 160 | 160 | Myanmar |
0 BMP | U+10A0..U+10FF | georgisch | 96 | 88 | Georgisch (87 Zeichen), Allgemein (1 Zeichen) |
0 BMP | U+1100..U+11FF | Hangul Jamo | 256 | 256 | Hangul |
0 BMP | U+1200..U+137F | Äthiopisch | 384 | 358 | Äthiopisch |
0 BMP | U+1380..U+139F | Äthiopische Ergänzung | 32 | 26 | Äthiopisch |
0 BMP | U+13A0..U+13FF | Cherokee | 96 | 92 | Cherokee |
0 BMP | U+1400..U+167F | Einheitliche Kanadische Ureinwohner-Syllabics | 640 | 640 | Kanadische Aborigines |
0 BMP | U+1680..U+169F | Ogham | 32 | 29 | Ogham |
0 BMP | U+16A0..U+16FF | Runen | 96 | 89 | Runen (86 Zeichen), Gewöhnlich (3 Zeichen) |
0 BMP | U+1700..U+171F | Tagalog | 32 | 23 | Tagalog |
0 BMP | U+1720..U+173F | Hanunoo | 32 | 23 | Hanunoo (21 Zeichen), Gewöhnlich (2 Zeichen) |
0 BMP | U+1740..U+175F | Buhid | 32 | 20 | Buhid |
0 BMP | U+1760..U+177F | Tagbanwa | 32 | 18 | Tagbanwa |
0 BMP | U+1780..U+17FF | Khmer | 128 | 114 | Khmer |
0 BMP | U+1800..U+18AF | mongolisch | 176 | 158 | Mongolisch (155 Zeichen), Gewöhnlich (3 Zeichen) |
0 BMP | U+18B0..U+18FF | Einheitliche Kanadische Ureinwohner-Syllabics Extended | 80 | 70 | Kanadische Aborigines |
0 BMP | U+1900..U+194F | Limbu | 80 | 68 | Limbu |
0 BMP | U+1950..U+197F | Tai Le | 48 | 35 | Tai Le |
0 BMP | U+1980..U+19DF | Neues Tai Lue | 96 | 83 | Neues Tai Lue |
0 BMP | U+19E0..U+19FF | Khmer-Symbole | 32 | 32 | Khmer |
0 BMP | U+1A00..U+1A1F | Buginesisch | 32 | 30 | Buginesisch |
0 BMP | U+1A20..U+1AAF | Tai Tham | 144 | 127 | Tai Tham |
0 BMP | U+1AB0..U+1AFF | Kombinieren von diakritischen Zeichen erweitert | 80 | 31 | Vererbt |
0 BMP | U+1B00..U+1B7F | Balinesisch | 128 | 124 | Balinesisch |
0 BMP | U+1B80..U+1BBF | Sundanesisch | 64 | 64 | Sundanesisch |
0 BMP | U+1BC0..U+1BFF | Batak | 64 | 56 | Batak |
0 BMP | U+1C00..U+1C4F | Lepcha | 80 | 74 | Lepcha |
0 BMP | U+1C50..U+1C7F | Ol Chiki | 48 | 48 | Ol Chiki |
0 BMP | U+1C80..U+1C8F | Kyrillisches erweitertes C | 16 | 9 | kyrillisch |
0 BMP | U+1C90..U+1CBF | Georgisch Erweitert | 48 | 46 | georgisch |
0 BMP | U+1CC0..U+1CCF | Sundanesische Ergänzung | 16 | 8 | Sundanesisch |
0 BMP | U+1CD0..U+1CFF | Vedische Erweiterungen | 48 | 43 | Allgemein (16 Zeichen), Vererbt (27 Zeichen) |
0 BMP | U+1D00..U+1D7F | Phonetische Erweiterungen | 128 | 128 | Kyrillisch (2 Zeichen), Griechisch (15 Zeichen), Latein (111 Zeichen) |
0 BMP | U+1D80..U+1DBF | Ergänzung für phonetische Durchwahlen | 64 | 64 | Griechisch (1 Zeichen), Latein (63 Zeichen) |
0 BMP | U+1DC0..U+1DFF | Ergänzung zum Kombinieren von diakritischen Zeichen | 64 | 64 | Vererbt |
0 BMP | U+1E00..U+1EFF | Lateinisch erweitertes Zusatz | 256 | 256 | Latein |
0 BMP | U+1F00..U+1FFF | Griechisch erweitert | 256 | 233 | griechisch |
0 BMP | U+2000..U+206F | Allgemeine Interpunktion | 112 | 111 | Allgemein (109 Zeichen), Vererbt (2 Zeichen) |
0 BMP | U+2070..U+209F | Hoch- und Tiefstellungen | 48 | 42 | Latein (15 Zeichen), Allgemein (27 Zeichen) |
0 BMP | U+20A0..U+20CF | Währungssymbole | 48 | 33 | Verbreitet |
0 BMP | U+20D0..U+20FF | Kombinieren von diakritischen Zeichen für Symbole | 48 | 33 | Vererbt |
0 BMP | U+2100..U+214F | Buchstabenähnliche Symbole | 80 | 80 | Griechisch (1 Zeichen), Latein (4 Zeichen), Allgemein (75 Zeichen) |
0 BMP | U+2150..U+218F | Zahlenformulare | 64 | 60 | Latein (41 Zeichen), Allgemein (19 Zeichen) |
0 BMP | U+2190..U+21FF | Pfeile | 112 | 112 | Verbreitet |
0 BMP | U+2200..U+22FF | Mathematische Operatoren | 256 | 256 | Verbreitet |
0 BMP | U+2300..U+23FF | Sonstiges Technisches | 256 | 256 | Verbreitet |
0 BMP | U+2400..U+243F | Bilder steuern | 64 | 39 | Verbreitet |
0 BMP | U+2440..U+245F | Optische Zeichenerkennung | 32 | 11 | Verbreitet |
0 BMP | U+2460..U+24FF | Beiliegende alphanumerische Zeichen | 160 | 160 | Verbreitet |
0 BMP | U+2500..U+257F | Schachtelzeichnung | 128 | 128 | Verbreitet |
0 BMP | U+2580..U+259F | Blockelemente | 32 | 32 | Verbreitet |
0 BMP | U+25A0..U+25FF | Geometrische Formen | 96 | 96 | Verbreitet |
0 BMP | U+2600..U+26FF | Verschiedene Symbole | 256 | 256 | Verbreitet |
0 BMP | U+2700..U+27BF | Dingbats | 192 | 192 | Verbreitet |
0 BMP | U+27C0..U+27EF | Verschiedene mathematische Symbole-A | 48 | 48 | Verbreitet |
0 BMP | U+27F0..U+27FF | Zusätzliche Pfeile-A | 16 | 16 | Verbreitet |
0 BMP | U+2800..U+28FF | Braille-Muster | 256 | 256 | Blindenschrift |
0 BMP | U+2900..U+297F | Zusätzliche Pfeile-B | 128 | 128 | Verbreitet |
0 BMP | U+2980..U+29FF | Verschiedene mathematische Symbole-B | 128 | 128 | Verbreitet |
0 BMP | U+2A00..U+2AFF | Ergänzende mathematische Operatoren | 256 | 256 | Verbreitet |
0 BMP | U+2B00..U+2BFF | Verschiedene Symbole und Pfeile | 256 | 253 | Verbreitet |
0 BMP | U+2C00..U+2C5F | glagolitisch | 96 | 96 | glagolitisch |
0 BMP | U+2C60..U+2C7F | Lateinisches Extended-C | 32 | 32 | Latein |
0 BMP | U+2C80..U+2CFF | koptisch | 128 | 123 | koptisch |
0 BMP | U+2D00..U+2D2F | Georgische Ergänzung | 48 | 40 | georgisch |
0 BMP | U+2D30..U+2D7F | Tifinagh | 80 | 59 | Tifinagh |
0 BMP | U+2D80..U+2DDF | Äthiopisch erweitert | 96 | 79 | Äthiopisch |
0 BMP | U+2DE0..U+2DFF | Kyrillisches erweitertes A | 32 | 32 | kyrillisch |
0 BMP | U+2E00..U+2E7F | Ergänzende Satzzeichen | 128 | 94 | Verbreitet |
0 BMP | U+2E80..U+2EFF | CJK-Radikale-Ergänzung | 128 | 115 | Han |
0 BMP | U+2F00..U+2FDF | Kangxi-Radikale | 224 | 214 | Han |
0 BMP | U+2FF0..U+2FFF | Ideografische Beschreibungszeichen | 16 | 12 | Verbreitet |
0 BMP | U+3000..U+303F | CJK-Symbole und Satzzeichen | 64 | 64 | Han (15 Zeichen), Hangul (2 Zeichen), Gewöhnlich (43 Zeichen), Vererbt (4 Zeichen) |
0 BMP | U+3040..U+309F | Hiragana | 96 | 93 | Hiragana (89 Zeichen), Gewöhnlich (2 Zeichen), Vererbt (2 Zeichen) |
0 BMP | U+30A0..U+30FF | Katakana | 96 | 96 | Katakana (93 Zeichen), Allgemein (3 Zeichen) |
0 BMP | U+3100..U+312F | Bopomofo | 48 | 43 | Bopomofo |
0 BMP | U+3130..U+318F | Hangul-Kompatibilität Jamo | 96 | 94 | Hangul |
0 BMP | U+3190..U+319F | Kanbun | 16 | 16 | Verbreitet |
0 BMP | U+31A0..U+31BF | Bopomofo erweitert | 32 | 32 | Bopomofo |
0 BMP | U+31C0..U+31EF | CJK-Anschläge | 48 | 36 | Verbreitet |
0 BMP | U+31F0..U+31FF | Katakana Phonetische Erweiterungen | 16 | 16 | Katakana |
0 BMP | U+3200..U+32FF | Beiliegende CJK-Briefe und Monate | 256 | 255 | Hangul (62 Zeichen), Katakana (47 Zeichen), Common (146 Zeichen) |
0 BMP | U+3300..U+33FF | CJK-Kompatibilität | 256 | 256 | Katakana (88 Zeichen), Allgemein (168 Zeichen) |
0 BMP | U+3400..U+4DBF | CJK Unified Ideographs Erweiterung A | 6.592 | 6.592 | Han |
0 BMP | U+4DC0..U+4DFF | Yijing-Hexagramm-Symbole | 64 | 64 | Verbreitet |
0 BMP | U+4E00..U+9FFF | CJK Einheitliche Ideogramme | 20.992 | 20.992 | Han |
0 BMP | U+A000..U+A48F | Yi-Silben | 1.168 | 1.165 | Ja |
0 BMP | U+A490..U+A4CF | Yi-Radikale | 64 | 55 | Ja |
0 BMP | U+A4D0..U+A4FF | Lisu | 48 | 48 | Lisu |
0 BMP | U+A500..U+A63F | Vai | 320 | 300 | Vai |
0 BMP | U+A640..U+A69F | Kyrillisch Extended-B | 96 | 96 | kyrillisch |
0 BMP | U+A6A0..U+A6FF | Bamum | 96 | 88 | Bamum |
0 BMP | U+A700..U+A71F | Modifikatorton-Buchstaben | 32 | 32 | Verbreitet |
0 BMP | U+A720..U+A7FF | Lateinisches Extended-D | 224 | 193 | Latein (188 Zeichen), Allgemein (5 Zeichen) |
0 BMP | U+A800..U+A82F | Syloti Nagri | 48 | 45 | Syloti Nagri |
0 BMP | U+A830..U+A83F | Gemeinsame Indizes-Zahlen-Formen | 16 | 10 | Verbreitet |
0 BMP | U+A840..U+A87F | Phags-pa | 64 | 56 | Phags Pa |
0 BMP | U+A880..U+A8DF | Saurashtra | 96 | 82 | Saurashtra |
0 BMP | U+A8E0..U+A8FF | Devanagari erweitert | 32 | 32 | Devanagari |
0 BMP | U+A900..U+A92F | Kayah Li | 48 | 48 | Kayah Li (47 Zeichen), Gewöhnlich (1 Zeichen) |
0 BMP | U+A930..U+A95F | Rejang | 48 | 37 | Rejang |
0 BMP | U+A960..U+A97F | Hangul Jamo Extended-A | 32 | 29 | Hangul |
0 BMP | U+A980..U+A9DF | Javanisch | 96 | 91 | Javanisch (90 Zeichen), Allgemein (1 Zeichen) |
0 BMP | U+A9E0..U+A9FF | Myanmar Extended-B | 32 | 31 | Myanmar |
0 BMP | U+AA00..U+AA5F | Cham | 96 | 83 | Cham |
0 BMP | U+AA60..U+AA7F | Myanmar Extended-A | 32 | 32 | Myanmar |
0 BMP | U+AA80..U+AADF | Tai Viet | 96 | 72 | Tai Viet |
0 BMP | U+AAE0..U+AAFF | Meetei Mayek-Erweiterungen | 32 | 23 | Meetei Mayek |
0 BMP | U+AB00..U+AB2F | Äthiopisches Extended-A | 48 | 32 | Äthiopisch |
0 BMP | U+AB30..U+AB6F | Lateinisches Extended-E | 64 | 60 | Latein (56 Zeichen), Griechisch (1 Zeichen), Allgemein (3 Zeichen) |
0 BMP | U+AB70..U+ABBF | Cherokee-Ergänzung | 80 | 80 | Cherokee |
0 BMP | U+ABC0..U+ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek |
0 BMP | U+AC00..U+D7AF | Hangul-Silben | 11.184 | 11.172 | Hangul |
0 BMP | U+D7B0..U+D7FF | Hangul Jamo Extended-B | 80 | 72 | Hangul |
0 BMP | U+D800..U+DB7F | Hohe Stellvertreter | 896 | 0 | Unbekannt |
0 BMP | U+DB80..U+DBFF | Surrogate für den hohen privaten Gebrauch | 128 | 0 | Unbekannt |
0 BMP | U+DC00..U+DFFF | Niedrige Leihmütter | 1.024 | 0 | Unbekannt |
0 BMP | U+E000..U+F8FF | Privatnutzungsbereich | 6.400 | 6.400 | Unbekannt |
0 BMP | U+F900..U+FAFF | CJK-Kompatibilitäts-Ideogramme | 512 | 472 | Han |
0 BMP | U+FB00..U+FB4F | Alphabetische Präsentationsformulare | 80 | 58 | Armenisch (5 Zeichen), Hebräisch (46 Zeichen), Latein (7 Zeichen) |
0 BMP | U+FB50..U+FDFF | Arabische Präsentationsformen-A | 688 | 631 | Arabisch (629 Zeichen), Allgemein (2 Zeichen) |
0 BMP | U+FE00..U+FE0F | Variantenauswahl | 16 | 16 | Vererbt |
0 BMP | U+FE10..U+FE1F | Vertikale Formulare | 16 | 10 | Verbreitet |
0 BMP | U+FE20..U+FE2F | Kombinieren von Halbmarken | 16 | 16 | Kyrillisch (2 Zeichen), Vererbt (14 Zeichen) |
0 BMP | U+FE30..U+FE4F | CJK-Kompatibilitätsformulare | 32 | 32 | Verbreitet |
0 BMP | U+FE50..U+FE6F | Kleine Formvarianten | 32 | 26 | Verbreitet |
0 BMP | U+FE70..U+FEFF | Arabische Präsentationsformen-B | 144 | 141 | Arabisch (140 Zeichen), Allgemein (1 Zeichen) |
0 BMP | U+FF00..U+FFEF | Formulare mit halber und voller Breite | 240 | 225 | Hangul (52 Zeichen), Katakana (55 Zeichen), Latein (52 Zeichen), Allgemein (66 Zeichen) |
0 BMP | U+FFF0..U+FFFF | Sonderangebote | 16 | 5 | Verbreitet |
1 SMP | U+10000..U+1007F | Lineares B Syllabary | 128 | 88 | Linear B |
1 SMP | U+10080..U+100FF | Lineare B-Ideogramme | 128 | 123 | Linear B |
1 SMP | U+10100..U+1013F | Ägäische Zahlen | 64 | 57 | Verbreitet |
1 SMP | U+10140..U+1018F | Antike griechische Zahlen | 80 | 79 | griechisch |
1 SMP | U+10190..U+101CF | Antike Symbole | 64 | 14 | Griechisch (1 Zeichen), Allgemein (13 Zeichen) |
1 SMP | U+101D0..U+101FF | Phaistos-Scheibe | 48 | 46 | Allgemein (45 Zeichen), Vererbt (1 Zeichen) |
1 SMP | U+10280..U+1029F | Lykisch | 32 | 29 | Lykisch |
1 SMP | U+102A0..U+102DF | Karier | 64 | 49 | Karier |
1 SMP | U+102E0..U+102FF | Koptische Epakt-Zahlen | 32 | 28 | Allgemein (27 Zeichen), Vererbt (1 Zeichen) |
1 SMP | U+10300..U+1032F | Alte Kursivschrift | 48 | 39 | Alte Kursivschrift |
1 SMP | U+10330..U+1034F | gotisch | 32 | 27 | gotisch |
1 SMP | U+10350..U+1037F | Alte Permik | 48 | 43 | Alte Permik |
1 SMP | U+10380..U+1039F | Ugaritisch | 32 | 31 | Ugaritisch |
1 SMP | U+103A0..U+103DF | Altpersisch | 64 | 50 | Altpersisch |
1 SMP | U+10400..U+1044F | Wüste | 80 | 80 | Wüste |
1 SMP | U+10450..U+1047F | Shavian | 48 | 48 | Shavian |
1 SMP | U+10480..U+104AF | Osmanya | 48 | 40 | Osmanya |
1 SMP | U+104B0..U+104FF | Osage | 80 | 72 | Osage |
1 SMP | U+10500..U+1052F | Elbasan | 48 | 40 | Elbasan |
1 SMP | U+10530..U+1056F | Kaukasischer Albaner | 64 | 53 | Kaukasischer Albaner |
1 SMP | U+10570..U+105BF | Vithkuqi | 80 | 70 | Vithkuqi |
1 SMP | U+10600..U+1077F | Linear A | 384 | 341 | Linear A |
1 SMP | U+10780..U+107BF | Lateinisches Extended-F | 64 | 57 | Latein |
1 SMP | U+10800..U+1083F | Zypriotisches Syllabary | 64 | 55 | Zypriotisch |
1 SMP | U+10840..U+1085F | Kaiserliches Aramäisch | 32 | 31 | Kaiserliches Aramäisch |
1 SMP | U+10860..U+1087F | Palmyren | 32 | 32 | Palmyren |
1 SMP | U+10880..U+108AF | Nabatäer | 48 | 40 | Nabatäer |
1 SMP | U+108E0..U+108FF | Hatran | 32 | 26 | Hatran |
1 SMP | U+10900..U+1091F | phönizisch | 32 | 29 | phönizisch |
1 SMP | U+10920..U+1093F | Lydian | 32 | 27 | Lydian |
1 SMP | U+10980..U+1099F | Meroitische Hieroglyphen | 32 | 32 | Meroitische Hieroglyphen |
1 SMP | U+109A0..U+109FF | Meroitische Kursive | 96 | 90 | Meroitische Kursive |
1 SMP | U+10A00..U+10A5F | Kharoshthi | 96 | 68 | Kharoshthi |
1 SMP | U+10A60..U+10A7F | Alt-Südarabisch | 32 | 32 | Alt-Südarabisch |
1 SMP | U+10A80..U+10A9F | Alt-Nordarabien | 32 | 32 | Alt-Nordarabien |
1 SMP | U+10AC0..U+10AFF | Manichäer | 64 | 51 | Manichäer |
1 SMP | U+10B00..U+10B3F | Avestan | 64 | 61 | Avestan |
1 SMP | U+10B40..U+10B5F | Inschriftlicher Parther | 32 | 30 | Inschriftlicher Parther |
1 SMP | U+10B60..U+10B7F | Inschriftliches Pahlavi | 32 | 27 | Inschriftliches Pahlavi |
1 SMP | U+10B80..U+10BAF | Psalter Pahlavi | 48 | 29 | Psalter Pahlavi |
1 SMP | U+10C00..U+10C4F | Alttürkisch | 80 | 73 | Alttürkisch |
1 SMP | U+10C80..U+10CFF | Alt-Ungarisch | 128 | 108 | Alt-Ungarisch |
1 SMP | U+10D00..U+10D3F | Hanifi Rohingya | 64 | 50 | Hanifi Rohingya |
1 SMP | U+10E60..U+10E7F | Rumi Zahlensymbole | 32 | 31 | Arabisch |
1 SMP | U+10E80..U+10EBF | Yeziden | 64 | 47 | Yeziden |
1 SMP | U+10F00..U+10F2F | Alte Sogdian | 48 | 40 | Alte Sogdian |
1 SMP | U+10F30..U+10F6F | Sogdian | 64 | 42 | Sogdian |
1 SMP | U+10F70..U+10FAF | Alte Uiguren | 64 | 26 | Alte Uiguren |
1 SMP | U+10FB0..U+10FDF | Chorasmian | 48 | 28 | Chorasmian |
1 SMP | U+10FE0..U+10FFF | Elymaisch | 32 | 23 | Elymaisch |
1 SMP | U+11000..U+1107F | Brahmi | 128 | 115 | Brahmi |
1 SMP | U+11080..U+110CF | Kaithi | 80 | 68 | Kaithi |
1 SMP | U+110D0..U+110FF | Sora Sompeng | 48 | 35 | Sora Sompeng |
1 SMP | U+11100..U+1114F | Chakma | 80 | 71 | Chakma |
1 SMP | U+11150..U+1117F | Mahajani | 48 | 39 | Mahajani |
1 SMP | U+11180..U+111DF | Sharada | 96 | 96 | Sharada |
1 SMP | U+111E0..U+111FF | Singhalesische archaische Zahlen | 32 | 20 | singhalesisch |
1 SMP | U+11200..U+1124F | Khojki | 80 | 62 | Khojki |
1 SMP | U+11280..U+112AF | Multani | 48 | 38 | Multani |
1 SMP | U+112B0..U+112FF | Khudawadi | 80 | 69 | Khudawadi |
1 SMP | U+11300..U+1137F | Grantha | 128 | 86 | Grantha (85 Zeichen), geerbt (1 Zeichen) |
1 SMP | U+11400..U+1147F | Newa | 128 | 97 | Newa |
1 SMP | U+11480..U+114DF | Tirhuta | 96 | 82 | Tirhuta |
1 SMP | U+11580..U+115FF | Siddham | 128 | 92 | Siddham |
1 SMP | U+11600..U+1165F | Modi | 96 | 79 | Modi |
1 SMP | U+11660..U+1167F | Mongolische Ergänzung | 32 | 13 | mongolisch |
1 SMP | U+11680..U+116CF | Takri | 80 | 68 | Takri |
1 SMP | U+11700..U+1174F | Ahom | 80 | 65 | Ahom |
1 SMP | U+11800..U+1184F | Dogra | 80 | 60 | Dogra |
1 SMP | U+118A0..U+118FF | Warang Citi | 96 | 84 | Warang Citi |
1 SMP | U+11900..U+1195F | Tauchgänge Akuru | 96 | 72 | Tauchgänge Akuru |
1 SMP | U+119A0..U+119FF | Nandinagari | 96 | 65 | Nandinagari |
1 SMP | U+11A00..U+11A4F | Zanabazar-Platz | 80 | 72 | Zanabazar-Platz |
1 SMP | U+11A50..U+11AAF | Soyombo | 96 | 83 | Soyombo |
1 SMP | U+11AB0..U+11ABF | Unified Canadian Aboriginal Syllabics Extended-A | 16 | 16 | Kanadische Aborigines |
1 SMP | U+11AC0..U+11AFF | Pau Cin Hau | 64 | 57 | Pau Cin Hau |
1 SMP | U+11C00..U+11C6F | Bhaiksuki | 112 | 97 | Bhaiksuki |
1 SMP | U+11C70..U+11CBF | Marken | 80 | 68 | Marken |
1 SMP | U+11D00..U+11D5F | Masaram Gondi | 96 | 75 | Masaram Gondi |
1 SMP | U+11D60..U+11DAF | Gunjala Gondi | 80 | 63 | Gunjala Gondi |
1 SMP | U+11EE0..U+11EFF | Makasar | 32 | 25 | Makasar |
1 SMP | U+11FB0..U+11FBF | Lisu-Ergänzung | 16 | 1 | Lisu |
1 SMP | U+11FC0..U+11FFF | Tamilische Ergänzung | 64 | 51 | Tamil |
1 SMP | U+12000..U+123FF | Keilschrift | 1.024 | 922 | Keilschrift |
1 SMP | U+12400..U+1247F | Keilschrift und Satzzeichen | 128 | 116 | Keilschrift |
1 SMP | U+12480..U+1254F | Frühdynastische Keilschrift | 208 | 196 | Keilschrift |
1 SMP | U+12F90..U+12FFF | Zypern-Minoan | 112 | 99 | Zypernminoisch |
1 SMP | U+13000..U+1342F | Ägyptische Hieroglyphen | 1.072 | 1.071 | Ägyptische Hieroglyphen |
1 SMP | U+13430..U+1343F | Steuerelemente für das ägyptische Hieroglyphenformat | 16 | 9 | Ägyptische Hieroglyphen |
1 SMP | U+14400..U+1467F | Anatolische Hieroglyphen | 640 | 583 | Anatolische Hieroglyphen |
1 SMP | U+16800..U+16A3F | Bambus-Ergänzung | 576 | 569 | Bamum |
1 SMP | U+16A40..U+16A6F | Mehr | 48 | 43 | Mehr |
1 SMP | U+16A70..U+16ACF | Tangsa | 96 | 89 | Tangsa |
1 SMP | U+16AD0..U+16AFF | Bassa Vah | 48 | 36 | Bassa Vah |
1 SMP | U+16B00..U+16B8F | Pahawh Hmong | 144 | 127 | Pahawh Hmong |
1 SMP | U+16E40..U+16E9F | Medefaidrin | 96 | 91 | Medefaidrin |
1 SMP | U+16F00..U+16F9F | Miao | 160 | 149 | Miao |
1 SMP | U+16FE0..U+16FFF | Ideografische Symbole und Satzzeichen | 32 | 7 | Han (4 Charaktere), Khitan Small Script (1 Charakter), Nushu (1 Charakter), Tangut (1 Charakter) |
1 SMP | U+17000..U+187FF | Tangut | 6.144 | 6.136 | Tangut |
1 SMP | U+18800..U+18AFF | Tangut-Komponenten | 768 | 768 | Tangut |
1 SMP | U+18B00..U+18CFF | Khitan Kleines Skript | 512 | 470 | Khitan Kleines Skript |
1 SMP | U+18D00..U+18D7F | Tangut-Ergänzung | 128 | 9 | Tangut |
1 SMP | U+1AFF0..U+1AFFF | Kana Extended-B | 16 | 13 | Katakana |
1 SMP | U+1B000..U+1B0FF | Kana-Ergänzung | 256 | 256 | Hiragana (255 Zeichen), Katakana (1 Zeichen) |
1 SMP | U+1B100..U+1B12F | Kana Extended-A | 48 | 35 | Hiragana (32 Zeichen), Katakana (3 Zeichen) |
1 SMP | U+1B130..U+1B16F | Kleine Kana-Erweiterung | 64 | 7 | Hiragana (3 Zeichen), Katakana (4 Zeichen) |
1 SMP | U+1B170..U+1B2FF | Nushu | 400 | 396 | Nüshu |
1 SMP | U+1BC00..U+1BC9F | Duployan | 160 | 143 | Duployan |
1 SMP | U+1BCA0..U+1BCAF | Steuerelemente für das Kürzelformat | 16 | 4 | Verbreitet |
1 SMP | U+1CF00..U+1CFCF | Znamenny Musiknotation | 208 | 185 | Allgemein (116 Zeichen), Vererbt (69 Zeichen) |
1 SMP | U+1D000..U+1D0FF | Byzantinische Musiksymbole | 256 | 246 | Verbreitet |
1 SMP | U+1D100..U+1D1FF | Musikalische Symbole | 256 | 233 | Allgemein (211 Zeichen), Vererbt (22 Zeichen) |
1 SMP | U+1D200..U+1D24F | Altgriechische Musiknotation | 80 | 70 | griechisch |
1 SMP | U+1D2E0..U+1D2FF | Maya-Zahlen | 32 | 20 | Verbreitet |
1 SMP | U+1D300..U+1D35F | Tai-Xuan-Jing-Symbole | 96 | 87 | Verbreitet |
1 SMP | U+1D360..U+1D37F | Zählstab-Ziffern | 32 | 25 | Verbreitet |
1 SMP | U+1D400..U+1D7FF | Mathematische alphanumerische Symbole | 1.024 | 996 | Verbreitet |
1 SMP | U+1D800..U+1DAAF | Sutton SignWriting | 688 | 672 | Gebärdenschreiben |
1 SMP | U+1DF00..U+1DFFF | Lateinisches Extended-G | 256 | 31 | Latein |
1 SMP | U+1E000..U+1E02F | Glagolitische Ergänzung | 48 | 38 | glagolitisch |
1 SMP | U+1E100..U+1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong |
1 SMP | U+1E290..U+1E2BF | Toto | 48 | 31 | Toto |
1 SMP | U+1E2C0..U+1E2FF | Wancho | 64 | 59 | Wancho |
1 SMP | U+1E7E0..U+1E7FF | Äthiopisches erweitertes B | 32 | 28 | Äthiopisch |
1 SMP | U+1E800..U+1E8DF | Mende Kikakui | 224 | 213 | Mende Kikakui |
1 SMP | U+1E900..U+1E95F | Adlam | 96 | 88 | Adlam |
1 SMP | U+1EC70..U+1ECBF | Indische Siyaq-Zahlen | 80 | 68 | Verbreitet |
1 SMP | U+1ED00..U+1ED4F | Osmanische Siyaq-Zahlen | 80 | 61 | Verbreitet |
1 SMP | U+1EE00..U+1EEFF | Arabische mathematische alphabetische Symbole | 256 | 143 | Arabisch |
1 SMP | U+1F000..U+1F02F | Mahjong-Fliesen | 48 | 44 | Verbreitet |
1 SMP | U+1F030..U+1F09F | Domino-Fliesen | 112 | 100 | Verbreitet |
1 SMP | U+1F0A0..U+1F0FF | Kartenspielen | 96 | 82 | Verbreitet |
1 SMP | U+1F100..U+1F1FF | Beiliegende alphanumerische Ergänzung | 256 | 200 | Verbreitet |
1 SMP | U+1F200..U+1F2FF | Beiliegende ideografische Ergänzung | 256 | 64 | Hiragana (1 Zeichen), Gewöhnlich (63 Zeichen) |
1 SMP | U+1F300..U+1F5FF | Verschiedene Symbole und Piktogramme | 768 | 768 | Verbreitet |
1 SMP | U+1F600..U+1F64F | Emoticons | 80 | 80 | Verbreitet |
1 SMP | U+1F650..U+1F67F | Zier-Dingbats | 48 | 48 | Verbreitet |
1 SMP | U+1F680..U+1F6FF | Verkehrs- und Kartensymbole | 128 | 117 | Verbreitet |
1 SMP | U+1F700..U+1F77F | Alchemistische Symbole | 128 | 116 | Verbreitet |
1 SMP | U+1F780..U+1F7FF | Geometrische Formen erweitert | 128 | 102 | Verbreitet |
1 SMP | U+1F800..U+1F8FF | Zusätzliche Pfeile-C | 256 | 150 | Verbreitet |
1 SMP | U+1F900..U+1F9FF | Ergänzende Symbole und Piktogramme | 256 | 256 | Verbreitet |
1 SMP | U+1FA00..U+1FA6F | Schachsymbole | 112 | 98 | Verbreitet |
1 SMP | U+1FA70..U+1FAFF | Symbole und Piktogramme Extended-A | 144 | 88 | Verbreitet |
1 SMP | U+1FB00..U+1FBFF | Symbole für Legacy-Computing | 256 | 212 | Verbreitet |
2 SIP | U+20000..U+2A6DF | CJK Unified Ideographs Extension B | 42.720 | 42.720 | Han |
2 SIP | U+2A700..U+2B73F | CJK Unified Ideographs Erweiterung C | 4.160 | 4.153 | Han |
2 SIP | U+2B740..U+2B81F | CJK Unified Ideographs Erweiterung D | 224 | 222 | Han |
2 SIP | U+2B820..U+2CEAF | CJK Unified Ideographs Extension E | 5.776 | 5.762 | Han |
2 SIP | U+2CEB0..U+2EBEF | CJK Unified Ideographs Extension F | 7.488 | 7.473 | Han |
2 SIP | U+2F800..U+2FA1F | Ergänzung zu CJK-Kompatibilitäts-Ideogrammen | 544 | 542 | Han |
3 TIPP | U+30000..U+3134F | CJK Unified Ideographs Erweiterung G | 4.944 | 4.939 | Han |
14 SSP | U+E0000..U+E007F | Stichworte | 128 | 97 | Verbreitet |
14 SSP | U+E0100..U+E01EF | Ergänzung zur Variationsauswahl | 240 | 240 | Vererbt |
15 PUA-A | U+F0000..U+FFFFF | Zusätzlicher privater Nutzungsbereich-A | 65.536 | 65.534 | Unbekannt |
16 PUA-B | U+100000..U+10FFFF | Zusätzlicher privater Nutzungsbereich-B | 65.536 | 65.534 | Unbekannt |
Skript
Jedes zugewiesene Zeichen kann einen einzelnen Wert für seine "Skript"-Eigenschaft haben, der anzeigt, zu welchem Skript es gehört. Der Wert ist ein vierbuchstabiger Code im Bereich Aaaa-Zzzz, wie in ISO 15924 verfügbar, der auf ein Schriftsystem abgebildet wird . Abgesehen von der Beschreibung des Hintergrunds und der Verwendung eines Skripts verwendet Unicode keine Verbindung zwischen einem Skript und Sprachen , die dieses Skript verwenden. „Hebräisch“ bezieht sich also auf die hebräische Schrift, nicht auf die hebräische Sprache.
Der spezielle Code Zyyy für "Common" erlaubt einen einzelnen Wert für ein Zeichen, das in mehreren Skripten verwendet wird. Der Code Zinh "Inherited script", der zum Kombinieren von Zeichen und bestimmten anderen Codepunkten für spezielle Zwecke verwendet wird, zeigt an, dass ein Zeichen seine Skriptidentität von dem Zeichen "erbt", mit dem es kombiniert wird. (Unicode hat dazu früher den privaten Code Qaai verwendet.) Der Code Zzzz "Unbekannt" wird für alle Zeichen verwendet, die nicht zu einem Skript gehören (also den Standardwert), wie z. B. Symbole und Formatierungszeichen. Insgesamt können Zeichen einer einzelnen Schrift über mehrere Blöcke verstreut sein, wie etwa lateinische Zeichen . Und auch umgekehrt: Mehrere Schriften können in einem einzigen Block vorhanden sein, zB Block Letterlike Symbols enthält Zeichen aus den lateinischen, griechischen und gebräuchlichen Schriften.
Wenn das Skript "" (leer) ist, gehört das Zeichen laut Unicode nicht zu einem Skript. Dies betrifft Symbole, da die bestehenden ISO-Skriptcodes "Zmth" (Mathematische Notation), "Zsym" (Symbol) und "Zsye" (Symbol, Emoji-Variante) in Unicode nicht verwendet werden. Die Eigenschaft "Script" ist auch für Codepunkte leer, die keine typografischen Zeichen sind, wie Steuerelemente, Ersatzzeichen und Codepunkte für den privaten Gebrauch.
Wenn in ISO 15924 ein bestimmter Skript-Aliasname vorhanden ist, wird dieser im Zeichennamen verwendet: U+0041 A LATIN CAPITAL LETTER A und U+05D0 א HEBREW LETTER ALEF .
ISO 15924 | Skript in Unicode | ||||||
---|---|---|---|---|---|---|---|
Code | Formaler ISO-Name | Direktionalität | Unicode-Alias | Ausführung | Zeichen | Anmerkungen | Beschreibung |
| |||||||
Adlm | Adlam | Rechts-nach-links-Skript | Adlam | 9,0 | 88 | Kanal 19.9 | |
Afak | Afaka | variiert | — Nicht in Unicode, Vorschlag wird untersucht | ||||
Aghb | Kaukasischer Albaner | links nach rechts | Kaukasischer Albaner | 7,0 | 53 | Antike/historische | Ch 8.11 |
Ahom | Ahom, Tai Ahom | links nach rechts | Ahom | 8.0 | 65 | Antike/historische | Kanal 15.15 |
Arabisch | Arabisch | Rechts-nach-links-Skript | Arabisch | 1.0 | 1.365 | Ch 9.2 | |
Arana | Arabisch (Nastaliq-Variante) | gemischt | § Arab ) | — Typografische Variante des Arabischen (||||
Armi | Kaiserliches Aramäisch | Rechts-nach-links-Skript | Kaiserliches Aramäisch | 5.2 | 31 | Antike/historische | Kanal 10.4 |
Armn | Armenisch | links nach rechts | Armenisch | 1.0 | 96 | Ch 7,6 | |
Avst | Avestan | Rechts-nach-links-Skript | Avestan | 5.2 | 61 | Antike/historische | Kanal 10.7 |
Bali | Balinesisch | links nach rechts | Balinesisch | 5.0 | 124 | Kanal 17,3 | |
Bamu | Bamum | links nach rechts | Bamum | 5.2 | 657 | Kanal 19,6 | |
Bass | Bassa Vah | links nach rechts | Bassa Vah | 7,0 | 36 | Antike/historische | Kanal 19.7 |
Batk | Batak | links nach rechts | Batak | 6.0 | 56 | Kanal 17,6 | |
Beng | Bengalisch (Bangla) | links nach rechts | Bengali | 1.0 | 96 | Kanal 12.2 | |
Bhks | Bhaiksuki | links nach rechts | Bhaiksuki | 9,0 | 97 | Antike/historische | Kanal 14,3 |
Glückseligkeit | Glückssymbole | variiert | — Nicht in Unicode, Vorschlag wird untersucht | ||||
Bopo | Bopomofo | links nach rechts | Bopomofo | 1.0 | 77 | Kanal 18.3 | |
Brah | Brahmi | links nach rechts | Brahmi | 6.0 | 115 | Antike/historische | Kanal 14,1 |
Brai | Blindenschrift | links nach rechts | Blindenschrift | 3.0 | 256 | Kanal 21,1 | |
Bugi | Buginesisch | links nach rechts | Buginesisch | 4.1 | 30 | Kanal 17.2 | |
Buhd | Buhid | links nach rechts | Buhid | 3.2 | 20 | Kanal 17.1 | |
km | Chakma | links nach rechts | Chakma | 6.1 | 71 | Kanal 13.11 | |
Büchsen | Einheitliche Kanadische Ureinwohner-Syllabics | links nach rechts | Kanadische Aborigines | 3.0 | 726 | Ch 20.2 | |
Cari | Karier | Skript von links nach rechts, von rechts nach links | Karier | 5.1 | 49 | Antike/historische | Ch 8.5 |
Cham | Cham | links nach rechts | Cham | 5.1 | 83 | Ch 16.10 | |
Cher | Cherokee | links nach rechts | Cherokee | 3.0 | 172 | Ch 20.1 | |
Chr | Chorasmian | Skript von rechts nach links , von oben nach unten | Chorasmian | 13,0 | 28 | Antike/historische | Kanal 10.8 |
Zirt | Cirth | variiert | — Nicht in Unicode | ||||
Kopte | koptisch | links nach rechts | koptisch | 1.0 | 137 | Alt/historisch, in 4.1 vom Griechischen getrennt | Kanal 7,3 |
Cpmn | Zypern-Minoan | links nach rechts | Zypernminoisch | 14,0 | 99 | Antike/historische | Kanal 8,4 |
Cprt | Zypriotische Silbenschrift | Rechts-nach-links-Skript | Zypriotisch | 4.0 | 55 | Antike/historische | Ch 8.3 |
Cyrl | kyrillisch | links nach rechts | kyrillisch | 1.0 | 443 | Enthält typografische Variante Altkirchenslawisch ( § Cyrs) | Kanal 7,4 |
Cyrs | Kyrillisch (altkirchenslawische Variante) | variiert | § Cyrl ) | — Typografische Variante des Kyrillischen (Antike/historische | |||
Deva | Devanagari (Nagari) | links nach rechts | Devanagari | 1.0 | 154 | Kanal 12.1 | |
Diak | Tauchgänge Akuru | links nach rechts | Tauchgänge Akuru | 13,0 | 72 | Antike/historische | Ch 15.14 |
Dogr | Dogra | links nach rechts | Dogra | 11,0 | 60 | Antike/historische | Ch 15.17 |
Dsrt | Wüste (Mormone) | links nach rechts | Wüste | 3.1 | 80 | Kanal 20,4 | |
Dupl | Duployan Kurzschrift, Duployan Stenographie | links nach rechts | Duployan | 7,0 | 143 | Kanal 21,6 | |
Ägypten | Ägyptische Demotik | gemischt | — Nicht in Unicode | ||||
Ägyh | Ägyptische Hieratiker | gemischt | — Nicht in Unicode | ||||
Ägypten | Ägyptische Hieroglyphen | Rechts-nach-links-Skript | Ägyptische Hieroglyphen | 5.2 | 1.080 | Antike/historische | Kanal 11,4 |
Elba | Elbasan | links nach rechts | Elbasan | 7,0 | 40 | Antike/historische | Ch 8.10 |
Elym | Elymaisch | Rechts-nach-links-Skript | Elymaisch | 12.0 | 23 | Antike/historische | Kanal 10.9 |
Ethia | Äthiopisch (Geʻez) | links nach rechts | Äthiopisch | 3.0 | 523 | Kanal 19.1 | |
Geoko | Khutsuri (Asomtavruli und Nuskhuri) | links nach rechts | georgisch | Unicode gruppiert "Khutsori", "Asomtavruli" und "Nuskhuri" in "Georgian" ( § Geok ). Auch "Mkhedruli" und "Mtavruli" sind 'georgisch' ( § Geor ) | Kanal 7,7 | ||
Georg | Georgisch (Mkhedruli und Mtavruli) | links nach rechts | georgisch | 1.0 | 173 | Enthält in Unicode auch Geok (Nuskhuri) | Kanal 7,7 |
Glag | glagolitisch | links nach rechts | glagolitisch | 4.1 | 134 | Antike/historische | Kanal 7,5 |
Gong | Gunjala Gondi | links nach rechts | Gunjala Gondi | 11,0 | 63 | Kanal 13.15 | |
Gonm | Masaram Gondi | links nach rechts | Masaram Gondi | 10,0 | 75 | Kanal 13.14 | |
Goth | gotisch | links nach rechts | gotisch | 3.1 | 27 | Antike/historische | Ch 8.9 |
Gran | Grantha | links nach rechts | Grantha | 7,0 | 85 | Antike/historische | Ch 15.13 |
Griechisch | griechisch | links nach rechts | griechisch | 1.0 | 518 | Direktionalität manchmal als Boustrophedon | Ch 7,2 |
Gujr | Gujarati | links nach rechts | Gujarati | 1.0 | 91 | Kanal 12,4 | |
Guru | Gurmukhi | links nach rechts | Gurmukhi | 1.0 | 80 | Kanal 12,3 | |
Hanb | Han mit Bopomofo (alias für Han + Bopomofo) | gemischt | § Hani , § Bopo | — Siehe||||
Aufhängen | Hangul (Hangŭl, Hangeul) | von links nach rechts, von oben nach unten | Hangul | 1.0 | 11.739 | Hangul-Silben in 2.0 . verschoben | Kanal 18.6 |
Hani | Han (Hanzi, Kanji, Hanja) | von oben nach unten, Spalten von rechts nach links (historisch) | Han | 1.0 | 94.215 | Kanal 18.1 | |
Hano | Hanunoo (Hanunoo) | von links nach rechts, von unten nach oben | Hanunoo | 3.2 | 21 | Kanal 17.1 | |
Hans | Han (vereinfachte Variante) | variiert | § Hani ) | — Untermenge von Han (Hanzi, Kanji, Hanja) (||||
Hant | Han (Traditionelle Variante) | variiert | § Hani | — Teilmenge von||||
Hatr | Hatran | Rechts-nach-links-Skript | Hatran | 8.0 | 26 | Antike/historische | Ch 10.12 |
Hebräisch | hebräisch | Rechts-nach-links-Skript | hebräisch | 1.0 | 134 | Ch 9.1 | |
Hira | Hiragana | von oben nach unten, von links nach rechts | Hiragana | 1.0 | 380 | Kanal 18.4 | |
Hluw | Anatolische Hieroglyphen (Luwische Hieroglyphen, Hethitische Hieroglyphen) | links nach rechts | Anatolische Hieroglyphen | 8.0 | 583 | Antike/historische | Kanal 11,6 |
Hmng | Pahawh Hmong | links nach rechts | Pahawh Hmong | 7,0 | 127 | Ch 16.11 | |
Hmnp | Nyiakeng Puachue Hmong | links nach rechts | Nyiakeng Puachue Hmong | 12.0 | 71 | Ch 16.12 | |
Hrkt | Japanische Silben (Alias für Hiragana + Katakana) | von oben nach unten, von links nach rechts | Katakana oder Hiragana | Siehe § Hira , § Kana | Kanal 18.4 | ||
Hung | Altungarisch (ungarische Rune) | Rechts-nach-links-Skript | Alt-Ungarisch | 8.0 | 108 | Antike/historische | Ch 8.8 |
Inds | Indus (Harappan) | gemischt | — Nicht in Unicode, Vorschlag wird untersucht | ||||
Italien | Altkursiv (etruskisch, oskisch usw.) | rechts-nach-links-Skript , von links nach rechts | Alte Kursivschrift | 3.1 | 39 | Antike/historische | Kanal 8,6 |
Jamo | Jamo (Alias für Jamo-Teilmenge von Hangul) | variiert | § Hang | — Teilmenge von||||
Java | Javanisch | links nach rechts | Javanisch | 5.2 | 90 | Kanal 17,4 | |
Japan | Japanisch (Alias für Han + Hiragana + Katakana) | variiert | § Hani , § Hira und § Kana | — Siehe||||
Jurc | Jürchen | links nach rechts | — Nicht in Unicode | ||||
Kali | Kayah Li | links nach rechts | Kayah Li | 5.1 | 47 | Kanal 16.9 | |
Kana | Katakana | von oben nach unten, von links nach rechts | Katakana | 1.0 | 320 | Kanal 18.4 | |
Khar | Kharoshthi | Rechts-nach-links-Skript | Kharoshthi | 4.1 | 68 | Antike/historische | Kanal 14.2 |
Khmra | Khmer | links nach rechts | Khmer | 3.0 | 146 | Kanal 16.4 | |
Khoja | Khojki | links nach rechts | Khojki | 7,0 | 62 | Antike/historische | Kanal 15.7 |
Kitl | Khitan großes Skript | links nach rechts | — Nicht in Unicode | ||||
Bausätze | Khitan kleines Skript | oben nach unten | Khitan Kleines Skript | 13,0 | 471 | Antike/historische | Kanal 18.12 |
Knda | Kannada | links nach rechts | Kannada | 1.0 | 90 | Kanal 12.8 | |
Kore | Koreanisch (Alias für Hangul + Han) | links nach rechts | § Hani , § Hang | — Siehe||||
Kpel | Kpelle | links nach rechts | — Nicht in Unicode, Vorschlag wird untersucht | ||||
Kthi | Kaithi | links nach rechts | Kaithi | 5.2 | 68 | Antike/historische | Kanal 15.2 |
Lana | Tai Tham (Lanna) | links nach rechts | Tai Tham | 5.2 | 127 | Kanal 16,7 | |
Laoo | Laos | links nach rechts | Laos | 1.0 | 82 | Kanal 16,2 | |
Latf | Latein (Fraktur-Variante) | variiert | § Latn ) | — Typografische Variante des Lateinischen (||||
Latg | Latein (gälische Variante) | links nach rechts | § Latn ) | — Typografische Variante des Lateinischen (||||
Latn | Latein | links nach rechts | Latein | 1.0 | 1.475 | Siehe auch: Lateinische Schrift in Unicode | Ch 7.1 |
Leke | Leke | links nach rechts | — Nicht in Unicode | ||||
Lepc | Lepcha (Rong) | links nach rechts | Lepcha | 5.1 | 74 | Kanal 13.12 | |
Glied | Limbu | links nach rechts | Limbu | 4.0 | 68 | Kanal 13,6 | |
Lina | Linear A | links nach rechts | Linear A | 7,0 | 341 | Antike/historische | Ch 8.1 |
Linb | Linear B | links nach rechts | Linear B | 4.0 | 211 | Antike/historische | Ch 8.2 |
Lisu | Lisu (Fraser) | links nach rechts | Lisu | 5.2 | 49 | Kanal 18.9 | |
Loma | Loma | links nach rechts | — Nicht in Unicode, Vorschlag wird untersucht | ||||
Lyci | Lykisch | links nach rechts | Lykisch | 5.1 | 29 | Antike/historische | Ch 8.5 |
Lydi | Lydian | Rechts-nach-links-Skript | Lydian | 5.1 | 27 | Antike/historische | Ch 8.5 |
Mahja | Mahajani | links nach rechts | Mahajani | 7,0 | 39 | Antike/historische | Kanal 15,6 |
Maka | Makasar | links nach rechts | Makasar | 11,0 | 25 | Antike/historische | Kanal 17.8 |
Mand | Mandäisch, Mandäisch | Rechts-nach-links-Skript | Mandaisch | 6.0 | 29 | Kanal 9,5 | |
Mani | Manichäer | Rechts-nach-links-Skript | Manichäer | 7,0 | 51 | Antike/historische | Kanal 10.5 |
Marc | Marken | links nach rechts | Marken | 9,0 | 68 | Antike/historische | Kanal 14,5 |
Maya | Maya-Hieroglyphen | gemischt | — Nicht in Unicode | ||||
Medf | Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) | von links nach rechts, von links nach rechts | Medefaidrin | 11,0 | 91 | Ch 19.10 | |
Heilen | Mende Kikakui | Rechts-nach-links-Skript | Mende Kikakui | 7,0 | 213 | Kanal 19.8 | |
Merc | Meroitische Kursive | Rechts-nach-links-Skript | Meroitische Kursive | 6.1 | 90 | Antike/historische | Kanal 11,5 |
Mero | Meroitische Hieroglyphen | Rechts-nach-links-Skript | Meroitische Hieroglyphen | 6.1 | 32 | Antike/historische | Kanal 11,5 |
Mlym | Malayalam | links nach rechts | Malayalam | 1.0 | 118 | Kanal 12.9 | |
Modi | Modi, Moḍī | links nach rechts | Modi | 7,0 | 79 | Antike/historische | Ch 15.11 |
Mong | mongolisch | von oben nach unten, von links nach rechts | mongolisch | 3.0 | 168 | Mong enthält Clear- und Manchu- Skripte | Kanal 13,5 |
Mond | Mond (Mondcode, Mondskript, Mondtyp) | gemischt | — Nicht in Unicode, Vorschlag wird untersucht | ||||
Mroo | Herr, Herr | links nach rechts | Mehr | 7,0 | 43 | Kanal 13.8 | |
Mtei | Meitei Mayek (Meithei, Meetei) | links nach rechts | Meetei Mayek | 5.2 | 79 | Kanal 13,7 | |
Mult | Multani | links nach rechts | Multani | 8.0 | 38 | Antike/historische | Kanal 15.9 |
Mymr | Myanmar (Burmesisch) | links nach rechts | Myanmar | 3.0 | 223 | Kanal 16.3 | |
Nand | Nandinagari | links nach rechts | Nandinagari | 12.0 | 65 | Antike/historische | Kanal 15.12 |
Narb | Alt-Nordarabisch (Alt-Nordarabisch) | Rechts-nach-links-Skript , Rechts-nach-Links-Skript | Alt-Nordarabien | 7,0 | 32 | Antike/historische | Kanal 10.1 |
Nbat | Nabatäer | Rechts-nach-links-Skript | Nabatäer | 7,0 | 40 | Antike/historische | Ch 10.10 |
Newa | Newa, Newar, Newari, Nepāla lipi | links nach rechts | Newa | 9,0 | 97 | Kanal 13.3 | |
Nkdb | Naxi Dongba (na²¹ɕi³³ bis³³ba²¹, Nakhi Tomba) | links nach rechts | — Nicht in Unicode | ||||
Nkgb | Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) | links nach rechts | — Nicht in Unicode, Vorschlag wird untersucht | ||||
Nkoo | N'Ko | Rechts-nach-links-Skript | NKo | 5.0 | 62 | Kanal 19.4 | |
Nshu | Nüshu | oben nach unten | Nushu | 10,0 | 397 | Kanal 18.8 | |
Ogam | Ogham | von unten nach oben, von links nach rechts | Ogham | 3.0 | 29 | Antike/historische | Ch 8.14 |
Olck | Ol Chiki (Ol Cemet', Ol, Santali) | links nach rechts | Ol Chiki | 5.1 | 48 | Kanal 13.10 | |
Ork | Alttürkisch, Orkhon Runic | Rechts-nach-links-Skript | Alttürkisch | 5.2 | 73 | Antike/historische | Kanal 14.8 |
Orya | Oriya (Odia) | links nach rechts | Oriya | 1.0 | 91 | Kanal 12,5 | |
Osge | Osage | links nach rechts | Osage | 9,0 | 72 | Kanal 20,3 | |
Osma | Osmanya | links nach rechts | Osmanya | 4.0 | 40 | Kanal 19.2 | |
Ougr | Alte Uiguren | gemischt | Alte Uiguren | 14,0 | 26 | Antike/historische | Ch 14.11 |
Palme | Palmyren | Rechts-nach-links-Skript | Palmyren | 7,0 | 32 | Antike/historische | Ch 10.11 |
Pauc | Pau Cin Hau | links nach rechts | Pau Cin Hau | 7,0 | 57 | Ch 16.13 | |
PCun | Proto-Keilschrift | links nach rechts | — Nicht in Unicode | ||||
Pelm | Proto-Elamite | links nach rechts | — Nicht in Unicode | ||||
Dauerwelle | Alte Permik | links nach rechts | Alte Permik | 7,0 | 43 | Antike/historische | Ch 8.13 |
Phag | Phags-pa | oben nach unten | Phags-pa | 5.0 | 56 | Antike/historische | Kanal 14.4 |
Phli | Inschriftliches Pahlavi | Rechts-nach-links-Skript | Inschriftliches Pahlavi | 5.2 | 27 | Antike/historische | Kanal 10.6 |
Phlp | Psalter Pahlavi | Rechts-nach-links-Skript | Psalter Pahlavi | 7,0 | 29 | Antike/historische | Kanal 10.6 |
Phlv | Pahlavi . buchen | gemischt | — Nicht in Unicode | ||||
Phnx | phönizisch | Rechts-nach-links-Skript | phönizisch | 5.0 | 29 | Antike/historische | Kanal 10.3 |
Piqd | Klingonisch (KLI pIqaD) | links nach rechts | — Abgelehnt für die Aufnahme in Unicode | ||||
Plrd | Miao (Poller) | links nach rechts | Miao | 6.1 | 149 | Ch 18.10 | |
Prti | Inschriftlicher Parther | Rechts-nach-links-Skript | Inschriftlicher Parther | 5.2 | 30 | Antike/historische | Kanal 10.6 |
Psin | Proto-Sinaitisch | gemischt | — Nicht in Unicode | ||||
Qaaa-Qabx | Reserviert für den privaten Gebrauch (Bereich) | — Nicht in Unicode | |||||
Ranja | Ranjana | links nach rechts | — Nicht in Unicode | ||||
Rjng | Rejang (Redjang, Kaganga) | links nach rechts | Rejang | 5.1 | 37 | Kanal 17,5 | |
Rohg | Hanifi Rohingya | Rechts-nach-links-Skript | Hanifi Rohingya | 11,0 | 50 | Ch 16.14 | |
Roro | Rongorongo | gemischt | — Nicht in Unicode, Vorschlag wird untersucht | ||||
Runr | Runen | von links nach rechts, boustrophedon | Runen | 3.0 | 86 | Antike/historische | Kanal 8,7 |
Samr | Samariter | Skript von rechts nach links , von oben nach unten | Samariter | 5.2 | 61 | Kanal 9,4 | |
Sara | Sarati | gemischt | — Nicht in Unicode | ||||
Sarb | Alt-Südarabisch | Rechts-nach-links-Skript | Alt-Südarabisch | 5.2 | 32 | Antike/historische | Ch 10.2 |
Saur | Saurashtra | links nach rechts | Saurashtra | 5.1 | 82 | Kanal 13.13 | |
Sgnw | Gebärdenschreiben | oben nach unten | Gebärdenschreiben | 8.0 | 672 | Kanal 21,7 | |
Shaw | Shavian (Shaw) | links nach rechts | Shavian | 4.0 | 48 | Ch 8.15 | |
Shrd | Sharada, Śāradā | links nach rechts | Sharada | 6.1 | 96 | Kanal 15.3 | |
Shui | Shuishu | links nach rechts | — Nicht in Unicode | ||||
Sidd | Siddham, Siddhaṃ, Siddhamātṛkā | links nach rechts | Siddham | 7,0 | 92 | Antike/historische | Kanal 15.5 |
Sind | Khudawadi, Sindhi | links nach rechts | Khudawadi | 7,0 | 69 | Kanal 15.8 | |
Sinh | singhalesisch | links nach rechts | singhalesisch | 3.0 | 111 | Kanal 13.2 | |
Sogd | Sogdian | horizontale und vertikale Schrift in ostasiatischen Schriften , von oben nach unten | Sogdian | 11,0 | 42 | Antike/historische | Kanal 14.10 |
Also geh | Alte Sogdian | Rechts-nach-links-Skript | Alte Sogdian | 11,0 | 40 | Antike/historische | Kanal 14.9 |
Sora | Sora Sompeng | links nach rechts | Sora Sompeng | 6.1 | 35 | Kanal 15.16 | |
Soja | Soyombo | links nach rechts | Soyombo | 10,0 | 83 | Antike/historische | Kanal 14.7 |
Sonne | Sundanesisch | links nach rechts | Sundanesisch | 5.1 | 72 | Kanal 17,7 | |
Sylo | Syloti Nagri | links nach rechts | Syloti Nagri | 4.1 | 45 | Antike/historische | Kapitel 15.1 |
Syrc | Syrisch | Rechts-nach-links-Skript | Syrisch | 3.0 | 88 | Enthält typografische Varianten Estrangelo ( § Syre ), Western ( § Syrj ) und Eastern ( § Syrn ) | Ch 9.3 |
Syre | Syrisch (Estrangelo-Variante) | gemischt | § Syrc ) | — Typografische Variante des Syrischen (||||
Syrja | Syrisch (westliche Variante) | gemischt | § Syrc ) | — Typografische Variante des Syrischen (||||
Syrn | Syrisch (östliche Variante) | gemischt | § Syrc ) | — Typografische Variante des Syrischen (||||
Tagb | Tagbanwa | links nach rechts | Tagbanwa | 3.2 | 18 | Kanal 17.1 | |
Takr | Takri, Ṭākrī, Ṭāṅkrī | links nach rechts | Takri | 6.1 | 68 | Kanal 15,4 | |
Geschichte | Tai Le | links nach rechts | Tai Le | 4.0 | 35 | Kanal 16.5 | |
Talu | Neues Tai Lue | links nach rechts | Neues Tai Lue | 4.1 | 83 | Kanal 16,6 | |
Tamle | Tamil | links nach rechts | Tamil | 1.0 | 123 | Kanal 12.6 | |
Seetang | Tangut | von oben nach unten, Spalten von rechts nach links, von links nach rechts | Tangut | 9,0 | 6.914 | Antike/historische | Ch 18.11 |
Tavt | Tai Viet | links nach rechts | Tai Viet | 5.2 | 72 | Kanal 16.8 | |
Telu | Telugu | links nach rechts | Telugu | 1.0 | 100 | Kanal 12,7 | |
Teng | Tengwar | links nach rechts | — Nicht in Unicode | ||||
Tfng | Tifinagh (Berber) | links nach rechts | Tifinagh | 4.1 | 59 | Kanal 19.3 | |
Tglg | Tagalog (Baybayin, Alibata) | links nach rechts | Tagalog | 3.2 | 23 | Kanal 17.1 | |
Thaa | Thaana | Rechts-nach-links-Skript | Thaana | 3.0 | 50 | Kanal 13,1 | |
Thai | Thai | links nach rechts | Thai | 1.0 | 86 | Kanal 16.1 | |
Tibt | Tibetisch | links nach rechts | Tibetisch | 2.0 | 207 | In 1.0 hinzugefügt, in 1.1 entfernt und in 2.0 wieder eingeführt | Kanal 13.4 |
Tirh | Tirhuta | links nach rechts | Tirhuta | 7,0 | 82 | Ch 15.10 | |
Tnsa | Tangsa | links nach rechts | Tangsa | 14,0 | 89 | Kanal 13.18 | |
Toto | Toto | links nach rechts | Toto | 14,0 | 31 | Kanal 13.17 | |
Ugar | Ugaritisch | links nach rechts | Ugaritisch | 4.0 | 31 | Antike/historische | Kanal 11.2 |
Vaii | Vai | links nach rechts | Vai | 5.1 | 300 | Kanal 19,5 | |
Visp | Sichtbare Sprache | links nach rechts | — Nicht in Unicode | ||||
Vith | Vithkuqi | links nach rechts | Vithkuqi | 14,0 | 70 | Antike/historische | Ch 8.12 |
Wara | Warang Citi (Varang Kshiti) | links nach rechts | Warang Citi | 7,0 | 84 | Kanal 13,9 | |
Wer | Wancho | links nach rechts | Wancho | 12.0 | 59 | Kanal 13.16 | |
Wole | Woleai | gemischt | — Nicht in Unicode, Vorschlag wird untersucht | ||||
Xpeo | Altpersisch | links nach rechts | Altpersisch | 4.1 | 50 | Antike/historische | Kanal 11,3 |
Xsux | Keilschrift, Sumero-Akkadisch | links nach rechts | Keilschrift | 5.0 | 1.234 | Antike/historische | Kanal 11.1 |
Yezi | Yeziden | Rechts-nach-links-Skript | Yeziden | 13,0 | 47 | Antike/historische | Kanal 9,6 |
Yiii | Ja | links nach rechts | Ja | 3.0 | 1.220 | Kanal 18.7 | |
Zanb | Zanabazar-Platz (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Script) | links nach rechts | Zanabazar-Platz | 10,0 | 72 | Antike/historische | Kanal 14.6 |
Zinh | Code für geerbtes Skript | Vererbt | 657 | ||||
Zmth | Mathematische Notation | — Kein 'Skript' in Unicode | |||||
Zsym | Symbole | — Kein 'Skript' in Unicode | |||||
Zsye | Symbole (Emoji-Variante) | — Kein 'Skript' in Unicode | |||||
Zxxx | Code für ungeschriebene Dokumente | — Kein 'Skript' in Unicode | |||||
Zyyy | Code für unbestimmtes Skript | Verbreitet | 8.252 | ||||
Zzzz | Code für uncodiertes Skript | Unbekannt | 969.350 | In Unicode: Alle anderen Codepunkte | |||
Anmerkungen
|
Normalisierungseigenschaften
Zerlegungen, Zerlegungstyp, kanonische Kombinationsklasse, Kompositionsausschlüsse und mehr.
Alter
Alter ist die Version des Standards, in der der Codepunkt erstmals angegeben wurde. Die Versionsnummer wird auf die Nummerierung major.minor gekürzt, obwohl dort detailliertere Versionsnummern verwendet werden: Versionen 4.0.0 und 4.0.1 werden beide als 4.0 als Age bezeichnet. Bei den Versionen kann das Alter aus dem Bereich 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0 . liegen , 12.0, 12.1, 13.0 und 14.0. Die langen Werte für Age beginnen in einem V und verwenden einen Unterstrich anstelle eines Punktes: V1_1 zum Beispiel. Codepoints ohne explizit zugewiesenen Alterswert haben den Wert "NA", mit der Langform "Unassigned".
Veraltet
Sobald ein Charakter definiert wurde, wird er nicht entfernt oder neu zugewiesen. Ein Zeichen kann jedoch veraltet sein , was bedeutet, dass von seiner Verwendung dringend abgeraten wird. Ab Unicode-Version 14.0 sind die folgenden fünfzehn Zeichen veraltet:
Veraltete Zeichen in Unicode | ||||
---|---|---|---|---|
Codepunkt | Charaktername | Empfohlene Alternative | Bemerkungen | |
U+0149 | Lateinischer KLEINER BUCHSTABE N VOR APOSTROPH | U+02BC U+006E | n | |
U+0673 | Arabischer Buchstabe Alef mit Wellenförmigem HAMZA UNTEN | U+0627 U+065F | اٟ | |
U+0F77 | Tibetisches Vokalzeichen VOCALIC RR | U+0FB2 U+0F81 | ྲཱ ྀ | |
U+0F79 | Tibetisches Vokalzeichen VOCALIC LL | U+0FB3 U+0F81 | ླཱ ྀ | |
U+17A3 | KHMER UNABHÄNGIGE VOWEL QAQ | U+17A2 | អ | |
U+17A4 | KHMER UNABHÄNGIGE VOWEL QAA | U+17A2 U+17B6 | អា | |
U+206A | SYMMETRISCHES SWAPPING INHIBIEREN | Keiner | ||
U+206B | SYMMETRISCHES SWAPPING AKTIVIEREN | Keiner | ||
U+206C | ARABISCHE FORMGESTALTUNG UNTERBRECHEN | Keiner | ||
U+206D | AKTIVIEREN DER ARABISCHEN FORMGESTALTUNG | Keiner | ||
U+206E | NATIONALE ZIFFERNFORMEN | Keiner | ||
U+206F | NOMINALE ZIFFERNFORMEN | Keiner | ||
U+2329 | WINKELHALTERUNG NACH LINKS | U+3008 | Ich | U+27E8 ⟨ MATHEMATISCHER LINKER WINKELHALTER wird für mathematische und andere technische Anwendungen empfohlen |
U+232A | RECHTSWEICHENDER WINKELHALTER | U+3009 | Ich | U+27E9 ⟩ MATHEMATISCHER RECHTER WINKELHALTER wird für mathematische und andere technische Anwendungen empfohlen |
U+E0001 | SPRACHE-TAG | Keiner | ||
Grenzen
Der Unicode-Standard spezifiziert die folgenden grenzenbezogenen Eigenschaften:
- Graphem-Cluster
- Wort
- Leitung
- Satz
Korrektur von Unicode-Namensaliasen
Charakter | Name | Alias | |
---|---|---|---|
01A2 | Ƣ | Lateinischer Großbuchstabe OI | Lateinischer Großbuchstabe Gha |
01A3 | ƣ | Lateinischer Kleinbuchstabe OI | Lateinischer Kleinbuchstabe GHA |
0709 | Ich | SYRIASCH SUBLINEAR DARM RECHTS GESCHRÄNKT | SYRIASCH SUBLINEAR DARM LINKS Schief |
0CDE | ೞ | KANNADA-BRIEF FA | KANNADA-BRIEF LLLA |
0E9D | ຝ | LAO-BRIEF FO TAM | LAO-BRIEF FO FON |
0E9F | ຟ | LAO-BRIEF FO SUNG | LAO-BRIEF FO FAY |
0EA3 | ຣ | LAO-BRIEF LO LING | LAO-BRIEF RO |
0EA5 | ລ | LAO-BRIEF LO LOOT | LAO-BRIEF LO |
0FD0 | Ich | TIBETAN MARK BSKA - SHOG GI MGO RGYAN | TIBETAN MARK BKA- SHOG GI MGO RGYAN |
11EC | ᇬ | HANGUL JONGSEONG IEUNG-KIYEOK | HANGUL JONGSEONG YESIEUNG-KIYEOK |
11ED | ᇭ | HANGUL JONGSEONG IEUNG-SSANGKIYEOK | HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK |
11EE | ᇮ | HANGUL JONGSEONG SSANGIEUNG | HANGUL JONGSEONG SSANGYESIEUNG |
11EF | ᇯ | HANGUL JONGSEONG IEUNG-KHIEUKH | HANGUL JONGSEONG YESIEUNG-KHIEUKH |
2118 | ℘ | SKRIPT GROSSBUCHSTABEN P | WEIERSTRAS ELLIPTISCHE FUNKTION |
2448 | ⑈ | OCR-DASH | MIKR AUF UNS SYMBOL |
2449 | ⑉ | OCR-KUNDENKONTONUMMER | MICR DASH-SYMBOL |
2B7A | ⭺ | DREIECKSPFEIL NACH LINKS MIT DOPPELTEM HORIZONTALEN HUB | DREIECKSPFEIL NACH LINKS MIT DOPPELTER VERTIKALER HUB |
2B7C | ⭼ | DREIECKSPFEIL NACH RECHTS MIT DOPPELTEM HORIZONTALEN HUB | DREIECKIGER PFEIL NACH RECHTS MIT DOPPELTER VERTIKALER HUB |
A015 | ꀕ | YI SILBE WU | YI Silbe Iterationszeichen |
FE18 | Ich | PRÄSENTATIONSFORMULAR FÜR VERTIKALE RECHTSWEIßE LENTIKULARBREMSE | PRÄSENTATIONSFORMULAR FÜR VERTIKALE RECHTE WEIßE LENTIKULARHALTERUNG |
122D4 | 𒋔 | Keilschriftzeichen SHIR TENU | Keilschriftzeichen NU11 TENU |
122D5 | 𒋕 | Keilschriftzeichen SHIR ÜBER SHIR BUR ÜBER BUR | Keilschriftzeichen NU11 ÜBER NU11 BUR ÜBER BUR |
16E56 | 𖹖 | MEDEFAIDRIN GROSSBUCHSTABE HP | MEDEFAIDRIN GROSSBUCHSTABE H |
16E57 | 𖹗 | MEDEFAIDRIN GROSSBUCHSTABE NY | MEDEFAIDRIN GROSSBUCHSTABE NG |
16E76 | 𖹶 | MEDEFAIDRIN KLEINBUCHSTABE HP | MEDEFAIDRIN KLEINER BUCHSTABE H |
16E77 | 𖹷 | MEDEFAIDRIN KLEINER BUCHSTABE NY | MEDEFAIDRIN KLEINER BUCHSTABE NG |
1B001 | 𛀁 | HIRAGANA BRIEF ARCHAISCHES JA | HENTAIGANA-BRIEF E-1 |
1D0C5 | 𝃅 | BYZANTINISCHES MUSIKSYMBOL FHTORA SKLIRON CHROMA VASIS | BYZANTINISCHES MUSIKSYMBOL FTHORA SKLIRON CHROMA VASIS |
Externe Links
- Unicode-Zeichendatenbank , Anhang #44, mit Erläuterung der verschiedenen Eigenschaften
- UnicodeData.txt – eine Liste aller Unicode-Zeichen mit ihren Eigenschaften
Verweise
-
^ a b c d e "Der Unicode-Standard, Kapitel 4: Zeicheneigenschaften" (PDF) . Unicode, Inc. September 2021 . Abgerufen 2021-08-15 . Cite Journal erfordert
|journal=
( Hilfe ) - ^ a b c "Unicode Standard Annex #44: Unicode Character Database" . Der Unicode-Standard . 2017-06-14.
- ^ "UCD: Namensaliase" . Datenbank für Unicode-Zeichen . Unicode-Konsortium. 2019-03-08.
- ^ „Standards für die Zeichengestaltung – Leerzeichen“ . Designstandards für Charaktere . Microsoft . 1998–1999. Archiviert vom Original am 23. August 2000 . Abgerufen 2009-05-18 .
- ^ Der Unicode-Standard 5.0, gedruckte Ausgabe, S.205
- ^ "Allgemeine Satzzeichen" (PDF) . Der Unicode-Standard 5.1 . Unicode Inc . 1991–2008 . Abgerufen 2009-05-13 .
- ^ Sargent, Murray III (2006-08-29). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)" . Technischer Hinweis zu Unicode #28 . Unicode Inc . S. 19–20 . Abgerufen 2009-05-19 .
- ^ Gillam, Richard (2002). Unicode entmystifiziert: Ein praktischer Programmierleitfaden zum Kodierungsstandard . Addison-Wesley. ISBN 0-201-70052-2.
- ^ a b Hickson, Ian . "12.5 Benannte Zeichenreferenzen" . HTML-Standard . WHATWG .
- ^ Wolfram . "\[NegativeThickSpace]" . Dokumentation der Wolfram-Sprache .
- ^ Wolfram . "\[NegativeMediumSpace]" . Dokumentation der Wolfram-Sprache .
- ^ Wolfram . "\[NegativeThinSpace]" . Dokumentation der Wolfram-Sprache .
- ^ Wolfram . "\[NegativeVeryThinSpace]" . Dokumentation der Wolfram-Sprache .
- ^ Faltstrom, S., Hrsg. (August 2010). "Nullbreite Nicht-Joiner" . Die Unicode Code Points und Internationalized Domain Names for Applications (IDNA) . IETF . Sek. A.1. doi : 10.17487/RFC5892 . RFC- 5892 . Abgerufen am 4. September 2019 .
- ^ Faltstrom, S., Hrsg. (August 2010). "Joiner mit Nullbreite" . Die Unicode Code Points und Internationalized Domain Names for Applications (IDNA) . IETF . Sek. A.2. doi : 10.17487/RFC5892 . RFC- 5892 . Abgerufen am 4. September 2019 .
- ^ "Unicode-Standard-Anhang #44, Unicode-Zeichendatenbank" .
- ^ a b "Unicode-Standard-Anhang #9: Bidirektionaler Unicode-Algorithmus" . Der Unicode-Standard . 2017-05-14.
- ^ "Unicode-Standard-Anhang #24: Unicode-Skripteigenschaft" . Der Unicode-Standard . 2015-06-01.
- ^ a b c d e f g h i "Vorgeschlagene neue Skripte" . Unicode-Konsortium . 2018-05-25 . Abgerufen 2019-09-12 .
- ^ Michael Everson (1997-09-18). „Vorschlag, Klingonen in Ebene 1 von ISO/IEC 10646-2 zu codieren“ .
- ^ Das Unicode-Konsortium (2001-08-14). "Genehmigtes Protokoll der gemeinsamen Sitzung von UTC 87 / L2 184" .
- ^ "Naher Osten-II, alte Schriften" (PDF) . 14.0.0. The Unicode Consortiumtitle=Nahost-Skripte II . Abgerufen 2021-09-15 .
- ^ "UCD: Abgeleitetes Alter" . Datenbank für Unicode-Zeichen . Unicode-Konsortium. 2021-07-10.
-
^ "Stabilitätsrichtlinien für die Unicode-Zeichencodierung" . Unicode . Unicode-Konsortium . 2017-06-23 . Abgerufen 2021-07-25 .
Sobald ein Zeichen codiert ist, wird es nicht verschoben oder entfernt.
- ^ "3.4: Zeichen und Kodierung, D13: Veraltete Zeichen" (PDF) . Der Unicode-Standard, Version 14.0 . Mountain View: Unicode-Konsortium . 2021-09-14. ISBN 9781936213-290. Abgerufen 2021-09-15 .
- ^ "PropList-14.0.0.txt" . Unicode . Unicode-Konsortium . 2021-08-12 . Abgerufen 2021-09-15 .
- ^ "Kapitel 23.3: Veraltete Formatzeichen" (PDF) . Der Unicode-Standard, Version 13.0 . Mountain View: Unicode-Konsortium . 2020-03-10. ISBN 9781936213269. Abgerufen 2021-07-25 .
- ^ "23.9: Tag-Zeichen, veraltete Verwendung für Sprach-Tagging" (PDF) . Der Unicode-Standard, Version 13.0 . Mountain View: Unicode-Konsortium . 2020-03-10. ISBN 9781936213269. Abgerufen 2021-07-25 .