Unicode-Zeicheneigenschaft - Unicode character property

Der Unicode-Standard weist jedem Unicode-Zeichen und jedem Codepunkt verschiedene Eigenschaften zu .

Die Eigenschaften können verwendet werden, um Zeichen (Codepunkte) in Prozessen zu behandeln, wie z. B. beim Zeilenumbruch, der Skriptrichtung von rechts nach links oder beim Anwenden von Steuerelementen. Einige "Zeicheneigenschaften" werden auch für Codepunkte definiert, denen kein Zeichen zugewiesen ist, und Codepunkte, die wie "<kein Zeichen>" gekennzeichnet sind. Die Charaktereigenschaften sind im Standard Annex #44 beschrieben.

Eigenschaften haben Ebenen der Eindringlichkeit: normativ, informativ, beitragend oder provisorisch. Zur Vereinfachung der Spezifikation kann eine Zeicheneigenschaft zugewiesen werden, indem ein kontinuierlicher Bereich von Codepunkten angegeben wird, die dieselbe Eigenschaft haben.

Semantische Elemente

Eigenschaften werden in der folgenden Reihenfolge angezeigt:

[code];[name];[gc];[cc];[bc];[decomposition];;;[nv];[bm];[alias];;;;

'alias' = korrigierter Name
'bc' = bidi (bidirektional) Kategorie [L, R usw.]
'bm' = bidi gespiegelt [N oder Y]
'cc' = Kombinationsklasse [Position des diakritischen Zeichens]
Zerlegung = Buchstabe + diakritisches Zeichen, Ligatur XY, hochgestelltes X, Schriftart X, anfängliches X, mediales X, finales X, isoliertes X, vertikales X usw.
'gc' = allgemeine Kategorie [Buchstabe, Symbol, Ziffer, Satzzeichen, Groß-/Kleinschreibung usw.]
'nv' = numerischer Wert [einer Ziffer]

Name

Einem Unicode-Zeichen wird ein eindeutiger Name (na) zugewiesen . Der Name besteht aus Großbuchstaben A–Z, Ziffern 0–9, - (Bindestrich-Minus) und <Leerzeichen>. Einige Sequenzen sind ausgeschlossen: Namen, die mit einem Leerzeichen oder Bindestrich beginnen, Namen, die mit einem Leerzeichen oder Bindestrich enden, wiederholte Leerzeichen oder Bindestriche und Leerzeichen nach einem Bindestrich sind nicht zulässig. Der Name ist innerhalb von Unicode garantiert eindeutig und kann verwendet werden, um einen Codepunkt und sein Zeichen zu identifizieren. Ideografische Zeichen, von denen es Zehntausende gibt, werden nach dem Muster „ cjk vereinheitlichter Ideograph – hhhh “ benannt. Beispiel: U+4E00 一 CJK UNIFIED IDEOGRAPH-4E00 . Formatierungszeichen werden ebenfalls benannt: U+00A0 NO-BREAK SPACE .

Die folgenden Codepunktklassen haben keinen Namen (na=""): Controls (General Category: Cc), Private use (Co), Surrogate (Cs), Non-Characters (Cn) und Reserved (Cn). Sie können verwiesen, informell werden von einem allgemeinen oder spezifischen Meta-name "Code Point Labels" genannt: <control>, <control-0088>, <reserviert>, <noncharacter- hhhh >, <privat Nutzungs- hhhh > , <Ersatz>. Da diese Labels <>-Klammern enthalten, können sie niemals als Name erscheinen, was Verwechslungen verhindert.

Namen der Version 1.0

In Version 2.0 von Unicode wurden viele Namen geändert. Von da an trat die Regel "ein Name wird sich nie ändern" in Kraft, einschließlich der strikten (normativen) Verwendung von Aliasnamen. Nicht mehr verwendete Version 1.0-Namen wurden in die Eigenschaft Alias verschoben, um eine gewisse Abwärtskompatibilität zu gewährleisten.

Aliasname des Charakternamens

Ab Unicode-Version 2.0 ändert sich der veröffentlichte Name für einen Codepunkt nie. Im Falle eines falsch geschriebenen Charakternamens oder wenn der Charaktername völlig falsch oder ernsthaft irreführend ist, kann dem Charakter daher ein formaler Charakternamen-Alias zugewiesen werden, der von Anwendungen anstelle des tatsächlichen fehlerhaften Charakternamens verwendet werden kann . Zum Beispiel U + FE18 ︘ PRESENTATION FORM FOR VERTICAL rechten weißen LENTICULAR BRAKCET hat den Charakternamen alias „PRESENTATION FORM FOR VERTICAL rechten weißen LENTICULAR bracket“, um die falsche Schreibweise von „Klammer“ als „brakcet“ im eigentlichen Charakternamen zu mildern; U+A015 ꀕ YI SYLLABLE WU hat den Zeichennamensalias "YI SYLLABLE ITERATION MARK", da er im Gegensatz zum Zeichennamen keinen festen Silbenwert hat.

Zusätzlich zu Zeichennamenaliasnamen, die Korrekturen an fehlerhaften Zeichennamen sind, werden einigen Zeichen Aliase zugewiesen, bei denen es sich um alternative Namen oder Abkürzungen handelt. Im Unicode-Standard sind fünf Arten von Zeichennamenaliasen definiert:

Korrektur: Korrekturen für falsch geschriebene oder ernsthaft falsche Zeichennamen;
Steuerung: ISO 6429- Namen für C0- und C1-Steuerungsfunktionen (die im Unicode-Standard keine Zeichennamen zugewiesen bekommen);
Alternativ: alternative Namen für einige Formatzeichen (nur U+FEFF "ZERO WIDTH NO-BREAK SPACE" mit dem Alias "BYTE ORDER MARK");
Abbildung: Dokumentierte Beschriftungen für einige C1-Steuercodefunktionen, die in keinem Standard tatsächlich Namen sind;
Abkürzung: Abkürzungen oder Akronyme für Steuercodes, Formatzeichen, Leerzeichen und Variationsselektoren.

Alle formalen Zeichennamen-Aliasnamen folgen den Regeln für zulässige Zeichennamen und sind sowohl innerhalb des Zeichennamen-Alias als auch innerhalb der Zeichennamen-Namespaces garantiert eindeutig (aus diesem Grund ist der ISO 6429-Name "BELL" nicht als Alias für U . definiert). +0007, weil U+1F514 "BELL" heißt).

Ab Unicode-Version 12.1 sind 28 formale Zeichennamenaliase als Korrekturen für fehlerhafte Zeichennamen definiert. Diese sind unten aufgeführt .

Abgesehen von diesen normativen Namen können in den Unicode-Codediagrammen auch informelle Namen angezeigt werden. Dies sind andere häufig verwendete Namen für ein Zeichen und müssen nicht auf die Buchstaben A–Z, Ziffern 0–9, - (Bindestrich-Minus) und <Leerzeichen> beschränkt sein. Diese informellen Namen sind nicht garantiert eindeutig und können in späteren Versionen des Standards geändert oder entfernt werden.

Allgemeine Kategorie

Jedem Codepunkt wird ein Wert für die allgemeine Kategorie zugewiesen. Dies ist eine der Zeicheneigenschaften, die auch für nicht zugewiesene Codepunkte und Codepunkte, die als "kein Zeichen" definiert sind, definiert sind.

Allgemeine Kategorie (Unicode- Zeicheneigenschaft ) v T e
Wert	Kategorie Major, Minor	Grundtyp	Charakter zugewiesen	Anzahl (ab 14.0)	Bemerkungen

L, Buchstabe; LC, Großbuchstaben (nur Lu, Ll und Lt)
Lu	Buchstabe, Großbuchstaben	Grafik	Charakter	1.831
NS	Buchstabe, Kleinschreibung	Grafik	Charakter	2.227
Lt	Brief, Titeltasche	Grafik	Charakter	31	Ligaturen mit Großbuchstaben gefolgt von Kleinbuchstaben (z. B. ǅ , ǈ , ǋ und ǲ )
Lm	Buchstabe, Modifikator	Grafik	Charakter	334	Ein Modifikatorbuchstabe
Lo	Brief, andere	Grafik	Charakter	127.333	Ein Ideogramm oder ein Buchstabe in einem Unicase-Alphabet
M, Markus
Mn	Markierung, ohne Leerzeichen	Grafik	Charakter	1.950
Mc	Markierung, Abstandskombination	Grafik	Charakter	445
Mir	Markieren, beifügen	Grafik	Charakter	13
N, Zahl
Nd	Zahl, Dezimalstelle	Grafik	Charakter	660	Alle diese und nur diese haben numerischen Typ = De
Nl	Zahl, Buchstabe	Grafik	Charakter	236	Ziffern, die aus Buchstaben oder buchstabenähnlichen Symbolen bestehen (z. B. römische Ziffern )
Nein	Nummer, andere	Grafik	Charakter	895	B. vulgäre Brüche , hochgestellte und tiefgestellte Ziffern
P, Satzzeichen
PC	Satzzeichen, Stecker	Grafik	Charakter	10	Enthält "_" Unterstrich
Pd	Satzzeichen, Bindestrich	Grafik	Charakter	26	Enthält mehrere Bindestrich Zeichen
PS	Satzzeichen, offen	Grafik	Charakter	79	Öffnen Klammer Zeichen
Sport	Satzzeichen, schließen	Grafik	Charakter	77	Schließende Klammerzeichen
Pi	Satzzeichen, Anfangszitat	Grafik	Charakter	12	Öffnungs Anführungszeichen . Enthält nicht das ASCII-"neutrale" Anführungszeichen. Kann sich je nach Verwendung wie Ps oder Pe verhalten
Pf	Satzzeichen, Schlusszitat	Grafik	Charakter	10	Schließendes Anführungszeichen. Kann sich je nach Verwendung wie Ps oder Pe verhalten
Po	Satzzeichen, andere	Grafik	Charakter	605
S, Symbol
Sm	Symbol, Mathematik	Grafik	Charakter	948	Mathematische Symbole (zB + , − , = , × , ÷ , √ , ∊ , ≠ ). Enthält keine Klammern und Klammern, die in den Kategorien Ps und Pe enthalten sind. Enthält auch nicht ! , * , - oder / , die trotz häufiger Verwendung als mathematische Operatoren in erster Linie als "Interpunktion" angesehen werden.
SC	Symbol, Währung	Grafik	Charakter	63	Währungssymbole
Sk	Symbol, Modifikator	Grafik	Charakter	125
So	Symbol, andere	Grafik	Charakter	6.605
Z, Trennzeichen
Zs	Trennzeichen, Leerzeichen	Grafik	Charakter	17	Enthält das Leerzeichen, aber nicht TAB , CR oder LF , die Cc . sind
Zl	Trennzeichen, Linie	Format	Charakter	1	Nur U+2028 LINE SEPARATOR (LSEP)
Zp	Trennzeichen, Absatz	Format	Charakter	1	Nur U+2029 PARAGRAPH SEPARATOR (PSEP)
C, Andere
CC	Andere, Kontrolle	Steuerung	Charakter	65 (wird sich nie ändern)	Kein Name, <Kontrolle>
Vgl	Sonstiges, Format	Format	Charakter	163	Umfasst der weiche Bindestrich , Füge- Steuerzeichen ( zwnj und zwj ), Steuerzeichen zur Unterstützung bidirektionaler Text und Sprache Tag Zeichen
Cs	Andere, Ersatz	Surrogat	Nicht (nur in UTF-16 verwendet )	2.048 (wird sich nie ändern)	Kein Name, <Surrogat>
Co	Sonstige, private Nutzung	Privater Gebrauch	Zeichen (aber keine Interpretation angegeben)	137.468 insgesamt (wird sich nie ändern) ( 6.400 in BMP , 131.068 in Flugzeugen 15-16 )	Kein Name, <private Nutzung>
Cn	Sonstiges, nicht zugeordnet	Nichtcharakter	Nicht	66 (wird sich nie ändern)	Kein Name, <kein Charakter>
Cn	Sonstiges, nicht zugeordnet	Reserviert	Nicht	829.768	Kein Name, <reserviert>

Interpunktion

Zeichen haben separate Eigenschaften, um anzuzeigen, dass es sich um ein Satzzeichen handelt . Die Eigenschaften haben alle Ja/Nein-Werte : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .

Leerzeichen

Whitespace ist ein häufig verwendetes Konzept für einen typografischen Effekt. Grundsätzlich deckt es unsichtbare Zeichen ab, die einen Abstandseffekt im gerenderten Text haben. Es enthält Leerzeichen , Tabulatoren und Steuerelemente zur Formatierung von Zeilenumbrüchen. In Unicode hat ein solches Zeichen den Eigenschaftssatz "WSpace=yes". In Version 14.0 gibt es 25 Leerzeichen.

v T e Unicode-Zeichen mit der Eigenschaft White_Space=yes
Name	Codepunkt		Breite Feld	Kann brechen ?	Im IDN ?	Skript	Block	Allgemeine Kategorie	Anmerkungen
Zeichentabelle	U+0009	9		Jawohl	Nein	Verbreitet	Grundkenntnisse in Latein	Andere, Kontrolle	HT, Horizontale Registerkarte . HTML/XML benannte Entität : `&Tab;`, LaTeX : '\tab'
Zeilenvorschub	U+000A	10	Ist ein Zeilenumbruch			Verbreitet	Grundkenntnisse in Latein	Andere, Kontrolle	LF, Zeilenvorschub . HTML/XML-benannte Entität:`&NewLine;`
Zeilentabellen	U+000B	11	Ist ein Zeilenumbruch			Verbreitet	Grundkenntnisse in Latein	Andere, Kontrolle	VT, vertikale Registerkarte
Formular-Feed	U+000C	12	Ist ein Zeilenumbruch			Verbreitet	Grundkenntnisse in Latein	Andere, Kontrolle	FF, Formularvorschub
Wagenrücklauf	U+000D	13	Ist ein Zeilenumbruch			Verbreitet	Grundkenntnisse in Latein	Andere, Kontrolle	CR, Wagenrücklauf
Platz	U+0020	32		Jawohl	Nein	Verbreitet	Grundkenntnisse in Latein	Trennzeichen, Leerzeichen	Am häufigsten (normaler ASCII-Raum)
nächste Zeile	U+0085	133	Ist ein Zeilenumbruch			Verbreitet	Latein-1- Ergänzung	Andere, Kontrolle	NEL, Nächste Zeile
Kein Pausenraum	U+00A0	160		Nein	Nein	Verbreitet	Latein-1- Ergänzung	Trennzeichen, Leerzeichen	Geschütztes Leerzeichen : identisch mit U+0020, aber kein Punkt, an dem eine Linie unterbrochen werden darf. HTML/XML benannte Entität: ` `, LaTeX: '\ '
ogham Leerzeichen	U+1680	5760		Jawohl	Nein	Ogham	Ogham	Trennzeichen, Leerzeichen	Wird zur Trennung zwischen Wörtern in Ogham- Text verwendet. Normalerweise eine vertikale Linie in vertikalem Text oder eine horizontale Linie in horizontalem Text, kann aber auch ein Leerzeichen in "stammlosen" Schriftarten sein. Erfordert eine Ogham-Schriftart.
de quad	U+2000	8192		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Breite von einem en . U+2002 entspricht diesem Zeichen kanonisch; U+2002 wird bevorzugt.
em quad	U+2001	8193		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Auch bekannt als "Hammelquad". Breite von einem em . U+2003 entspricht diesem Zeichen kanonisch; U+2003 wird bevorzugt.
en raum	U+2002	8194		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Auch als "Nuss" bekannt. Breite von einem en . U+2000 En Quad ist kanonisch äquivalent zu diesem Zeichen; U+2002 wird bevorzugt. HTML/XML benannte Entität: `&ensp;`, LaTeX: '\enspace'
em Raum	U+2003	8195		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Auch bekannt als "Hammel". Breite von einem em . U+2001 Em Quad ist kanonisch äquivalent zu diesem Zeichen; U+2003 wird bevorzugt. HTML/XML benannte Entität: `&emsp;`, LaTeX: '\quad'
Drei-pro-em-Raum	U+2004	8196		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Auch als "dicker Raum" bekannt. Ein Drittel eines em breit. HTML/XML-benannte Entität:`&emsp13;`
Vier-pro-em-Raum	U+2005	8197		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Auch als "mittlerer Raum" bekannt. Ein Viertel eines em breit. HTML/XML-benannte Entität:`&emsp14;`
Sechs-pro-em-Raum	U+2006	8198		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Ein Sechstel eines em breit. In der Computertypografie manchmal gleichgesetzt mit U+2009.
Figurenraum	U+2007	8199		Nein	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Abbildung Raum . In Schriftarten mit einzeiligen Ziffern, die der Breite einer Ziffer entsprechen. HTML/XML-benannte Entität:`&numsp;`
Satzzeichen	U+2008	8200		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	So breit wie die schmale Interpunktion in einer Schrift, also die Vorschubbreite des Punktes oder des Kommas. HTML/XML-benannte Entität:`&puncsp;`
dünner Raum	U+2009	8201		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Dünner Raum ; ein Fünftel (manchmal ein Sechstel) eines em breit. Empfohlen zur Verwendung als Tausendertrennzeichen für Messungen mit SI-Einheiten . Im Gegensatz zu U+2002 bis U+2008 kann seine Breite im Satz angepasst werden. HTML/XML benannte Entität: ` `; LaTeX: '\,'
Haarraum	U+200A	8202		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Dünner als ein dünner Raum. HTML/XML benannte Entität: `&hairsp;`( funktioniert nicht in allen Browsern)
Zeilentrenner	U+2028	8232	Ist ein Zeilenumbruch			Verbreitet	Allgemeine Interpunktion	Trennzeichen, Linie
Absatztrenner	U+2029	8233	Ist ein Zeilenumbruch			Verbreitet	Allgemeine Interpunktion	Trennzeichen, Absatz
schmaler unterbrechungsfreier Raum	U+202F	8239		Nein	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Enger unterbrechungsfreier Raum . Funktion ähnlich wie U+00A0 No-Break Space. Wenn es mit Mongolian verwendet wird, beträgt seine Breite normalerweise ein Drittel des normalen Raums; in anderen Zusammenhängen ähnelt seine Breite manchmal der des Thin Space (U+2009).
mittlerer mathematischer Raum	U+205F	8287		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	MMSP. Wird in mathematischen Formeln verwendet. Vier-Achtzehntel-Em. In der mathematischen Typografie werden die Breiten von Leerzeichen normalerweise in ganzzahligen Vielfachen eines Achtzehntel-Ems angegeben, und 4/18-Em kann in verschiedenen Situationen verwendet werden, zum Beispiel zwischen dem a und dem + und zwischen dem + und dem b im Ausdruck a + b . HTML/XML-benannte Entität:` `
ideografischer Raum	U+3000	12288		Jawohl	Nein	Verbreitet	CJK-Symbole und Satzzeichen	Trennzeichen, Leerzeichen	So breit wie eine CJK- Zeichenzelle ( fullwidth ). Wird zum Beispiel im Tai Tou verwendet .

v T e Zugehörige Unicode-Zeicheneigenschaft White_Space=no
Name	Codepunkt		Breite Feld	Kann brechen ?	Im IDN ?	Skript	Block	Allgemeine Kategorie	Anmerkungen
mongolischer Vokaltrenner	U+180E	6158	᠎	Jawohl	Nein	mongolisch	mongolisch	Sonstiges, Format	MVS. Ein schmales Leerzeichen, das im Mongolischen verwendet wird, um zu bewirken, dass die letzten beiden Zeichen eines Wortes unterschiedliche Formen annehmen. Es wird in Unicode 6.3.0 nicht mehr als Leerzeichen (dh in der Kategorie Zs) klassifiziert, obwohl dies in früheren Versionen des Standards der Fall war.
Leerzeichen mit Nullbreite	U+200B	8203		Jawohl	Nein	?	Allgemeine Interpunktion	Sonstiges, Format	ZWSP, Leerzeichen mit Nullbreite . Wird verwendet, um Textverarbeitungssystemen Wortgrenzen anzuzeigen, wenn Skripte verwendet werden, die keine expliziten Leerzeichen verwenden. Es ähnelt dem weichen Bindestrich , mit dem Unterschied, dass letzterer verwendet wird, um Silbengrenzen anzuzeigen, und einen sichtbaren Bindestrich anzeigen sollte, wenn die Zeile an ihm umbricht. HTML/XML benannte Entität :`&ZeroWidthSpace;`
Nullbreite Nicht-Joiner	U+200C	8204	‌	Jawohl	Kontext abhängig	?	Allgemeine Interpunktion	Sonstiges, Format	ZWNJ, Nicht-Joiner ohne Breite . Wenn es zwischen zwei Zeichen gesetzt wird, die sonst verbunden wären, bewirkt ein ZWNJ, dass sie in ihrer endgültigen bzw. ursprünglichen Form gedruckt werden. HTML/XML-benannte Entität:`&zwnj;`
Tischler mit Nullbreite	U+200D	8205	‍	Jawohl	Kontext abhängig	?	Allgemeine Interpunktion	Sonstiges, Format	ZWJ, Tischlüfter ohne Breite . Wenn es zwischen zwei Zeichen gesetzt wird, die sonst nicht verbunden wären, bewirkt ein ZWJ, dass sie in ihrer verbundenen Form gedruckt werden. Kann auch verwendet werden, um Verbindungsformulare isoliert anzuzeigen. Je nachdem, ob standardmäßig eine Ligatur oder eine Konjunktion erwartet wird, kann die Substitution durch eine einzelne Glyphe entweder induziert (wie in Emoji und in Singhalesisch ) oder unterdrückt (wie in Devanagari ) werden, während die Verwendung einzelner Verbindungsformen (im Gegensatz zu ZWNJ) weiterhin möglich ist. HTML/XML-benannte Entität:`&zwj;`
Wortverbinder	U+2060	8288	⁠	Nein	Nein	?	Allgemeine Interpunktion	Sonstiges, Format	WJ, Wortverbinder . Ähnlich wie U+200B, aber kein Punkt, an dem eine Linie unterbrochen werden kann. HTML/XML-benannte Entität:`&NoBreak;`
Nullbreites geschütztes Leerzeichen	U+FEFF	65279		Nein	Nein	?	Arabische Präsentationsformen -B	Sonstiges, Format	Geschütztes Leerzeichen ohne Breite . Wird hauptsächlich als Byte Order Mark verwendet . Die Verwendung als Hinweis auf Non-breaking ist ab Unicode 3.2 veraltet; siehe stattdessen U+2060.

Andere allgemeine Eigenschaften

Ideografisch, alphabetisch, charakterlos.

Kombinationsklasse

Einige gängige Codes:

0 = Leerzeichen, Symbol oder Modifikator (zB a, (, ʰ)

1 = Überlagerung

6 = Han-Lesung (CJK diakritische Lesezeichen)

7 = Nukta (diakritisches Nukta in brahmischen Schriften )

8 = Kana-Stimmzeichen

9 = virama

10–199 = verschiedene Festplatzklassen

Markierungen, die an den Basisbuchstaben angehängt werden:

200 = unten links angebracht

202 = direkt darunter angebracht (zB Cedille auf ç)

204 = unten rechts angebracht

208 = links angehängt

210 = rechts angebracht

212 = oben links angebracht

214 = direkt darüber angebracht

216 = oben rechts angebracht

Markierungen, die nicht mit dem Basisbuchstaben verbunden sind:

218 = unten links

220 = direkt darunter (zB Ring auf n̥)

222 = unten rechts

224 = links

226 = rechts

228 = oben links

230 = oben (zB akuter Akzent auf á)

232 = oben rechts

233 = unten doppelt (unterteilt zwei Basen)

234 = oben verdoppeln (verlängert zwei Basen)

240 = Jota tiefgestellt (nur das griechische diakritische Zeichen)

Displaybezogene Eigenschaften

Formgebung, Breite.

Bidirektionales Schreiben

Sechs Zeicheneigenschaften beziehen sich auf bidirektionales Schreiben: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket und Bidi_Paired_Bracket_Type.

Eine der wichtigsten Funktionen von Unicode ist die Unterstützung der bidirektionalen ( Bidi ) Textanzeige von rechts nach links (R-nach-L) und von links nach rechts (L-nach-R). Der bidirektionale Unicode-Algorithmus UAX9 beschreibt den Prozess der Textpräsentation mit sich ändernden Skriptrichtungen. Sie ermöglicht beispielsweise ein hebräisches Zitat in einem englischen Text. Der Bidi_Character_Type kennzeichnet das Verhalten eines Zeichens beim gerichteten Schreiben. Um eine Richtung zu überschreiben, hat Unicode spezielle Formatierungssteuerzeichen ( Bidi-Control s) definiert. Diese Zeichen können eine Richtung erzwingen und wirken sich per Definition nur auf das bidirektionale Schreiben aus.

Jeder Codepunkt hat eine Eigenschaft namens Bidi_Class . Es definiert sein Verhalten in einem bidirektionalen Text, wie er vom Algorithmus interpretiert wird:

Bidirektionaler Zeichentyp ( Unicode- Zeicheneigenschaft Bidi_Class)

Typ	Beschreibung	Stärke	Direktionalität	Allgemeiner Geltungsbereich	Bidi_Control-Charakter
L	Links nach rechts	Stark	L-nach-R	Die meisten alphabetischen und silbischen Zeichen, chinesische Zeichen, nichteuropäische oder nichtarabische Ziffern, LRM-Zeichen, ...	U+200E MARKIERUNG VON LINKS NACH RECHTS (LRM)
R	Rechts nach links	Stark	R-nach-L	Adlam, Hebräisch, Mandäisch, Mende Kikakui, N'Ko, Samaritan, alte Schriften wie Kharoshthi und Nabatäisch, RLM-Charakter, ...	U+200F RECHTS-nach-LINKS-MARKE (RLM)
AL	Arabischer Buchstabe	Stark	R-nach-L	Arabisch, Hanifi Rohingya, Sogdisch, Syrisch und Thaana Alphabete und die meisten für diese Schriften spezifischen Satzzeichen, ALM-Zeichen, ...	U+061C Arabisches Buchstabenzeichen (ALM)
DE	Europäische Nummer	Schwach		Europäische Ziffern, östliche arabisch-indische Ziffern, koptische Epaktzahlen, ...
ES	Europäisches Trennzeichen	Schwach		Pluszeichen , Minuszeichen , ...
ET	Europäischer Nummernabschluss	Schwach		Gradzeichen , Währungssymbole, ...
EIN	Arabische Zahl	Schwach		Arabisch-indische Ziffern, arabische Dezimal- und Tausendertrennzeichen, Rumi-Ziffern, Hanifi-Rohingya-Ziffern, ...
CS	Gemeinsames Zahlentrennzeichen	Schwach		Doppelpunkt , Komma , Punkt , Leerzeichen , ...
NSM	Markierung ohne Leerzeichen	Schwach		Zeichen in den allgemeinen Kategorien Mark, kein Leerzeichen und Mark, einschließend (Mn, Me)
BN	Grenzneutral	Schwach		Standard-Ignorables, Nicht-Zeichen, Steuerzeichen, die nicht explizit anderen Typen zugewiesen wurden
B	Absatztrennzeichen	Neutral		Absatztrenner , entsprechende Newline-Funktionen, Absatzermittlung des übergeordneten Protokolls
S	Segmenttrenner	Neutral		Registerkarten
WS	Leerzeichen	Neutral		Leerzeichen , Zahlenraum , Zeilentrenner , Seitenvorschub , Allgemein Satzzeichenblock Leerzeichen (kleiner Satz als die Unicode-Whitespace- Liste)
AN	Andere Neutrale	Neutral		Alle anderen Zeichen, einschließlich Objektersatzzeichen
LRE	Einbettung von links nach rechts	Explizit	L-nach-R	Nur LRE-Charakter	U+202A EINBETTEN VON LINKS NACH RECHTS (LRE)
LRO	Von links nach rechts überschreiben	Explizit	L-nach-R	Nur LRO-Charakter	U+202D LINKS NACH RECHTS OVERRIDE (LRO)
RLE	Einbettung von rechts nach links	Explizit	R-nach-L	Nur RLE-Zeichen	U+202B EINBETTEN VON RECHTS NACH LINKS (RLE)
VKE	Von rechts nach links überschreiben	Explizit	R-nach-L	Nur VKE-Charakter	U+202E RECHTS-nach-links-Override (RLO)
PDF	Pop-Richtungsformat	Explizit		Nur PDF-Zeichen	U+202C POP-RICHTUNGSFORMATIERUNG (PDF)
LRI	Von links nach rechts isolieren	Explizit	L-nach-R	Nur LRI-Zeichen	U+2066 VON LINKS NACH RECHTS ISOLIEREN (LRI)
RLI	Von rechts nach links isolieren	Explizit	R-nach-L	Nur RLI-Zeichen	U+2067 RECHTS NACH LINKS ISOLIEREN (RLI)
FSI	Erstes starkes Isolat	Explizit		Nur FSI-Charakter	U+2068 ERSTES STARKES ISOLAT (FSI)
PDI	Pop Directional Isolate	Explizit		Nur PDI-Zeichen	U+2069 POP-RICHTUNGSISOLAT (PDI)
Anmerkungen 1. ^ Bidirektionaler Unicode-Algorithmus (UAX#9) , Ab Unicode-Version 12.0 2. ^ Mögliche bidirektionale Zeichentypen für die Zeicheneigenschaft: Bidi_Class oder 'type' 3. ^ Bidi_Control-Zeichen : Zwölf Bidi_Control-Formatierungszeichen sind definiert. Sie sind unsichtbar und haben außer der Direktionalität keine Wirkung. Neun von ihnen haben einen einzigartigen, überstimmenden BiDi-Typ, der vom Algorithmus verwendet wird. Ihr Typ ist auch ihr Akronym (zB hat das Zeichen 'LRE' den BiDi-Typ 'LRE').

Im Normalfall kann der Algorithmus anhand dieser Zeicheneigenschaft die Richtung eines Textes bestimmen. Um komplexere Bidi-Situationen zu kontrollieren, zB wenn ein englischer Text ein hebräisches Zitat enthält, werden Unicode zusätzliche Optionen hinzugefügt. Zwölf Zeichen haben die Eigenschaft Bidi_Control=Yes : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM und RLO wie in der Tabelle benannt. Dies sind unsichtbare Formatierungssteuerzeichen, die nur vom Algorithmus verwendet werden und außerhalb der bidirektionalen Formatierung keine Auswirkungen haben. Trotz des Namens sind sie Formatierungszeichen, keine Steuerzeichen und haben in der Unicode-Definition die allgemeine Kategorie "Sonstiges, Format (Cf)".

Grundsätzlich ermittelt der Algorithmus eine Zeichenfolge mit dem gleichen starken Richtungstyp (R-nach-L oder L-nach-R) unter Berücksichtigung einer Übersteuerung durch die spezielle Bidi-Steuerung. Zahlenzeichenfolgen (schwache Typen) erhalten eine Richtung entsprechend ihrer starken Umgebung, ebenso wie neutrale Zeichen. Schließlich werden die Zeichen in Richtung einer Zeichenfolge angezeigt.

Zwei Zeicheneigenschaften sind relevant, um ein Spiegelbild einer Glyphe in bidirektionalem Text zu bestimmen: Bidi_Mirrored=Yes gibt an, dass die Glyphe gespiegelt werden soll, wenn sie von R nach L geschrieben wird. Die Eigenschaft Bidi_Mirroring_Glyph=U+ hhhh kann dann auf das gespiegelte Zeichen zeigen. Beispielsweise werden Klammern "()" auf diese Weise gespiegelt. Das Formen von kursiven Schriften wie Arabisch und das Spiegeln von Glyphen, die eine Richtung haben, ist nicht Teil des Algorithmus.

Gehäuse

Der Case-Wert ist in Unicode normativ. Es bezieht sich auf Skripte mit Großbuchstaben (auch Großbuchstaben, Majuskel genannt) und Kleinbuchstaben (auch Kleinbuchstaben genannt). Fallunterschiede treten in Adlam, Armenisch, Cherokee, Koptisch, Kyrillisch, Deseret, Glagolitisch, Griechisch, Khutsuri und Mkhedruli Georgisch, Latein, Medefaidrin, Altungarisch, Osage, Vithkuqi und Warang Citi auf.

(oben, unten, Titel, Falzen – sowohl einfach als auch vollständig)

Numerische Werte und Typen

Dezimal

Zeichen werden mit einem numerischen Typ klassifiziert . Zeichen wie Brüche, tiefgestellte, hochgestellte Zeichen, römische Ziffern, Währungszähler, eingekreiste Zahlen und skriptspezifische Ziffern sind vom Typ Numerisch. Sie haben einen numerischen Wert , der dezimal sein kann, einschließlich Null und Negativ, oder ein vulgärer Bruch. Wenn es keinen solchen Wert gibt, wie bei den meisten Zeichen, ist der numerische Typ "Keiner".

Die Zeichen, die einen numerischen Wert haben, werden in drei Gruppen unterteilt: Dezimal (De), Ziffer (Di) und Numerisch (Nu, dh alle anderen). "Dezimal" bedeutet, dass das Zeichen eine gerade Dezimalziffer ist. Nur Zeichen, die Teil eines zusammenhängenden codierten Bereichs 0..9 sind, haben den numerischen Typ Dezimal. Andere Ziffern, wie hochgestellte Zeichen, haben den numerischen Typ Digit. Alle numerischen Zeichen wie Brüche und römische Ziffern enden mit dem Typ "Numerisch". Der beabsichtigte Effekt besteht darin, dass ein einfacher Parser diese dezimalen Zahlenwerte verwenden kann, ohne beispielsweise durch eine hochgestellte Zahl oder einen Bruch abgelenkt zu werden. Dreiundsiebzig CJK-Ideogramme, die eine Zahl darstellen, einschließlich der für die Buchhaltung verwendeten, werden numerisch eingegeben.

Auf der anderen Seite werden Zeichen, die einen numerischen Wert als zweite Bedeutung haben könnten, immer noch als numerischer Typ "Keine" gekennzeichnet und haben keinen numerischen Wert (""). ZB können lateinische Buchstaben in der Absatznummerierung wie "II.A.1.b" verwendet werden, aber die Buchstaben "I", "A" und "b" sind nicht numerisch (Typ "Keine") und haben keinen numerischen Wert.

v T e Numerischer Typ ( Unicode- Zeicheneigenschaft )
Numerischer Typ	Code	Hat numerischen Wert	Beispiel	Bemerkungen
Nicht numerisch	`None`	Nein	EIN X (lateinisch) ! Д μ に	Numerischer Wert="NaN"
Dezimal	`De`	Jawohl	0 1 9 6 (Devanaga 6) 6 (Kannada 6) 𝟨 (Mathematisch, gestylt ohne Serifen)	Gerade Ziffer (Dezimal- Radix ). Entspricht in beide Richtungen mit General Category =Nd
Ziffer	`Di`	Jawohl	¹ (hochgestellt) ① ⒈ (Ziffer mit Punkt )	Dezimal, aber im typografischen Kontext
Numerisch	`Nu`	Jawohl	¾ ௰ (Tamil Nummer zehn) Ⅹ (römische Zahl) 六 (Han-Nummer 6)	Numerischer Wert, aber kein Dezimal-Radix
A. ^ "Abschnitt 4.6: Numerischer Wert" (PDF) . Der Unicode-Standard . Unicode-Konsortium. September 2021.
B. ^ "Unicode 14.0 Abgeleitete numerische Typen" . Datenbank für Unicode-Zeichen . Unicode-Konsortium. 2021-03-08.

Hexadezimale Ziffern

Hexadezimalzeichen sind die der Reihe mit den Hexadezimalwerten 0...9ABCDEF (sechzehn Zeichen, Dezimalwert 0-15). Die Charaktereigenschaft Hex_Digit wird auf Yes gesetzt, wenn sich ein Charakter in einer solchen Serie befindet:

Zeichen in Unicode markiert `Hex_Digit=Yes`
`0123456789ABCDEF`	Grundlegendes Latein, Großbuchstaben	Ebenfalls `ASCII_Hex_Digit=Yes`
`0123456789abcdef`	Grundlegendes Latein, Kleinbuchstaben	Ebenfalls `ASCII_Hex_Digit=Yes`
`０１２３４５６７８９ＡＢＣＤＥＦ`	Formulare in voller Breite , Großbuchstaben
`０１２３４５６７８９ａｂｃｄｅｆ`	Formulare in voller Breite, Kleinbuchstaben
A. ^ "Unicode 14.0 UCD: PropList.txt" . 2021-08-12 . Abgerufen 2020-03-12 .

Vierundvierzig Zeichen sind als Hex_Digit gekennzeichnet. Die im Block Basic Latin sind auch als ASCII_Hex_Digit gekennzeichnet .

Unicode hat keine separaten Zeichen für hexadezimale Werte. Dies hat zur Folge, dass bei der Verwendung von regulären Zeichen nicht festgestellt werden kann, ob ein hexadezimaler Wert gemeint ist oder gar ein Wert gemeint ist. Das sollte auf einer höheren Ebene bestimmt werden, zB durch Voranstellen von "0x" an eine Hexadezimalzahl oder durch den Kontext. Die einzige Funktion besteht darin, dass Unicode feststellen kann, dass eine Sequenz ein hexadezimaler Wert sein kann oder nicht .

Block

Ein Block ist ein eindeutig benannter, zusammenhängender Bereich von Codepunkten. Es wird durch seinen ersten und letzten Codepunkt identifiziert. Blöcke überlappen sich nicht . Ein Block kann Codepunkte enthalten , die reserviert sind, nicht zugewiesen usw. Jedes Zeichen , das ist zugewiesen, einen einzelnen „Blockname“ Wert aus den wie von Unicode Version 14.0 Nicht zugewiesene Codepunkte außerhalb eines bestehenden Block zugewiesen Namen 320 hat, sind die Standardwert "No_block".

v T e Unicode-Blöcke und enthaltene Skripte
Ebene	Blockbereich	Blockname	Codepunkte	Zugewiesene Charaktere	Skripte
0 BMP	U+0000..U+007F	Grundkenntnisse in Latein	128	128	Latein (52 Zeichen), Allgemein (76 Zeichen)
0 BMP	U+0080..U+00FF	Latein-1-Ergänzung	128	128	Latein (64 Zeichen), Allgemein (64 Zeichen)
0 BMP	U+0100..U+017F	Lateinisches Extended-A	128	128	Latein
0 BMP	U+0180..U+024F	Lateinisches Extended-B	208	208	Latein
0 BMP	U+0250..U+02AF	IPA-Erweiterungen	96	96	Latein
0 BMP	U+02B0..U+02FF	Abstandsmodifikatorbuchstaben	80	80	Bopomofo (2 Zeichen), Latein (14 Zeichen), Common (64 Zeichen)
0 BMP	U+0300..U+036F	Kombinieren von diakritischen Zeichen	112	112	Vererbt
0 BMP	U+0370..U+03FF	Griechisch und Koptisch	144	135	Koptisch (14 Zeichen), Griechisch (117 Zeichen), Gewöhnlich (4 Zeichen)
0 BMP	U+0400..U+04FF	kyrillisch	256	256	Kyrillisch (254 Zeichen), Vererbt (2 Zeichen)
0 BMP	U+0500..U+052F	Kyrillische Ergänzung	48	48	kyrillisch
0 BMP	U+0530..U+058F	Armenisch	96	91	Armenisch
0 BMP	U+0590..U+05FF	hebräisch	112	88	hebräisch
0 BMP	U+0600..U+06FF	Arabisch	256	256	Arabisch (238 Zeichen), Allgemein (6 Zeichen), Vererbt (12 Zeichen)
0 BMP	U+0700..U+074F	Syrisch	80	77	Syrisch
0 BMP	U+0750..U+077F	Arabische Ergänzung	48	48	Arabisch
0 BMP	U+0780..U+07BF	Thaana	64	50	Thaana
0 BMP	U+07C0..U+07FF	NKo	64	62	Nko
0 BMP	U+0800..U+083F	Samariter	64	61	Samariter
0 BMP	U+0840..U+085F	Mandaisch	32	29	Mandaisch
0 BMP	U+0860..U+086F	Syrische Ergänzung	16	11	Syrisch
0 BMP	U+0870..U+089F	Arabisch Extended-B	48	41	Arabisch
0 BMP	U+08A0..U+08FF	Arabisch Extended-A	96	96	Arabisch (95 Zeichen), Allgemein (1 Zeichen)
0 BMP	U+0900..U+097F	Devanagari	128	128	Devanagari (122 Zeichen), Gewöhnlich (2 Zeichen), Vererbt (4 Zeichen)
0 BMP	U+0980..U+09FF	Bengali	128	96	Bengali
0 BMP	U+0A00..U+0A7F	Gurmukhi	128	80	Gurmukhi
0 BMP	U+0A80..U+0AFF	Gujarati	128	91	Gujarati
0 BMP	U+0B00..U+0B7F	Oriya	128	91	Oriya
0 BMP	U+0B80..U+0BFF	Tamil	128	72	Tamil
0 BMP	U+0C00..U+0C7F	Telugu	128	100	Telugu
0 BMP	U+0C80..U+0CFF	Kannada	128	90	Kannada
0 BMP	U+0D00..U+0D7F	Malayalam	128	118	Malayalam
0 BMP	U+0D80..U+0DFF	singhalesisch	128	91	singhalesisch
0 BMP	U+0E00..U+0E7F	Thai	128	87	Thai (86 Zeichen), Allgemein (1 Zeichen)
0 BMP	U+0E80..U+0EFF	Laos	128	82	Laos
0 BMP	U+0F00..U+0FFF	Tibetisch	256	211	Tibetisch (207 Zeichen), Gewöhnlich (4 Zeichen)
0 BMP	U+1000..U+109F	Myanmar	160	160	Myanmar
0 BMP	U+10A0..U+10FF	georgisch	96	88	Georgisch (87 Zeichen), Allgemein (1 Zeichen)
0 BMP	U+1100..U+11FF	Hangul Jamo	256	256	Hangul
0 BMP	U+1200..U+137F	Äthiopisch	384	358	Äthiopisch
0 BMP	U+1380..U+139F	Äthiopische Ergänzung	32	26	Äthiopisch
0 BMP	U+13A0..U+13FF	Cherokee	96	92	Cherokee
0 BMP	U+1400..U+167F	Einheitliche Kanadische Ureinwohner-Syllabics	640	640	Kanadische Aborigines
0 BMP	U+1680..U+169F	Ogham	32	29	Ogham
0 BMP	U+16A0..U+16FF	Runen	96	89	Runen (86 Zeichen), Gewöhnlich (3 Zeichen)
0 BMP	U+1700..U+171F	Tagalog	32	23	Tagalog
0 BMP	U+1720..U+173F	Hanunoo	32	23	Hanunoo (21 Zeichen), Gewöhnlich (2 Zeichen)
0 BMP	U+1740..U+175F	Buhid	32	20	Buhid
0 BMP	U+1760..U+177F	Tagbanwa	32	18	Tagbanwa
0 BMP	U+1780..U+17FF	Khmer	128	114	Khmer
0 BMP	U+1800..U+18AF	mongolisch	176	158	Mongolisch (155 Zeichen), Gewöhnlich (3 Zeichen)
0 BMP	U+18B0..U+18FF	Einheitliche Kanadische Ureinwohner-Syllabics Extended	80	70	Kanadische Aborigines
0 BMP	U+1900..U+194F	Limbu	80	68	Limbu
0 BMP	U+1950..U+197F	Tai Le	48	35	Tai Le
0 BMP	U+1980..U+19DF	Neues Tai Lue	96	83	Neues Tai Lue
0 BMP	U+19E0..U+19FF	Khmer-Symbole	32	32	Khmer
0 BMP	U+1A00..U+1A1F	Buginesisch	32	30	Buginesisch
0 BMP	U+1A20..U+1AAF	Tai Tham	144	127	Tai Tham
0 BMP	U+1AB0..U+1AFF	Kombinieren von diakritischen Zeichen erweitert	80	31	Vererbt
0 BMP	U+1B00..U+1B7F	Balinesisch	128	124	Balinesisch
0 BMP	U+1B80..U+1BBF	Sundanesisch	64	64	Sundanesisch
0 BMP	U+1BC0..U+1BFF	Batak	64	56	Batak
0 BMP	U+1C00..U+1C4F	Lepcha	80	74	Lepcha
0 BMP	U+1C50..U+1C7F	Ol Chiki	48	48	Ol Chiki
0 BMP	U+1C80..U+1C8F	Kyrillisches erweitertes C	16	9	kyrillisch
0 BMP	U+1C90..U+1CBF	Georgisch Erweitert	48	46	georgisch
0 BMP	U+1CC0..U+1CCF	Sundanesische Ergänzung	16	8	Sundanesisch
0 BMP	U+1CD0..U+1CFF	Vedische Erweiterungen	48	43	Allgemein (16 Zeichen), Vererbt (27 Zeichen)
0 BMP	U+1D00..U+1D7F	Phonetische Erweiterungen	128	128	Kyrillisch (2 Zeichen), Griechisch (15 Zeichen), Latein (111 Zeichen)
0 BMP	U+1D80..U+1DBF	Ergänzung für phonetische Durchwahlen	64	64	Griechisch (1 Zeichen), Latein (63 Zeichen)
0 BMP	U+1DC0..U+1DFF	Ergänzung zum Kombinieren von diakritischen Zeichen	64	64	Vererbt
0 BMP	U+1E00..U+1EFF	Lateinisch erweitertes Zusatz	256	256	Latein
0 BMP	U+1F00..U+1FFF	Griechisch erweitert	256	233	griechisch
0 BMP	U+2000..U+206F	Allgemeine Interpunktion	112	111	Allgemein (109 Zeichen), Vererbt (2 Zeichen)
0 BMP	U+2070..U+209F	Hoch- und Tiefstellungen	48	42	Latein (15 Zeichen), Allgemein (27 Zeichen)
0 BMP	U+20A0..U+20CF	Währungssymbole	48	33	Verbreitet
0 BMP	U+20D0..U+20FF	Kombinieren von diakritischen Zeichen für Symbole	48	33	Vererbt
0 BMP	U+2100..U+214F	Buchstabenähnliche Symbole	80	80	Griechisch (1 Zeichen), Latein (4 Zeichen), Allgemein (75 Zeichen)
0 BMP	U+2150..U+218F	Zahlenformulare	64	60	Latein (41 Zeichen), Allgemein (19 Zeichen)
0 BMP	U+2190..U+21FF	Pfeile	112	112	Verbreitet
0 BMP	U+2200..U+22FF	Mathematische Operatoren	256	256	Verbreitet
0 BMP	U+2300..U+23FF	Sonstiges Technisches	256	256	Verbreitet
0 BMP	U+2400..U+243F	Bilder steuern	64	39	Verbreitet
0 BMP	U+2440..U+245F	Optische Zeichenerkennung	32	11	Verbreitet
0 BMP	U+2460..U+24FF	Beiliegende alphanumerische Zeichen	160	160	Verbreitet
0 BMP	U+2500..U+257F	Schachtelzeichnung	128	128	Verbreitet
0 BMP	U+2580..U+259F	Blockelemente	32	32	Verbreitet
0 BMP	U+25A0..U+25FF	Geometrische Formen	96	96	Verbreitet
0 BMP	U+2600..U+26FF	Verschiedene Symbole	256	256	Verbreitet
0 BMP	U+2700..U+27BF	Dingbats	192	192	Verbreitet
0 BMP	U+27C0..U+27EF	Verschiedene mathematische Symbole-A	48	48	Verbreitet
0 BMP	U+27F0..U+27FF	Zusätzliche Pfeile-A	16	16	Verbreitet
0 BMP	U+2800..U+28FF	Braille-Muster	256	256	Blindenschrift
0 BMP	U+2900..U+297F	Zusätzliche Pfeile-B	128	128	Verbreitet
0 BMP	U+2980..U+29FF	Verschiedene mathematische Symbole-B	128	128	Verbreitet
0 BMP	U+2A00..U+2AFF	Ergänzende mathematische Operatoren	256	256	Verbreitet
0 BMP	U+2B00..U+2BFF	Verschiedene Symbole und Pfeile	256	253	Verbreitet
0 BMP	U+2C00..U+2C5F	glagolitisch	96	96	glagolitisch
0 BMP	U+2C60..U+2C7F	Lateinisches Extended-C	32	32	Latein
0 BMP	U+2C80..U+2CFF	koptisch	128	123	koptisch
0 BMP	U+2D00..U+2D2F	Georgische Ergänzung	48	40	georgisch
0 BMP	U+2D30..U+2D7F	Tifinagh	80	59	Tifinagh
0 BMP	U+2D80..U+2DDF	Äthiopisch erweitert	96	79	Äthiopisch
0 BMP	U+2DE0..U+2DFF	Kyrillisches erweitertes A	32	32	kyrillisch
0 BMP	U+2E00..U+2E7F	Ergänzende Satzzeichen	128	94	Verbreitet
0 BMP	U+2E80..U+2EFF	CJK-Radikale-Ergänzung	128	115	Han
0 BMP	U+2F00..U+2FDF	Kangxi-Radikale	224	214	Han
0 BMP	U+2FF0..U+2FFF	Ideografische Beschreibungszeichen	16	12	Verbreitet
0 BMP	U+3000..U+303F	CJK-Symbole und Satzzeichen	64	64	Han (15 Zeichen), Hangul (2 Zeichen), Gewöhnlich (43 Zeichen), Vererbt (4 Zeichen)
0 BMP	U+3040..U+309F	Hiragana	96	93	Hiragana (89 Zeichen), Gewöhnlich (2 Zeichen), Vererbt (2 Zeichen)
0 BMP	U+30A0..U+30FF	Katakana	96	96	Katakana (93 Zeichen), Allgemein (3 Zeichen)
0 BMP	U+3100..U+312F	Bopomofo	48	43	Bopomofo
0 BMP	U+3130..U+318F	Hangul-Kompatibilität Jamo	96	94	Hangul
0 BMP	U+3190..U+319F	Kanbun	16	16	Verbreitet
0 BMP	U+31A0..U+31BF	Bopomofo erweitert	32	32	Bopomofo
0 BMP	U+31C0..U+31EF	CJK-Anschläge	48	36	Verbreitet
0 BMP	U+31F0..U+31FF	Katakana Phonetische Erweiterungen	16	16	Katakana
0 BMP	U+3200..U+32FF	Beiliegende CJK-Briefe und Monate	256	255	Hangul (62 Zeichen), Katakana (47 Zeichen), Common (146 Zeichen)
0 BMP	U+3300..U+33FF	CJK-Kompatibilität	256	256	Katakana (88 Zeichen), Allgemein (168 Zeichen)
0 BMP	U+3400..U+4DBF	CJK Unified Ideographs Erweiterung A	6.592	6.592	Han
0 BMP	U+4DC0..U+4DFF	Yijing-Hexagramm-Symbole	64	64	Verbreitet
0 BMP	U+4E00..U+9FFF	CJK Einheitliche Ideogramme	20.992	20.992	Han
0 BMP	U+A000..U+A48F	Yi-Silben	1.168	1.165	Ja
0 BMP	U+A490..U+A4CF	Yi-Radikale	64	55	Ja
0 BMP	U+A4D0..U+A4FF	Lisu	48	48	Lisu
0 BMP	U+A500..U+A63F	Vai	320	300	Vai
0 BMP	U+A640..U+A69F	Kyrillisch Extended-B	96	96	kyrillisch
0 BMP	U+A6A0..U+A6FF	Bamum	96	88	Bamum
0 BMP	U+A700..U+A71F	Modifikatorton-Buchstaben	32	32	Verbreitet
0 BMP	U+A720..U+A7FF	Lateinisches Extended-D	224	193	Latein (188 Zeichen), Allgemein (5 Zeichen)
0 BMP	U+A800..U+A82F	Syloti Nagri	48	45	Syloti Nagri
0 BMP	U+A830..U+A83F	Gemeinsame Indizes-Zahlen-Formen	16	10	Verbreitet
0 BMP	U+A840..U+A87F	Phags-pa	64	56	Phags Pa
0 BMP	U+A880..U+A8DF	Saurashtra	96	82	Saurashtra
0 BMP	U+A8E0..U+A8FF	Devanagari erweitert	32	32	Devanagari
0 BMP	U+A900..U+A92F	Kayah Li	48	48	Kayah Li (47 Zeichen), Gewöhnlich (1 Zeichen)
0 BMP	U+A930..U+A95F	Rejang	48	37	Rejang
0 BMP	U+A960..U+A97F	Hangul Jamo Extended-A	32	29	Hangul
0 BMP	U+A980..U+A9DF	Javanisch	96	91	Javanisch (90 Zeichen), Allgemein (1 Zeichen)
0 BMP	U+A9E0..U+A9FF	Myanmar Extended-B	32	31	Myanmar
0 BMP	U+AA00..U+AA5F	Cham	96	83	Cham
0 BMP	U+AA60..U+AA7F	Myanmar Extended-A	32	32	Myanmar
0 BMP	U+AA80..U+AADF	Tai Viet	96	72	Tai Viet
0 BMP	U+AAE0..U+AAFF	Meetei Mayek-Erweiterungen	32	23	Meetei Mayek
0 BMP	U+AB00..U+AB2F	Äthiopisches Extended-A	48	32	Äthiopisch
0 BMP	U+AB30..U+AB6F	Lateinisches Extended-E	64	60	Latein (56 Zeichen), Griechisch (1 Zeichen), Allgemein (3 Zeichen)
0 BMP	U+AB70..U+ABBF	Cherokee-Ergänzung	80	80	Cherokee
0 BMP	U+ABC0..U+ABFF	Meetei Mayek	64	56	Meetei Mayek
0 BMP	U+AC00..U+D7AF	Hangul-Silben	11.184	11.172	Hangul
0 BMP	U+D7B0..U+D7FF	Hangul Jamo Extended-B	80	72	Hangul
0 BMP	U+D800..U+DB7F	Hohe Stellvertreter	896	0	Unbekannt
0 BMP	U+DB80..U+DBFF	Surrogate für den hohen privaten Gebrauch	128	0	Unbekannt
0 BMP	U+DC00..U+DFFF	Niedrige Leihmütter	1.024	0	Unbekannt
0 BMP	U+E000..U+F8FF	Privatnutzungsbereich	6.400	6.400	Unbekannt
0 BMP	U+F900..U+FAFF	CJK-Kompatibilitäts-Ideogramme	512	472	Han
0 BMP	U+FB00..U+FB4F	Alphabetische Präsentationsformulare	80	58	Armenisch (5 Zeichen), Hebräisch (46 Zeichen), Latein (7 Zeichen)
0 BMP	U+FB50..U+FDFF	Arabische Präsentationsformen-A	688	631	Arabisch (629 Zeichen), Allgemein (2 Zeichen)
0 BMP	U+FE00..U+FE0F	Variantenauswahl	16	16	Vererbt
0 BMP	U+FE10..U+FE1F	Vertikale Formulare	16	10	Verbreitet
0 BMP	U+FE20..U+FE2F	Kombinieren von Halbmarken	16	16	Kyrillisch (2 Zeichen), Vererbt (14 Zeichen)
0 BMP	U+FE30..U+FE4F	CJK-Kompatibilitätsformulare	32	32	Verbreitet
0 BMP	U+FE50..U+FE6F	Kleine Formvarianten	32	26	Verbreitet
0 BMP	U+FE70..U+FEFF	Arabische Präsentationsformen-B	144	141	Arabisch (140 Zeichen), Allgemein (1 Zeichen)
0 BMP	U+FF00..U+FFEF	Formulare mit halber und voller Breite	240	225	Hangul (52 Zeichen), Katakana (55 Zeichen), Latein (52 Zeichen), Allgemein (66 Zeichen)
0 BMP	U+FFF0..U+FFFF	Sonderangebote	16	5	Verbreitet
1 SMP	U+10000..U+1007F	Lineares B Syllabary	128	88	Linear B
1 SMP	U+10080..U+100FF	Lineare B-Ideogramme	128	123	Linear B
1 SMP	U+10100..U+1013F	Ägäische Zahlen	64	57	Verbreitet
1 SMP	U+10140..U+1018F	Antike griechische Zahlen	80	79	griechisch
1 SMP	U+10190..U+101CF	Antike Symbole	64	14	Griechisch (1 Zeichen), Allgemein (13 Zeichen)
1 SMP	U+101D0..U+101FF	Phaistos-Scheibe	48	46	Allgemein (45 Zeichen), Vererbt (1 Zeichen)
1 SMP	U+10280..U+1029F	Lykisch	32	29	Lykisch
1 SMP	U+102A0..U+102DF	Karier	64	49	Karier
1 SMP	U+102E0..U+102FF	Koptische Epakt-Zahlen	32	28	Allgemein (27 Zeichen), Vererbt (1 Zeichen)
1 SMP	U+10300..U+1032F	Alte Kursivschrift	48	39	Alte Kursivschrift
1 SMP	U+10330..U+1034F	gotisch	32	27	gotisch
1 SMP	U+10350..U+1037F	Alte Permik	48	43	Alte Permik
1 SMP	U+10380..U+1039F	Ugaritisch	32	31	Ugaritisch
1 SMP	U+103A0..U+103DF	Altpersisch	64	50	Altpersisch
1 SMP	U+10400..U+1044F	Wüste	80	80	Wüste
1 SMP	U+10450..U+1047F	Shavian	48	48	Shavian
1 SMP	U+10480..U+104AF	Osmanya	48	40	Osmanya
1 SMP	U+104B0..U+104FF	Osage	80	72	Osage
1 SMP	U+10500..U+1052F	Elbasan	48	40	Elbasan
1 SMP	U+10530..U+1056F	Kaukasischer Albaner	64	53	Kaukasischer Albaner
1 SMP	U+10570..U+105BF	Vithkuqi	80	70	Vithkuqi
1 SMP	U+10600..U+1077F	Linear A	384	341	Linear A
1 SMP	U+10780..U+107BF	Lateinisches Extended-F	64	57	Latein
1 SMP	U+10800..U+1083F	Zypriotisches Syllabary	64	55	Zypriotisch
1 SMP	U+10840..U+1085F	Kaiserliches Aramäisch	32	31	Kaiserliches Aramäisch
1 SMP	U+10860..U+1087F	Palmyren	32	32	Palmyren
1 SMP	U+10880..U+108AF	Nabatäer	48	40	Nabatäer
1 SMP	U+108E0..U+108FF	Hatran	32	26	Hatran
1 SMP	U+10900..U+1091F	phönizisch	32	29	phönizisch
1 SMP	U+10920..U+1093F	Lydian	32	27	Lydian
1 SMP	U+10980..U+1099F	Meroitische Hieroglyphen	32	32	Meroitische Hieroglyphen
1 SMP	U+109A0..U+109FF	Meroitische Kursive	96	90	Meroitische Kursive
1 SMP	U+10A00..U+10A5F	Kharoshthi	96	68	Kharoshthi
1 SMP	U+10A60..U+10A7F	Alt-Südarabisch	32	32	Alt-Südarabisch
1 SMP	U+10A80..U+10A9F	Alt-Nordarabien	32	32	Alt-Nordarabien
1 SMP	U+10AC0..U+10AFF	Manichäer	64	51	Manichäer
1 SMP	U+10B00..U+10B3F	Avestan	64	61	Avestan
1 SMP	U+10B40..U+10B5F	Inschriftlicher Parther	32	30	Inschriftlicher Parther
1 SMP	U+10B60..U+10B7F	Inschriftliches Pahlavi	32	27	Inschriftliches Pahlavi
1 SMP	U+10B80..U+10BAF	Psalter Pahlavi	48	29	Psalter Pahlavi
1 SMP	U+10C00..U+10C4F	Alttürkisch	80	73	Alttürkisch
1 SMP	U+10C80..U+10CFF	Alt-Ungarisch	128	108	Alt-Ungarisch
1 SMP	U+10D00..U+10D3F	Hanifi Rohingya	64	50	Hanifi Rohingya
1 SMP	U+10E60..U+10E7F	Rumi Zahlensymbole	32	31	Arabisch
1 SMP	U+10E80..U+10EBF	Yeziden	64	47	Yeziden
1 SMP	U+10F00..U+10F2F	Alte Sogdian	48	40	Alte Sogdian
1 SMP	U+10F30..U+10F6F	Sogdian	64	42	Sogdian
1 SMP	U+10F70..U+10FAF	Alte Uiguren	64	26	Alte Uiguren
1 SMP	U+10FB0..U+10FDF	Chorasmian	48	28	Chorasmian
1 SMP	U+10FE0..U+10FFF	Elymaisch	32	23	Elymaisch
1 SMP	U+11000..U+1107F	Brahmi	128	115	Brahmi
1 SMP	U+11080..U+110CF	Kaithi	80	68	Kaithi
1 SMP	U+110D0..U+110FF	Sora Sompeng	48	35	Sora Sompeng
1 SMP	U+11100..U+1114F	Chakma	80	71	Chakma
1 SMP	U+11150..U+1117F	Mahajani	48	39	Mahajani
1 SMP	U+11180..U+111DF	Sharada	96	96	Sharada
1 SMP	U+111E0..U+111FF	Singhalesische archaische Zahlen	32	20	singhalesisch
1 SMP	U+11200..U+1124F	Khojki	80	62	Khojki
1 SMP	U+11280..U+112AF	Multani	48	38	Multani
1 SMP	U+112B0..U+112FF	Khudawadi	80	69	Khudawadi
1 SMP	U+11300..U+1137F	Grantha	128	86	Grantha (85 Zeichen), geerbt (1 Zeichen)
1 SMP	U+11400..U+1147F	Newa	128	97	Newa
1 SMP	U+11480..U+114DF	Tirhuta	96	82	Tirhuta
1 SMP	U+11580..U+115FF	Siddham	128	92	Siddham
1 SMP	U+11600..U+1165F	Modi	96	79	Modi
1 SMP	U+11660..U+1167F	Mongolische Ergänzung	32	13	mongolisch
1 SMP	U+11680..U+116CF	Takri	80	68	Takri
1 SMP	U+11700..U+1174F	Ahom	80	65	Ahom
1 SMP	U+11800..U+1184F	Dogra	80	60	Dogra
1 SMP	U+118A0..U+118FF	Warang Citi	96	84	Warang Citi
1 SMP	U+11900..U+1195F	Tauchgänge Akuru	96	72	Tauchgänge Akuru
1 SMP	U+119A0..U+119FF	Nandinagari	96	65	Nandinagari
1 SMP	U+11A00..U+11A4F	Zanabazar-Platz	80	72	Zanabazar-Platz
1 SMP	U+11A50..U+11AAF	Soyombo	96	83	Soyombo
1 SMP	U+11AB0..U+11ABF	Unified Canadian Aboriginal Syllabics Extended-A	16	16	Kanadische Aborigines
1 SMP	U+11AC0..U+11AFF	Pau Cin Hau	64	57	Pau Cin Hau
1 SMP	U+11C00..U+11C6F	Bhaiksuki	112	97	Bhaiksuki
1 SMP	U+11C70..U+11CBF	Marken	80	68	Marken
1 SMP	U+11D00..U+11D5F	Masaram Gondi	96	75	Masaram Gondi
1 SMP	U+11D60..U+11DAF	Gunjala Gondi	80	63	Gunjala Gondi
1 SMP	U+11EE0..U+11EFF	Makasar	32	25	Makasar
1 SMP	U+11FB0..U+11FBF	Lisu-Ergänzung	16	1	Lisu
1 SMP	U+11FC0..U+11FFF	Tamilische Ergänzung	64	51	Tamil
1 SMP	U+12000..U+123FF	Keilschrift	1.024	922	Keilschrift
1 SMP	U+12400..U+1247F	Keilschrift und Satzzeichen	128	116	Keilschrift
1 SMP	U+12480..U+1254F	Frühdynastische Keilschrift	208	196	Keilschrift
1 SMP	U+12F90..U+12FFF	Zypern-Minoan	112	99	Zypernminoisch
1 SMP	U+13000..U+1342F	Ägyptische Hieroglyphen	1.072	1.071	Ägyptische Hieroglyphen
1 SMP	U+13430..U+1343F	Steuerelemente für das ägyptische Hieroglyphenformat	16	9	Ägyptische Hieroglyphen
1 SMP	U+14400..U+1467F	Anatolische Hieroglyphen	640	583	Anatolische Hieroglyphen
1 SMP	U+16800..U+16A3F	Bambus-Ergänzung	576	569	Bamum
1 SMP	U+16A40..U+16A6F	Mehr	48	43	Mehr
1 SMP	U+16A70..U+16ACF	Tangsa	96	89	Tangsa
1 SMP	U+16AD0..U+16AFF	Bassa Vah	48	36	Bassa Vah
1 SMP	U+16B00..U+16B8F	Pahawh Hmong	144	127	Pahawh Hmong
1 SMP	U+16E40..U+16E9F	Medefaidrin	96	91	Medefaidrin
1 SMP	U+16F00..U+16F9F	Miao	160	149	Miao
1 SMP	U+16FE0..U+16FFF	Ideografische Symbole und Satzzeichen	32	7	Han (4 Charaktere), Khitan Small Script (1 Charakter), Nushu (1 Charakter), Tangut (1 Charakter)
1 SMP	U+17000..U+187FF	Tangut	6.144	6.136	Tangut
1 SMP	U+18800..U+18AFF	Tangut-Komponenten	768	768	Tangut
1 SMP	U+18B00..U+18CFF	Khitan Kleines Skript	512	470	Khitan Kleines Skript
1 SMP	U+18D00..U+18D7F	Tangut-Ergänzung	128	9	Tangut
1 SMP	U+1AFF0..U+1AFFF	Kana Extended-B	16	13	Katakana
1 SMP	U+1B000..U+1B0FF	Kana-Ergänzung	256	256	Hiragana (255 Zeichen), Katakana (1 Zeichen)
1 SMP	U+1B100..U+1B12F	Kana Extended-A	48	35	Hiragana (32 Zeichen), Katakana (3 Zeichen)
1 SMP	U+1B130..U+1B16F	Kleine Kana-Erweiterung	64	7	Hiragana (3 Zeichen), Katakana (4 Zeichen)
1 SMP	U+1B170..U+1B2FF	Nushu	400	396	Nüshu
1 SMP	U+1BC00..U+1BC9F	Duployan	160	143	Duployan
1 SMP	U+1BCA0..U+1BCAF	Steuerelemente für das Kürzelformat	16	4	Verbreitet
1 SMP	U+1CF00..U+1CFCF	Znamenny Musiknotation	208	185	Allgemein (116 Zeichen), Vererbt (69 Zeichen)
1 SMP	U+1D000..U+1D0FF	Byzantinische Musiksymbole	256	246	Verbreitet
1 SMP	U+1D100..U+1D1FF	Musikalische Symbole	256	233	Allgemein (211 Zeichen), Vererbt (22 Zeichen)
1 SMP	U+1D200..U+1D24F	Altgriechische Musiknotation	80	70	griechisch
1 SMP	U+1D2E0..U+1D2FF	Maya-Zahlen	32	20	Verbreitet
1 SMP	U+1D300..U+1D35F	Tai-Xuan-Jing-Symbole	96	87	Verbreitet
1 SMP	U+1D360..U+1D37F	Zählstab-Ziffern	32	25	Verbreitet
1 SMP	U+1D400..U+1D7FF	Mathematische alphanumerische Symbole	1.024	996	Verbreitet
1 SMP	U+1D800..U+1DAAF	Sutton SignWriting	688	672	Gebärdenschreiben
1 SMP	U+1DF00..U+1DFFF	Lateinisches Extended-G	256	31	Latein
1 SMP	U+1E000..U+1E02F	Glagolitische Ergänzung	48	38	glagolitisch
1 SMP	U+1E100..U+1E14F	Nyiakeng Puachue Hmong	80	71	Nyiakeng Puachue Hmong
1 SMP	U+1E290..U+1E2BF	Toto	48	31	Toto
1 SMP	U+1E2C0..U+1E2FF	Wancho	64	59	Wancho
1 SMP	U+1E7E0..U+1E7FF	Äthiopisches erweitertes B	32	28	Äthiopisch
1 SMP	U+1E800..U+1E8DF	Mende Kikakui	224	213	Mende Kikakui
1 SMP	U+1E900..U+1E95F	Adlam	96	88	Adlam
1 SMP	U+1EC70..U+1ECBF	Indische Siyaq-Zahlen	80	68	Verbreitet
1 SMP	U+1ED00..U+1ED4F	Osmanische Siyaq-Zahlen	80	61	Verbreitet
1 SMP	U+1EE00..U+1EEFF	Arabische mathematische alphabetische Symbole	256	143	Arabisch
1 SMP	U+1F000..U+1F02F	Mahjong-Fliesen	48	44	Verbreitet
1 SMP	U+1F030..U+1F09F	Domino-Fliesen	112	100	Verbreitet
1 SMP	U+1F0A0..U+1F0FF	Kartenspielen	96	82	Verbreitet
1 SMP	U+1F100..U+1F1FF	Beiliegende alphanumerische Ergänzung	256	200	Verbreitet
1 SMP	U+1F200..U+1F2FF	Beiliegende ideografische Ergänzung	256	64	Hiragana (1 Zeichen), Gewöhnlich (63 Zeichen)
1 SMP	U+1F300..U+1F5FF	Verschiedene Symbole und Piktogramme	768	768	Verbreitet
1 SMP	U+1F600..U+1F64F	Emoticons	80	80	Verbreitet
1 SMP	U+1F650..U+1F67F	Zier-Dingbats	48	48	Verbreitet
1 SMP	U+1F680..U+1F6FF	Verkehrs- und Kartensymbole	128	117	Verbreitet
1 SMP	U+1F700..U+1F77F	Alchemistische Symbole	128	116	Verbreitet
1 SMP	U+1F780..U+1F7FF	Geometrische Formen erweitert	128	102	Verbreitet
1 SMP	U+1F800..U+1F8FF	Zusätzliche Pfeile-C	256	150	Verbreitet
1 SMP	U+1F900..U+1F9FF	Ergänzende Symbole und Piktogramme	256	256	Verbreitet
1 SMP	U+1FA00..U+1FA6F	Schachsymbole	112	98	Verbreitet
1 SMP	U+1FA70..U+1FAFF	Symbole und Piktogramme Extended-A	144	88	Verbreitet
1 SMP	U+1FB00..U+1FBFF	Symbole für Legacy-Computing	256	212	Verbreitet
2 SIP	U+20000..U+2A6DF	CJK Unified Ideographs Extension B	42.720	42.720	Han
2 SIP	U+2A700..U+2B73F	CJK Unified Ideographs Erweiterung C	4.160	4.153	Han
2 SIP	U+2B740..U+2B81F	CJK Unified Ideographs Erweiterung D	224	222	Han
2 SIP	U+2B820..U+2CEAF	CJK Unified Ideographs Extension E	5.776	5.762	Han
2 SIP	U+2CEB0..U+2EBEF	CJK Unified Ideographs Extension F	7.488	7.473	Han
2 SIP	U+2F800..U+2FA1F	Ergänzung zu CJK-Kompatibilitäts-Ideogrammen	544	542	Han
3 TIPP	U+30000..U+3134F	CJK Unified Ideographs Erweiterung G	4.944	4.939	Han
14 SSP	U+E0000..U+E007F	Stichworte	128	97	Verbreitet
14 SSP	U+E0100..U+E01EF	Ergänzung zur Variationsauswahl	240	240	Vererbt
15 PUA-A	U+F0000..U+FFFFF	Zusätzlicher privater Nutzungsbereich-A	65.536	65.534	Unbekannt
16 PUA-B	U+100000..U+10FFFF	Zusätzlicher privater Nutzungsbereich-B	65.536	65.534	Unbekannt

Skript

Jedes zugewiesene Zeichen kann einen einzelnen Wert für seine "Skript"-Eigenschaft haben, der anzeigt, zu welchem Skript es gehört. Der Wert ist ein vierbuchstabiger Code im Bereich Aaaa-Zzzz, wie in ISO 15924 verfügbar, der auf ein Schriftsystem abgebildet wird . Abgesehen von der Beschreibung des Hintergrunds und der Verwendung eines Skripts verwendet Unicode keine Verbindung zwischen einem Skript und Sprachen , die dieses Skript verwenden. „Hebräisch“ bezieht sich also auf die hebräische Schrift, nicht auf die hebräische Sprache.

Der spezielle Code Zyyy für "Common" erlaubt einen einzelnen Wert für ein Zeichen, das in mehreren Skripten verwendet wird. Der Code Zinh "Inherited script", der zum Kombinieren von Zeichen und bestimmten anderen Codepunkten für spezielle Zwecke verwendet wird, zeigt an, dass ein Zeichen seine Skriptidentität von dem Zeichen "erbt", mit dem es kombiniert wird. (Unicode hat dazu früher den privaten Code Qaai verwendet.) Der Code Zzzz "Unbekannt" wird für alle Zeichen verwendet, die nicht zu einem Skript gehören (also den Standardwert), wie z. B. Symbole und Formatierungszeichen. Insgesamt können Zeichen einer einzelnen Schrift über mehrere Blöcke verstreut sein, wie etwa lateinische Zeichen . Und auch umgekehrt: Mehrere Schriften können in einem einzigen Block vorhanden sein, zB Block Letterlike Symbols enthält Zeichen aus den lateinischen, griechischen und gebräuchlichen Schriften.

Wenn das Skript "" (leer) ist, gehört das Zeichen laut Unicode nicht zu einem Skript. Dies betrifft Symbole, da die bestehenden ISO-Skriptcodes "Zmth" (Mathematische Notation), "Zsym" (Symbol) und "Zsye" (Symbol, Emoji-Variante) in Unicode nicht verwendet werden. Die Eigenschaft "Script" ist auch für Codepunkte leer, die keine typografischen Zeichen sind, wie Steuerelemente, Ersatzzeichen und Codepunkte für den privaten Gebrauch.

Wenn in ISO 15924 ein bestimmter Skript-Aliasname vorhanden ist, wird dieser im Zeichennamen verwendet: U+0041 A LATIN CAPITAL LETTER A und U+05D0 א HEBREW LETTER ALEF .

v T e Skripte in ISO 15924 und in Unicode
ISO 15924			Skript in Unicode
Code	Formaler ISO-Name	Direktionalität	Unicode-Alias	Ausführung	Zeichen	Anmerkungen	Beschreibung

Adlm	Adlam	Rechts-nach-links-Skript	Adlam	9,0	88		Kanal 19.9
Afak	Afaka	variiert	ZZ— Nicht in Unicode, Vorschlag wird untersucht
Aghb	Kaukasischer Albaner	links nach rechts	Kaukasischer Albaner	7,0	53	Antike/historische	Ch 8.11
Ahom	Ahom, Tai Ahom	links nach rechts	Ahom	8.0	65	Antike/historische	Kanal 15.15
Arabisch	Arabisch	Rechts-nach-links-Skript	Arabisch	1.0	1.365		Ch 9.2
Arana	Arabisch (Nastaliq-Variante)	gemischt	ZZ— Typografische Variante des Arabischen ( § Arab )
Armi	Kaiserliches Aramäisch	Rechts-nach-links-Skript	Kaiserliches Aramäisch	5.2	31	Antike/historische	Kanal 10.4
Armn	Armenisch	links nach rechts	Armenisch	1.0	96		Ch 7,6
Avst	Avestan	Rechts-nach-links-Skript	Avestan	5.2	61	Antike/historische	Kanal 10.7
Bali	Balinesisch	links nach rechts	Balinesisch	5.0	124		Kanal 17,3
Bamu	Bamum	links nach rechts	Bamum	5.2	657		Kanal 19,6
Bass	Bassa Vah	links nach rechts	Bassa Vah	7,0	36	Antike/historische	Kanal 19.7
Batk	Batak	links nach rechts	Batak	6.0	56		Kanal 17,6
Beng	Bengalisch (Bangla)	links nach rechts	Bengali	1.0	96		Kanal 12.2
Bhks	Bhaiksuki	links nach rechts	Bhaiksuki	9,0	97	Antike/historische	Kanal 14,3
Glückseligkeit	Glückssymbole	variiert	ZZ— Nicht in Unicode, Vorschlag wird untersucht
Bopo	Bopomofo	links nach rechts	Bopomofo	1.0	77		Kanal 18.3
Brah	Brahmi	links nach rechts	Brahmi	6.0	115	Antike/historische	Kanal 14,1
Brai	Blindenschrift	links nach rechts	Blindenschrift	3.0	256		Kanal 21,1
Bugi	Buginesisch	links nach rechts	Buginesisch	4.1	30		Kanal 17.2
Buhd	Buhid	links nach rechts	Buhid	3.2	20		Kanal 17.1
km	Chakma	links nach rechts	Chakma	6.1	71		Kanal 13.11
Büchsen	Einheitliche Kanadische Ureinwohner-Syllabics	links nach rechts	Kanadische Aborigines	3.0	726		Ch 20.2
Cari	Karier	Skript von links nach rechts, von rechts nach links	Karier	5.1	49	Antike/historische	Ch 8.5
Cham	Cham	links nach rechts	Cham	5.1	83		Ch 16.10
Cher	Cherokee	links nach rechts	Cherokee	3.0	172		Ch 20.1
Chr	Chorasmian	Skript von rechts nach links , von oben nach unten	Chorasmian	13,0	28	Antike/historische	Kanal 10.8
Zirt	Cirth	variiert	ZZ— Nicht in Unicode
Kopte	koptisch	links nach rechts	koptisch	1.0	137	Alt/historisch, in 4.1 vom Griechischen getrennt	Kanal 7,3
Cpmn	Zypern-Minoan	links nach rechts	Zypernminoisch	14,0	99	Antike/historische	Kanal 8,4
Cprt	Zypriotische Silbenschrift	Rechts-nach-links-Skript	Zypriotisch	4.0	55	Antike/historische	Ch 8.3
Cyrl	kyrillisch	links nach rechts	kyrillisch	1.0	443	Enthält typografische Variante Altkirchenslawisch ( § Cyrs)	Kanal 7,4
Cyrs	Kyrillisch (altkirchenslawische Variante)	variiert	ZZ— Typografische Variante des Kyrillischen ( § Cyrl )			Antike/historische
Deva	Devanagari (Nagari)	links nach rechts	Devanagari	1.0	154		Kanal 12.1
Diak	Tauchgänge Akuru	links nach rechts	Tauchgänge Akuru	13,0	72	Antike/historische	Ch 15.14
Dogr	Dogra	links nach rechts	Dogra	11,0	60	Antike/historische	Ch 15.17
Dsrt	Wüste (Mormone)	links nach rechts	Wüste	3.1	80		Kanal 20,4
Dupl	Duployan Kurzschrift, Duployan Stenographie	links nach rechts	Duployan	7,0	143		Kanal 21,6
Ägypten	Ägyptische Demotik	gemischt	ZZ— Nicht in Unicode
Ägyh	Ägyptische Hieratiker	gemischt	ZZ— Nicht in Unicode
Ägypten	Ägyptische Hieroglyphen	Rechts-nach-links-Skript	Ägyptische Hieroglyphen	5.2	1.080	Antike/historische	Kanal 11,4
Elba	Elbasan	links nach rechts	Elbasan	7,0	40	Antike/historische	Ch 8.10
Elym	Elymaisch	Rechts-nach-links-Skript	Elymaisch	12.0	23	Antike/historische	Kanal 10.9
Ethia	Äthiopisch (Geʻez)	links nach rechts	Äthiopisch	3.0	523		Kanal 19.1
Geoko	Khutsuri (Asomtavruli und Nuskhuri)	links nach rechts	georgisch			Unicode gruppiert "Khutsori", "Asomtavruli" und "Nuskhuri" in "Georgian" ( § Geok ). Auch "Mkhedruli" und "Mtavruli" sind 'georgisch' ( § Geor )	Kanal 7,7
Georg	Georgisch (Mkhedruli und Mtavruli)	links nach rechts	georgisch	1.0	173	Enthält in Unicode auch Geok (Nuskhuri)	Kanal 7,7
Glag	glagolitisch	links nach rechts	glagolitisch	4.1	134	Antike/historische	Kanal 7,5
Gong	Gunjala Gondi	links nach rechts	Gunjala Gondi	11,0	63		Kanal 13.15
Gonm	Masaram Gondi	links nach rechts	Masaram Gondi	10,0	75		Kanal 13.14
Goth	gotisch	links nach rechts	gotisch	3.1	27	Antike/historische	Ch 8.9
Gran	Grantha	links nach rechts	Grantha	7,0	85	Antike/historische	Ch 15.13
Griechisch	griechisch	links nach rechts	griechisch	1.0	518	Direktionalität manchmal als Boustrophedon	Ch 7,2
Gujr	Gujarati	links nach rechts	Gujarati	1.0	91		Kanal 12,4
Guru	Gurmukhi	links nach rechts	Gurmukhi	1.0	80		Kanal 12,3
Hanb	Han mit Bopomofo (alias für Han + Bopomofo)	gemischt	ZZ— Siehe § Hani , § Bopo
Aufhängen	Hangul (Hangŭl, Hangeul)	von links nach rechts, von oben nach unten	Hangul	1.0	11.739	Hangul-Silben in 2.0 . verschoben	Kanal 18.6
Hani	Han (Hanzi, Kanji, Hanja)	von oben nach unten, Spalten von rechts nach links (historisch)	Han	1.0	94.215		Kanal 18.1
Hano	Hanunoo (Hanunoo)	von links nach rechts, von unten nach oben	Hanunoo	3.2	21		Kanal 17.1
Hans	Han (vereinfachte Variante)	variiert	ZZ— Untermenge von Han (Hanzi, Kanji, Hanja) ( § Hani )
Hant	Han (Traditionelle Variante)	variiert	ZZ— Teilmenge von § Hani
Hatr	Hatran	Rechts-nach-links-Skript	Hatran	8.0	26	Antike/historische	Ch 10.12
Hebräisch	hebräisch	Rechts-nach-links-Skript	hebräisch	1.0	134		Ch 9.1
Hira	Hiragana	von oben nach unten, von links nach rechts	Hiragana	1.0	380		Kanal 18.4
Hluw	Anatolische Hieroglyphen (Luwische Hieroglyphen, Hethitische Hieroglyphen)	links nach rechts	Anatolische Hieroglyphen	8.0	583	Antike/historische	Kanal 11,6
Hmng	Pahawh Hmong	links nach rechts	Pahawh Hmong	7,0	127		Ch 16.11
Hmnp	Nyiakeng Puachue Hmong	links nach rechts	Nyiakeng Puachue Hmong	12.0	71		Ch 16.12
Hrkt	Japanische Silben (Alias für Hiragana + Katakana)	von oben nach unten, von links nach rechts	Katakana oder Hiragana			Siehe § Hira , § Kana	Kanal 18.4
Hung	Altungarisch (ungarische Rune)	Rechts-nach-links-Skript	Alt-Ungarisch	8.0	108	Antike/historische	Ch 8.8
Inds	Indus (Harappan)	gemischt	ZZ— Nicht in Unicode, Vorschlag wird untersucht
Italien	Altkursiv (etruskisch, oskisch usw.)	rechts-nach-links-Skript , von links nach rechts	Alte Kursivschrift	3.1	39	Antike/historische	Kanal 8,6
Jamo	Jamo (Alias für Jamo-Teilmenge von Hangul)	variiert	ZZ— Teilmenge von § Hang
Java	Javanisch	links nach rechts	Javanisch	5.2	90		Kanal 17,4
Japan	Japanisch (Alias für Han + Hiragana + Katakana)	variiert	ZZ— Siehe § Hani , § Hira und § Kana
Jurc	Jürchen	links nach rechts	ZZ— Nicht in Unicode
Kali	Kayah Li	links nach rechts	Kayah Li	5.1	47		Kanal 16.9
Kana	Katakana	von oben nach unten, von links nach rechts	Katakana	1.0	320		Kanal 18.4
Khar	Kharoshthi	Rechts-nach-links-Skript	Kharoshthi	4.1	68	Antike/historische	Kanal 14.2
Khmra	Khmer	links nach rechts	Khmer	3.0	146		Kanal 16.4
Khoja	Khojki	links nach rechts	Khojki	7,0	62	Antike/historische	Kanal 15.7
Kitl	Khitan großes Skript	links nach rechts	ZZ— Nicht in Unicode
Bausätze	Khitan kleines Skript	oben nach unten	Khitan Kleines Skript	13,0	471	Antike/historische	Kanal 18.12
Knda	Kannada	links nach rechts	Kannada	1.0	90		Kanal 12.8
Kore	Koreanisch (Alias für Hangul + Han)	links nach rechts	ZZ— Siehe § Hani , § Hang
Kpel	Kpelle	links nach rechts	ZZ— Nicht in Unicode, Vorschlag wird untersucht
Kthi	Kaithi	links nach rechts	Kaithi	5.2	68	Antike/historische	Kanal 15.2
Lana	Tai Tham (Lanna)	links nach rechts	Tai Tham	5.2	127		Kanal 16,7
Laoo	Laos	links nach rechts	Laos	1.0	82		Kanal 16,2
Latf	Latein (Fraktur-Variante)	variiert	ZZ— Typografische Variante des Lateinischen ( § Latn )
Latg	Latein (gälische Variante)	links nach rechts	ZZ— Typografische Variante des Lateinischen ( § Latn )
Latn	Latein	links nach rechts	Latein	1.0	1.475	Siehe auch: Lateinische Schrift in Unicode	Ch 7.1
Leke	Leke	links nach rechts	ZZ— Nicht in Unicode
Lepc	Lepcha (Rong)	links nach rechts	Lepcha	5.1	74		Kanal 13.12
Glied	Limbu	links nach rechts	Limbu	4.0	68		Kanal 13,6
Lina	Linear A	links nach rechts	Linear A	7,0	341	Antike/historische	Ch 8.1
Linb	Linear B	links nach rechts	Linear B	4.0	211	Antike/historische	Ch 8.2
Lisu	Lisu (Fraser)	links nach rechts	Lisu	5.2	49		Kanal 18.9
Loma	Loma	links nach rechts	ZZ— Nicht in Unicode, Vorschlag wird untersucht
Lyci	Lykisch	links nach rechts	Lykisch	5.1	29	Antike/historische	Ch 8.5
Lydi	Lydian	Rechts-nach-links-Skript	Lydian	5.1	27	Antike/historische	Ch 8.5
Mahja	Mahajani	links nach rechts	Mahajani	7,0	39	Antike/historische	Kanal 15,6
Maka	Makasar	links nach rechts	Makasar	11,0	25	Antike/historische	Kanal 17.8
Mand	Mandäisch, Mandäisch	Rechts-nach-links-Skript	Mandaisch	6.0	29		Kanal 9,5
Mani	Manichäer	Rechts-nach-links-Skript	Manichäer	7,0	51	Antike/historische	Kanal 10.5
Marc	Marken	links nach rechts	Marken	9,0	68	Antike/historische	Kanal 14,5
Maya	Maya-Hieroglyphen	gemischt	ZZ— Nicht in Unicode
Medf	Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ)	von links nach rechts, von links nach rechts	Medefaidrin	11,0	91		Ch 19.10
Heilen	Mende Kikakui	Rechts-nach-links-Skript	Mende Kikakui	7,0	213		Kanal 19.8
Merc	Meroitische Kursive	Rechts-nach-links-Skript	Meroitische Kursive	6.1	90	Antike/historische	Kanal 11,5
Mero	Meroitische Hieroglyphen	Rechts-nach-links-Skript	Meroitische Hieroglyphen	6.1	32	Antike/historische	Kanal 11,5
Mlym	Malayalam	links nach rechts	Malayalam	1.0	118		Kanal 12.9
Modi	Modi, Moḍī	links nach rechts	Modi	7,0	79	Antike/historische	Ch 15.11
Mong	mongolisch	von oben nach unten, von links nach rechts	mongolisch	3.0	168	Mong enthält Clear- und Manchu- Skripte	Kanal 13,5
Mond	Mond (Mondcode, Mondskript, Mondtyp)	gemischt	ZZ— Nicht in Unicode, Vorschlag wird untersucht
Mroo	Herr, Herr	links nach rechts	Mehr	7,0	43		Kanal 13.8
Mtei	Meitei Mayek (Meithei, Meetei)	links nach rechts	Meetei Mayek	5.2	79		Kanal 13,7
Mult	Multani	links nach rechts	Multani	8.0	38	Antike/historische	Kanal 15.9
Mymr	Myanmar (Burmesisch)	links nach rechts	Myanmar	3.0	223		Kanal 16.3
Nand	Nandinagari	links nach rechts	Nandinagari	12.0	65	Antike/historische	Kanal 15.12
Narb	Alt-Nordarabisch (Alt-Nordarabisch)	Rechts-nach-links-Skript , Rechts-nach-Links-Skript	Alt-Nordarabien	7,0	32	Antike/historische	Kanal 10.1
Nbat	Nabatäer	Rechts-nach-links-Skript	Nabatäer	7,0	40	Antike/historische	Ch 10.10
Newa	Newa, Newar, Newari, Nepāla lipi	links nach rechts	Newa	9,0	97		Kanal 13.3
Nkdb	Naxi Dongba (na²¹ɕi³³ bis³³ba²¹, Nakhi Tomba)	links nach rechts	ZZ— Nicht in Unicode
Nkgb	Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba)	links nach rechts	ZZ— Nicht in Unicode, Vorschlag wird untersucht
Nkoo	N'Ko	Rechts-nach-links-Skript	NKo	5.0	62		Kanal 19.4
Nshu	Nüshu	oben nach unten	Nushu	10,0	397		Kanal 18.8
Ogam	Ogham	von unten nach oben, von links nach rechts	Ogham	3.0	29	Antike/historische	Ch 8.14
Olck	Ol Chiki (Ol Cemet', Ol, Santali)	links nach rechts	Ol Chiki	5.1	48		Kanal 13.10
Ork	Alttürkisch, Orkhon Runic	Rechts-nach-links-Skript	Alttürkisch	5.2	73	Antike/historische	Kanal 14.8
Orya	Oriya (Odia)	links nach rechts	Oriya	1.0	91		Kanal 12,5
Osge	Osage	links nach rechts	Osage	9,0	72		Kanal 20,3
Osma	Osmanya	links nach rechts	Osmanya	4.0	40		Kanal 19.2
Ougr	Alte Uiguren	gemischt	Alte Uiguren	14,0	26	Antike/historische	Ch 14.11
Palme	Palmyren	Rechts-nach-links-Skript	Palmyren	7,0	32	Antike/historische	Ch 10.11
Pauc	Pau Cin Hau	links nach rechts	Pau Cin Hau	7,0	57		Ch 16.13
PCun	Proto-Keilschrift	links nach rechts	ZZ— Nicht in Unicode
Pelm	Proto-Elamite	links nach rechts	ZZ— Nicht in Unicode
Dauerwelle	Alte Permik	links nach rechts	Alte Permik	7,0	43	Antike/historische	Ch 8.13
Phag	Phags-pa	oben nach unten	Phags-pa	5.0	56	Antike/historische	Kanal 14.4
Phli	Inschriftliches Pahlavi	Rechts-nach-links-Skript	Inschriftliches Pahlavi	5.2	27	Antike/historische	Kanal 10.6
Phlp	Psalter Pahlavi	Rechts-nach-links-Skript	Psalter Pahlavi	7,0	29	Antike/historische	Kanal 10.6
Phlv	Pahlavi . buchen	gemischt	ZZ— Nicht in Unicode
Phnx	phönizisch	Rechts-nach-links-Skript	phönizisch	5.0	29	Antike/historische	Kanal 10.3
Piqd	Klingonisch (KLI pIqaD)	links nach rechts	ZZ— Abgelehnt für die Aufnahme in Unicode
Plrd	Miao (Poller)	links nach rechts	Miao	6.1	149		Ch 18.10
Prti	Inschriftlicher Parther	Rechts-nach-links-Skript	Inschriftlicher Parther	5.2	30	Antike/historische	Kanal 10.6
Psin	Proto-Sinaitisch	gemischt	ZZ— Nicht in Unicode
Qaaa-Qabx	Reserviert für den privaten Gebrauch (Bereich)		ZZ— Nicht in Unicode
Ranja	Ranjana	links nach rechts	ZZ— Nicht in Unicode
Rjng	Rejang (Redjang, Kaganga)	links nach rechts	Rejang	5.1	37		Kanal 17,5
Rohg	Hanifi Rohingya	Rechts-nach-links-Skript	Hanifi Rohingya	11,0	50		Ch 16.14
Roro	Rongorongo	gemischt	ZZ— Nicht in Unicode, Vorschlag wird untersucht
Runr	Runen	von links nach rechts, boustrophedon	Runen	3.0	86	Antike/historische	Kanal 8,7
Samr	Samariter	Skript von rechts nach links , von oben nach unten	Samariter	5.2	61		Kanal 9,4
Sara	Sarati	gemischt	ZZ— Nicht in Unicode
Sarb	Alt-Südarabisch	Rechts-nach-links-Skript	Alt-Südarabisch	5.2	32	Antike/historische	Ch 10.2
Saur	Saurashtra	links nach rechts	Saurashtra	5.1	82		Kanal 13.13
Sgnw	Gebärdenschreiben	oben nach unten	Gebärdenschreiben	8.0	672		Kanal 21,7
Shaw	Shavian (Shaw)	links nach rechts	Shavian	4.0	48		Ch 8.15
Shrd	Sharada, Śāradā	links nach rechts	Sharada	6.1	96		Kanal 15.3
Shui	Shuishu	links nach rechts	ZZ— Nicht in Unicode
Sidd	Siddham, Siddhaṃ, Siddhamātṛkā	links nach rechts	Siddham	7,0	92	Antike/historische	Kanal 15.5
Sind	Khudawadi, Sindhi	links nach rechts	Khudawadi	7,0	69		Kanal 15.8
Sinh	singhalesisch	links nach rechts	singhalesisch	3.0	111		Kanal 13.2
Sogd	Sogdian	horizontale und vertikale Schrift in ostasiatischen Schriften , von oben nach unten	Sogdian	11,0	42	Antike/historische	Kanal 14.10
Also geh	Alte Sogdian	Rechts-nach-links-Skript	Alte Sogdian	11,0	40	Antike/historische	Kanal 14.9
Sora	Sora Sompeng	links nach rechts	Sora Sompeng	6.1	35		Kanal 15.16
Soja	Soyombo	links nach rechts	Soyombo	10,0	83	Antike/historische	Kanal 14.7
Sonne	Sundanesisch	links nach rechts	Sundanesisch	5.1	72		Kanal 17,7
Sylo	Syloti Nagri	links nach rechts	Syloti Nagri	4.1	45	Antike/historische	Kapitel 15.1
Syrc	Syrisch	Rechts-nach-links-Skript	Syrisch	3.0	88	Enthält typografische Varianten Estrangelo ( § Syre ), Western ( § Syrj ) und Eastern ( § Syrn )	Ch 9.3
Syre	Syrisch (Estrangelo-Variante)	gemischt	ZZ— Typografische Variante des Syrischen ( § Syrc )
Syrja	Syrisch (westliche Variante)	gemischt	ZZ— Typografische Variante des Syrischen ( § Syrc )
Syrn	Syrisch (östliche Variante)	gemischt	ZZ— Typografische Variante des Syrischen ( § Syrc )
Tagb	Tagbanwa	links nach rechts	Tagbanwa	3.2	18		Kanal 17.1
Takr	Takri, Ṭākrī, Ṭāṅkrī	links nach rechts	Takri	6.1	68		Kanal 15,4
Geschichte	Tai Le	links nach rechts	Tai Le	4.0	35		Kanal 16.5
Talu	Neues Tai Lue	links nach rechts	Neues Tai Lue	4.1	83		Kanal 16,6
Tamle	Tamil	links nach rechts	Tamil	1.0	123		Kanal 12.6
Seetang	Tangut	von oben nach unten, Spalten von rechts nach links, von links nach rechts	Tangut	9,0	6.914	Antike/historische	Ch 18.11
Tavt	Tai Viet	links nach rechts	Tai Viet	5.2	72		Kanal 16.8
Telu	Telugu	links nach rechts	Telugu	1.0	100		Kanal 12,7
Teng	Tengwar	links nach rechts	ZZ— Nicht in Unicode
Tfng	Tifinagh (Berber)	links nach rechts	Tifinagh	4.1	59		Kanal 19.3
Tglg	Tagalog (Baybayin, Alibata)	links nach rechts	Tagalog	3.2	23		Kanal 17.1
Thaa	Thaana	Rechts-nach-links-Skript	Thaana	3.0	50		Kanal 13,1
Thai	Thai	links nach rechts	Thai	1.0	86		Kanal 16.1
Tibt	Tibetisch	links nach rechts	Tibetisch	2.0	207	In 1.0 hinzugefügt, in 1.1 entfernt und in 2.0 wieder eingeführt	Kanal 13.4
Tirh	Tirhuta	links nach rechts	Tirhuta	7,0	82		Ch 15.10
Tnsa	Tangsa	links nach rechts	Tangsa	14,0	89		Kanal 13.18
Toto	Toto	links nach rechts	Toto	14,0	31		Kanal 13.17
Ugar	Ugaritisch	links nach rechts	Ugaritisch	4.0	31	Antike/historische	Kanal 11.2
Vaii	Vai	links nach rechts	Vai	5.1	300		Kanal 19,5
Visp	Sichtbare Sprache	links nach rechts	ZZ— Nicht in Unicode
Vith	Vithkuqi	links nach rechts	Vithkuqi	14,0	70	Antike/historische	Ch 8.12
Wara	Warang Citi (Varang Kshiti)	links nach rechts	Warang Citi	7,0	84		Kanal 13,9
Wer	Wancho	links nach rechts	Wancho	12.0	59		Kanal 13.16
Wole	Woleai	gemischt	ZZ— Nicht in Unicode, Vorschlag wird untersucht
Xpeo	Altpersisch	links nach rechts	Altpersisch	4.1	50	Antike/historische	Kanal 11,3
Xsux	Keilschrift, Sumero-Akkadisch	links nach rechts	Keilschrift	5.0	1.234	Antike/historische	Kanal 11.1
Yezi	Yeziden	Rechts-nach-links-Skript	Yeziden	13,0	47	Antike/historische	Kanal 9,6
Yiii	Ja	links nach rechts	Ja	3.0	1.220		Kanal 18.7
Zanb	Zanabazar-Platz (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Script)	links nach rechts	Zanabazar-Platz	10,0	72	Antike/historische	Kanal 14.6
Zinh	Code für geerbtes Skript		Vererbt		657
Zmth	Mathematische Notation		ZZ— Kein 'Skript' in Unicode
Zsym	Symbole		ZZ— Kein 'Skript' in Unicode
Zsye	Symbole (Emoji-Variante)		ZZ— Kein 'Skript' in Unicode
Zxxx	Code für ungeschriebene Dokumente		ZZ— Kein 'Skript' in Unicode
Zyyy	Code für unbestimmtes Skript		Verbreitet		8.252
Zzzz	Code für uncodiertes Skript		Unbekannt		969.350	In Unicode: Alle anderen Codepunkte
Anmerkungen ^ ISO 15924-Veröffentlichungen Stand 17. Februar 2021 ^ ISO 15924 Normative Textdatei Stand 17. Februar 2021 ^ ISO 15924-Änderungen (einschließlich Aliase für Unicode; ab 17. Februar 2021) ^ Unicode-Version 14.0 ^ Unicode-Diagramme ^ Unicode verwendet den "Property Value Alias" (Alias) als Skriptnamen. Diese Alias-Namen sind Bestandteil von Unicode und werden neben ISO 15924 informativ veröffentlicht. Ein Alias-Skriptname kann in einem Zeichennamen verwendet werden: `Palm`, Palmyrene → U+10860 𐡠 PALMYRENE LETTER ALEPH . ^ In Unicode ist die phönizische Schrift für die Darstellung von Text in Paläo-Hebräisch , Archaisch-Phönizisch, Phönizisch , Früharamäisch , Spätphönizisch Kursiv, Phönizisch Papyri , Siloam-Hebräisch , Hebräische Siegel , Ammonit , Moabitisch und Punisch gedacht .

Normalisierungseigenschaften

Zerlegungen, Zerlegungstyp, kanonische Kombinationsklasse, Kompositionsausschlüsse und mehr.

Alter

Alter ist die Version des Standards, in der der Codepunkt erstmals angegeben wurde. Die Versionsnummer wird auf die Nummerierung major.minor gekürzt, obwohl dort detailliertere Versionsnummern verwendet werden: Versionen 4.0.0 und 4.0.1 werden beide als 4.0 als Age bezeichnet. Bei den Versionen kann das Alter aus dem Bereich 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0 . liegen , 12.0, 12.1, 13.0 und 14.0. Die langen Werte für Age beginnen in einem V und verwenden einen Unterstrich anstelle eines Punktes: V1_1 zum Beispiel. Codepoints ohne explizit zugewiesenen Alterswert haben den Wert "NA", mit der Langform "Unassigned".

Veraltet

Sobald ein Charakter definiert wurde, wird er nicht entfernt oder neu zugewiesen. Ein Zeichen kann jedoch veraltet sein , was bedeutet, dass von seiner Verwendung dringend abgeraten wird. Ab Unicode-Version 14.0 sind die folgenden fünfzehn Zeichen veraltet:

Veraltete Zeichen in Unicode
Codepunkt	Charaktername	Empfohlene Alternative		Bemerkungen
U+0149	Lateinischer KLEINER BUCHSTABE N VOR APOSTROPH	U+02BC U+006E	n
U+0673	Arabischer Buchstabe Alef mit Wellenförmigem HAMZA UNTEN	U+0627 U+065F	اٟ
U+0F77	Tibetisches Vokalzeichen VOCALIC RR	U+0FB2 U+0F81	ྲཱ ྀ
U+0F79	Tibetisches Vokalzeichen VOCALIC LL	U+0FB3 U+0F81	ླཱ ྀ
U+17A3	KHMER UNABHÄNGIGE VOWEL QAQ	U+17A2	អ
U+17A4	KHMER UNABHÄNGIGE VOWEL QAA	U+17A2 U+17B6	អា
U+206A	SYMMETRISCHES SWAPPING INHIBIEREN	Keiner
U+206B	SYMMETRISCHES SWAPPING AKTIVIEREN	Keiner
U+206C	ARABISCHE FORMGESTALTUNG UNTERBRECHEN	Keiner
U+206D	AKTIVIEREN DER ARABISCHEN FORMGESTALTUNG	Keiner
U+206E	NATIONALE ZIFFERNFORMEN	Keiner
U+206F	NOMINALE ZIFFERNFORMEN	Keiner
U+2329	WINKELHALTERUNG NACH LINKS	U+3008	Ich	U+27E8 ⟨ MATHEMATISCHER LINKER WINKELHALTER wird für mathematische und andere technische Anwendungen empfohlen
U+232A	RECHTSWEICHENDER WINKELHALTER	U+3009	Ich	U+27E9 ⟩ MATHEMATISCHER RECHTER WINKELHALTER wird für mathematische und andere technische Anwendungen empfohlen
U+E0001	SPRACHE-TAG	Keiner

Grenzen

Der Unicode-Standard spezifiziert die folgenden grenzenbezogenen Eigenschaften:

Graphem-Cluster
Wort
Leitung
Satz

Korrektur von Unicode-Namensaliasen

v T e Liste der Zeichennamenkorrekturen (Aliasnamen)
Charakter		Name	Alias
01A2	Ƣ	Lateinischer Großbuchstabe OI	Lateinischer Großbuchstabe Gha
01A3	ƣ	Lateinischer Kleinbuchstabe OI	Lateinischer Kleinbuchstabe GHA
0709	Ich	SYRIASCH SUBLINEAR DARM RECHTS GESCHRÄNKT	SYRIASCH SUBLINEAR DARM LINKS Schief
0CDE	ೞ	KANNADA-BRIEF FA	KANNADA-BRIEF LLLA
0E9D	ຝ	LAO-BRIEF FO TAM	LAO-BRIEF FO FON
0E9F	ຟ	LAO-BRIEF FO SUNG	LAO-BRIEF FO FAY
0EA3	ຣ	LAO-BRIEF LO LING	LAO-BRIEF RO
0EA5	ລ	LAO-BRIEF LO LOOT	LAO-BRIEF LO
0FD0	Ich	TIBETAN MARK BSKA - SHOG GI MGO RGYAN	TIBETAN MARK BKA- SHOG GI MGO RGYAN
11EC	ᇬ	HANGUL JONGSEONG IEUNG-KIYEOK	HANGUL JONGSEONG YESIEUNG-KIYEOK
11ED	ᇭ	HANGUL JONGSEONG IEUNG-SSANGKIYEOK	HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK
11EE	ᇮ	HANGUL JONGSEONG SSANGIEUNG	HANGUL JONGSEONG SSANGYESIEUNG
11EF	ᇯ	HANGUL JONGSEONG IEUNG-KHIEUKH	HANGUL JONGSEONG YESIEUNG-KHIEUKH
2118	℘	SKRIPT GROSSBUCHSTABEN P	WEIERSTRAS ELLIPTISCHE FUNKTION
2448	⑈	OCR-DASH	MIKR AUF UNS SYMBOL
2449	⑉	OCR-KUNDENKONTONUMMER	MICR DASH-SYMBOL
2B7A	⭺	DREIECKSPFEIL NACH LINKS MIT DOPPELTEM HORIZONTALEN HUB	DREIECKSPFEIL NACH LINKS MIT DOPPELTER VERTIKALER HUB
2B7C	⭼	DREIECKSPFEIL NACH RECHTS MIT DOPPELTEM HORIZONTALEN HUB	DREIECKIGER PFEIL NACH RECHTS MIT DOPPELTER VERTIKALER HUB
A015	ꀕ	YI SILBE WU	YI Silbe Iterationszeichen
FE18	Ich	PRÄSENTATIONSFORMULAR FÜR VERTIKALE RECHTSWEIßE LENTIKULARBREMSE	PRÄSENTATIONSFORMULAR FÜR VERTIKALE RECHTE WEIßE LENTIKULARHALTERUNG
122D4	𒋔	Keilschriftzeichen SHIR TENU	Keilschriftzeichen NU11 TENU
122D5	𒋕	Keilschriftzeichen SHIR ÜBER SHIR BUR ÜBER BUR	Keilschriftzeichen NU11 ÜBER NU11 BUR ÜBER BUR
16E56	𖹖	MEDEFAIDRIN GROSSBUCHSTABE HP	MEDEFAIDRIN GROSSBUCHSTABE H
16E57	𖹗	MEDEFAIDRIN GROSSBUCHSTABE NY	MEDEFAIDRIN GROSSBUCHSTABE NG
16E76	𖹶	MEDEFAIDRIN KLEINBUCHSTABE HP	MEDEFAIDRIN KLEINER BUCHSTABE H
16E77	𖹷	MEDEFAIDRIN KLEINER BUCHSTABE NY	MEDEFAIDRIN KLEINER BUCHSTABE NG
1B001	𛀁	HIRAGANA BRIEF ARCHAISCHES JA	HENTAIGANA-BRIEF E-1
1D0C5	𝃅	BYZANTINISCHES MUSIKSYMBOL FHTORA SKLIRON CHROMA VASIS	BYZANTINISCHES MUSIKSYMBOL FTHORA SKLIRON CHROMA VASIS

Externe Links

Unicode-Zeichendatenbank , Anhang #44, mit Erläuterung der verschiedenen Eigenschaften
UnicodeData.txt – eine Liste aller Unicode-Zeichen mit ihren Eigenschaften

Verweise

^ ^a ^b ^c ^d ^e "Der Unicode-Standard, Kapitel 4: Zeicheneigenschaften" (PDF) . Unicode, Inc. September 2021 . Abgerufen 2021-08-15 . Cite Journal erfordert |journal=( Hilfe )
^ ^a ^b ^c "Unicode Standard Annex #44: Unicode Character Database" . Der Unicode-Standard . 2017-06-14.
^ "UCD: Namensaliase" . Datenbank für Unicode-Zeichen . Unicode-Konsortium. 2019-03-08.
^ „Standards für die Zeichengestaltung – Leerzeichen“ . Designstandards für Charaktere . Microsoft . 1998–1999. Archiviert vom Original am 23. August 2000 . Abgerufen 2009-05-18 .
^ Der Unicode-Standard 5.0, gedruckte Ausgabe, S.205
^ "Allgemeine Satzzeichen" (PDF) . Der Unicode-Standard 5.1 . Unicode Inc . 1991–2008 . Abgerufen 2009-05-13 .
^ Sargent, Murray III (2006-08-29). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)" . Technischer Hinweis zu Unicode #28 . Unicode Inc . S. 19–20 . Abgerufen 2009-05-19 .
^ Gillam, Richard (2002). Unicode entmystifiziert: Ein praktischer Programmierleitfaden zum Kodierungsstandard . Addison-Wesley. ISBN 0-201-70052-2.
^ ^a ^b Hickson, Ian . "12.5 Benannte Zeichenreferenzen" . HTML-Standard . WHATWG .
^ Wolfram . "\[NegativeThickSpace]" . Dokumentation der Wolfram-Sprache .
^ Wolfram . "\[NegativeMediumSpace]" . Dokumentation der Wolfram-Sprache .
^ Wolfram . "\[NegativeThinSpace]" . Dokumentation der Wolfram-Sprache .
^ Wolfram . "\[NegativeVeryThinSpace]" . Dokumentation der Wolfram-Sprache .
^ Faltstrom, S., Hrsg. (August 2010). "Nullbreite Nicht-Joiner" . Die Unicode Code Points und Internationalized Domain Names for Applications (IDNA) . IETF . Sek. A.1. doi : 10.17487/RFC5892 . RFC- 5892 . Abgerufen am 4. September 2019 .
^ Faltstrom, S., Hrsg. (August 2010). "Joiner mit Nullbreite" . Die Unicode Code Points und Internationalized Domain Names for Applications (IDNA) . IETF . Sek. A.2. doi : 10.17487/RFC5892 . RFC- 5892 . Abgerufen am 4. September 2019 .
^ "Unicode-Standard-Anhang #44, Unicode-Zeichendatenbank" .
^ ^a ^b "Unicode-Standard-Anhang #9: Bidirektionaler Unicode-Algorithmus" . Der Unicode-Standard . 2017-05-14.
^ "Unicode-Standard-Anhang #24: Unicode-Skripteigenschaft" . Der Unicode-Standard . 2015-06-01.
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ "Vorgeschlagene neue Skripte" . Unicode-Konsortium . 2018-05-25 . Abgerufen 2019-09-12 .
^ Michael Everson (1997-09-18). „Vorschlag, Klingonen in Ebene 1 von ISO/IEC 10646-2 zu codieren“ .
^ Das Unicode-Konsortium (2001-08-14). "Genehmigtes Protokoll der gemeinsamen Sitzung von UTC 87 / L2 184" .
^ "Naher Osten-II, alte Schriften" (PDF) . 14.0.0. The Unicode Consortiumtitle=Nahost-Skripte II . Abgerufen 2021-09-15 .
^ "UCD: Abgeleitetes Alter" . Datenbank für Unicode-Zeichen . Unicode-Konsortium. 2021-07-10.
^ "Stabilitätsrichtlinien für die Unicode-Zeichencodierung" . Unicode . Unicode-Konsortium . 2017-06-23 . Abgerufen 2021-07-25 . Sobald ein Zeichen codiert ist, wird es nicht verschoben oder entfernt.
^ "3.4: Zeichen und Kodierung, D13: Veraltete Zeichen" (PDF) . Der Unicode-Standard, Version 14.0 . Mountain View: Unicode-Konsortium . 2021-09-14. ISBN 9781936213-290. Abgerufen 2021-09-15 .
^ "PropList-14.0.0.txt" . Unicode . Unicode-Konsortium . 2021-08-12 . Abgerufen 2021-09-15 .
^ "Kapitel 23.3: Veraltete Formatzeichen" (PDF) . Der Unicode-Standard, Version 13.0 . Mountain View: Unicode-Konsortium . 2020-03-10. ISBN 9781936213269. Abgerufen 2021-07-25 .
^ "23.9: Tag-Zeichen, veraltete Verwendung für Sprach-Tagging" (PDF) . Der Unicode-Standard, Version 13.0 . Mountain View: Unicode-Konsortium . 2020-03-10. ISBN 9781936213269. Abgerufen 2021-07-25 .

[cnote_a_grp_ISO_Unicode] 
ISO 15924-Veröffentlichungen Stand 17. Februar 2021

[cnote_b_grp_ISO_list] 
ISO 15924 Normative Textdatei Stand 17. Februar 2021

[cnote_c_grp_ISO_changes] 
ISO 15924-Änderungen (einschließlich Aliase für Unicode; ab 17. Februar 2021)

[cnote_d_grp_Asof_Unicode_version] 
Unicode-Version 14.0

[cnote_e_grp_Unicode_charts] 
Unicode-Diagramme

[cnote_f_grp_Aliases_for_Unicode] 
Unicode verwendet den "Property Value Alias" (Alias) als Skriptnamen. Diese Alias-Namen sind Bestandteil von Unicode und werden neben ISO 15924 informativ veröffentlicht. Ein Alias-Skriptname kann in einem Zeichennamen verwendet werden: Palm, Palmyrene → U+10860 𐡠 PALMYRENE LETTER ALEPH .

[cnote_g_grp_Scripts] 
In Unicode ist die phönizische Schrift für die Darstellung von Text in Paläo-Hebräisch , Archaisch-Phönizisch, Phönizisch , Früharamäisch , Spätphönizisch Kursiv, Phönizisch Papyri , Siloam-Hebräisch , Hebräische Siegel , Ammonit , Moabitisch und Punisch gedacht .

[Chapter4-1] "Der Unicode-Standard, Kapitel 4: Zeicheneigenschaften" (PDF) . Unicode, Inc. September 2021 . Abgerufen 2021-08-15 . Cite Journal erfordert |journal=( Hilfe )

[UAX44-2] "Unicode Standard Annex #44: Unicode Character Database" . Der Unicode-Standard . 2017-06-14.

[3] "UCD: Namensaliase" . Datenbank für Unicode-Zeichen . Unicode-Konsortium. 2019-03-08.

[11] „Standards für die Zeichengestaltung – Leerzeichen“ . Designstandards für Charaktere . Microsoft . 1998–1999. Archiviert vom Original am 23. August 2000 . Abgerufen 2009-05-18 .

[12] Der Unicode-Standard 5.0, gedruckte Ausgabe, S.205

[13] "Allgemeine Satzzeichen" (PDF) . Der Unicode-Standard 5.1 . Unicode Inc . 1991–2008 . Abgerufen 2009-05-13 .

[14] Sargent, Murray III (2006-08-29). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)" . Technischer Hinweis zu Unicode #28 . Unicode Inc . S. 19–20 . Abgerufen 2009-05-19 .

[Gillam-15] Gillam, Richard (2002). Unicode entmystifiziert: Ein praktischer Programmierleitfaden zum Kodierungsstandard . Addison-Wesley. ISBN 0-201-70052-2.

[html5entity-16] Hickson, Ian . "12.5 Benannte Zeichenreferenzen" . HTML-Standard . WHATWG .

[17] Wolfram . "\[NegativeThickSpace]" . Dokumentation der Wolfram-Sprache .

[18] Wolfram . "\[NegativeMediumSpace]" . Dokumentation der Wolfram-Sprache .

[19] Wolfram . "\[NegativeThinSpace]" . Dokumentation der Wolfram-Sprache .

[20] Wolfram . "\[NegativeVeryThinSpace]" . Dokumentation der Wolfram-Sprache .

[22] Faltstrom, S., Hrsg. (August 2010). "Nullbreite Nicht-Joiner" . Die Unicode Code Points und Internationalized Domain Names for Applications (IDNA) . IETF . Sek. A.1. doi : 10.17487/RFC5892 . RFC- 5892 . Abgerufen am 4. September 2019 .

[23] Faltstrom, S., Hrsg. (August 2010). "Joiner mit Nullbreite" . Die Unicode Code Points und Internationalized Domain Names for Applications (IDNA) . IETF . Sek. A.2. doi : 10.17487/RFC5892 . RFC- 5892 . Abgerufen am 4. September 2019 .

[24] "Unicode-Standard-Anhang #44, Unicode-Zeichendatenbank" .

[UAX9-25] "Unicode-Standard-Anhang #9: Bidirektionaler Unicode-Algorithmus" . Der Unicode-Standard . 2017-05-14.

[34] "Unicode-Standard-Anhang #24: Unicode-Skripteigenschaft" . Der Unicode-Standard . 2015-06-01.

[uniproposed-35] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ "Vorgeschlagene neue Skripte" . Unicode-Konsortium . 2018-05-25 . Abgerufen 2019-09-12 .

[36] Michael Everson (1997-09-18). „Vorschlag, Klingonen in Ebene 1 von ISO/IEC 10646-2 zu codieren“ .

[37] Das Unicode-Konsortium (2001-08-14). "Genehmigtes Protokoll der gemeinsamen Sitzung von UTC 87 / L2 184" .

[38] "Naher Osten-II, alte Schriften" (PDF) . 14.0.0. The Unicode Consortiumtitle=Nahost-Skripte II . Abgerufen 2021-09-15 .

[DerivedAge-39] "UCD: Abgeleitetes Alter" . Datenbank für Unicode-Zeichen . Unicode-Konsortium. 2021-07-10.

[40] "Stabilitätsrichtlinien für die Unicode-Zeichencodierung" . Unicode . Unicode-Konsortium . 2017-06-23 . Abgerufen 2021-07-25 . Sobald ein Zeichen codiert ist, wird es nicht verschoben oder entfernt.

[41] "3.4: Zeichen und Kodierung, D13: Veraltete Zeichen" (PDF) . Der Unicode-Standard, Version 14.0 . Mountain View: Unicode-Konsortium . 2021-09-14. ISBN 9781936213-290. Abgerufen 2021-09-15 .

[42] "PropList-14.0.0.txt" . Unicode . Unicode-Konsortium . 2021-08-12 . Abgerufen 2021-09-15 .

[44] "Kapitel 23.3: Veraltete Formatzeichen" (PDF) . Der Unicode-Standard, Version 13.0 . Mountain View: Unicode-Konsortium . 2020-03-10. ISBN 9781936213269. Abgerufen 2021-07-25 .

[47] "23.9: Tag-Zeichen, veraltete Verwendung für Sprach-Tagging" (PDF) . Der Unicode-Standard, Version 13.0 . Mountain View: Unicode-Konsortium . 2020-03-10. ISBN 9781936213269. Abgerufen 2021-07-25 .

Languages

In other projects