Grundlegendes Latein (Unicode-Block) - Basic Latin (Unicode block)

C0-Steuerung und Basic Latin
Bereich U+0000..U+007F
(128 Codepunkte)
Ebene BMP
Skripte Latein (52 Zeichen)
Allgemein (76 Zeichen)
Hauptalphabete Englisch
Französisch
Deutsch
Spanisch
Vietnamesisch
Symbolsätze Arabische Ziffern
Satzzeichen
Zugewiesen 128 Codepunkte
33 Steuerung oder Format
Ungebraucht 0 reservierte Codepunkte
Quellstandards ISO/IEC 8859 , ISO 646
Unicode-Versionsverlauf
1.0.0 (1991) 128 (+128)
Hinweis :

Der Block Basic Latin oder C0 Controls and Basic Latin Unicode ist der erste Block des Unicode- Standards und der einzige Block, der in UTF-8 in einem Byte codiert ist . Der Block enthält alle Buchstaben und Steuercodes der ASCII-Codierung. Es reicht von U+0000 bis U+007F, enthält 128 Zeichen und enthält die C0-Steuerelemente , ASCII- Zeichensetzung und -Symbole , ASCII- Ziffern , Groß- und Kleinbuchstaben des englischen Alphabets und ein Steuerzeichen .

Der Block Basic Latin wurde in seiner jetzigen Form ab Version 1.0.0 des Unicode-Standards aufgenommen, ohne das Zeichenrepertoire hinzuzufügen oder zu ändern. Sein Blockname in Unicode 1.0 war ASCII .

Zeichentabelle

Code Ergebnis Beschreibung Akronym
C0-Steuerung
U+0000 Nullzeichen NUL
U+0001 Beginn der Überschrift SOH
U+0002 Textanfang STX
U+0003 Textende-Zeichen ETX
U+0004 Übertragungsende-Zeichen EOT
U+0005 Anfragezeichen DEQ
U+0006 Zeichen bestätigen ACK
U+0007 Glockencharakter BEL
U+0008 Rücktaste BS
U+0009 Horizontale Registerkarte HT
U+000A Zeilenvorschub LF
U+000B Vertikale Registerkarte VT
U+000C Formular-Feed FF
U+000D Wagenrücklauf CR
U+000E Shift Out SO
U+000F Umschalten SI
U+0010 Flucht aus der Datenverbindung DLE
U+0011 Gerätesteuerung 1 DC1
U+0012 Gerätesteuerung 2 DC2
U+0013 Gerätesteuerung 3 DC3
U+0014 Gerätesteuerung 4 DC4
U+0015 Negativ-Quittierungszeichen NAK
U+0016 Synchroner Leerlauf SYN
U+0017 Ende des Übertragungsblocks ETB
U+0018 Zeichen abbrechen KANN
U+0019 Ende des Mediums EM
U+001A Ersatzzeichen SUB
U+001B Escape-Zeichen ESC
U+001C Dateitrennzeichen FS
U+001D Gruppentrenner GS
U+001E Datensatztrenner RS
U+001F Einheitentrenner uns
ASCII-Zeichensetzung und -Symbole
U+0020   Platz SP
U+0021 ! Ausrufezeichen EXC
U+0022 " Anführungszeichen QUO
U+0023 # Nummernschild
U+0024 $ Dollarzeichen
U+0025 % Prozentzeichen
U+0026 & Et-Zeichen
U+0027 ' Apostroph
U+0028 ( Linke Klammer
U+0029 ) Rechte Klammer
U+002A * Sternchen
U+002B + Pluszeichen
U+002C , Komma
U+002D - Bindestrich-Minus
U+002E . Vollständ.Stopp oder Zeitraum
U+002F / Solidus oder Slash
ASCII-Ziffern
U+0030 0 Ziffer Null
U+0031 1 Ziffer Eins
U+0032 2 Ziffer Zwei
U+0033 3 Ziffer Drei
U+0034 4 Ziffer vier
U+0035 5 Ziffer Fünf
U+0036 6 Ziffer Sechs
U+0037 7 Ziffer Sieben
U+0038 8 Ziffer Acht
U+0039 9 Ziffer Neun
ASCII-Zeichensetzung und -Symbole
U+003A : Doppelpunkt
U+003B ; Semikolon
U+003C < Kleiner-als-Zeichen
U+003D = Gleichheitszeichen
U+003E > Größer-als-Zeichen
U+003F ? Fragezeichen
U+0040 @ At-Zeichen oder Commercial at
Lateinisches Alphabet in Großbuchstaben
U+0041 EIN Lateinischer Großbuchstabe A
U+0042 B Lateinischer Großbuchstabe B
U+0043 C Lateinischer Großbuchstabe C
U+0044 D Lateinischer Großbuchstabe D
U+0045 E Lateinischer Großbuchstabe E
U+0046 F Lateinischer Großbuchstabe F
U+0047 g Lateinischer Großbuchstabe G
U+0048 h Lateinischer Großbuchstabe H
U+0049 ich Lateinischer Großbuchstabe I
U+004A J Lateinischer Großbuchstabe J
U+004B K Lateinischer Großbuchstabe K
U+004C L Lateinischer Großbuchstabe L
U+004D m Lateinischer Großbuchstabe M
U+004E n Lateinischer Großbuchstabe N
U+004F Ö Lateinischer Großbuchstabe O
U+0050 P Lateinischer Großbuchstabe P
U+0051 Q Lateinischer Großbuchstabe Q
U+0052 R Lateinischer Großbuchstabe R
U+0053 S Lateinischer Großbuchstabe S
U+0054 T Lateinischer Großbuchstabe T
U+0055 U Lateinischer Großbuchstabe U
U+0056 V Lateinischer Großbuchstabe V
U+0057 W Lateinischer Großbuchstabe W
U+0058 x Lateinischer Großbuchstabe X
U+0059 Ja Lateinischer Großbuchstabe Y
U+005A Z Lateinischer Großbuchstabe Z
ASCII-Zeichensetzung und -Symbole
U+005B [ Linke quadratische Klammer
U+005C \ Backslash
U+005D ] Rechte quadratische Halterung
U+005E ^ Circumflex-Akzent
U+005F _ Niedrige Linie
U+0060 ` Gravis
Lateinisches Alphabet in Kleinbuchstaben
U+0061 ein Lateinischer Kleinbuchstabe A
U+0062 B Lateinischer Kleinbuchstabe B
U+0063 C Lateinischer Kleinbuchstabe C
U+0064 D Lateinischer Kleinbuchstabe D
U+0065 e Lateinischer Kleinbuchstabe E
U+0066 F Lateinischer Kleinbuchstabe F
U+0067 g Lateinischer Kleinbuchstabe G
U+0068 h Lateinischer Kleinbuchstabe H
U+0069 ich Lateinischer Kleinbuchstabe I
U+006A J Lateinischer Kleinbuchstabe J
U+006B k Lateinischer Kleinbuchstabe K
U+006C l Lateinischer Kleinbuchstabe L
U+006D m Lateinischer Kleinbuchstabe M
U+006E n Lateinischer Kleinbuchstabe N
U+006F Ö Lateinischer Kleinbuchstabe O
U+0070 P Lateinischer Kleinbuchstabe P
U+0071 Q Lateinischer Kleinbuchstabe Q
U+0072 R Lateinischer Kleinbuchstabe R
U+0073 S Lateinischer Kleinbuchstabe S
U+0074 T Lateinischer Kleinbuchstabe T
U+0075 du Lateinischer Kleinbuchstabe U
U+0076 v Lateinischer Kleinbuchstabe V
U+0077 w Lateinischer Kleinbuchstabe W
U+0078 x Lateinischer Kleinbuchstabe X
U+0079 ja Lateinischer Kleinbuchstabe Y
U+007A z Lateinischer Kleinbuchstabe Z
ASCII-Zeichensetzung und -Symbole
U+007B { Linke geschweifte Klammer
U+007C | Vertikaler Balken
U+007D } Rechte geschweifte Klammer
U+007E ~ Tilde
Steuerzeichen
U+007F Löschen DEL
A Der Buchstabe U+005C (\) kann in japanischen/koreanischen Schriftarten als Yen(¥)- oder Won(₩)-Zeichen erscheinen, wobei Unicode (insbesondereUTF-8) alsveralteter Zeichensatz verwechselt wird, der den umgekehrten Schrägstrich durch diese Zeichen ersetzt hat.

Zwischenüberschriften

Der Block C0 Controls and Basic Latin enthält sechs Unterüberschriften.

C0-Steuerung

Die C0-Steuerelemente , die in Version 1.0 als C0-ASCII-Steuercodes bezeichnet werden, werden von ASCII und anderen 7-Bit- und 8-Bit-Codierungsschemata geerbt. Die Alias-Namen für C0-Steuerungen stammen aus der Norm ISO/IEC 6429:1992 .

ASCII-Zeichensetzung und -Symbole

Diese Unterüberschrift bezieht sich auf Standardsatzzeichen, einfache mathematische Operatoren und Symbole wie Dollarzeichen, Prozent, kaufmännische Und-Zeichen, Unterstrich und Pipe.

ASCII-Ziffern

Die Unterüberschrift ASCII-Ziffern enthält die europäischen Standard-Zahlenzeichen 1–9 und 0.

Lateinisches Alphabet in Großbuchstaben

Die Unterüberschrift des lateinischen Großbuchstabens enthält das standardmäßige lateinische Alphabet mit 26 Buchstaben ohne Akzent in der Majuskel .

Lateinisches Alphabet in Kleinbuchstaben

Die Unterüberschrift des lateinischen Kleinbuchstabens enthält das standardmäßige lateinische Alphabet mit 26 Buchstaben ohne Akzent in der Minuskel .

Steuerzeichen

Die Unterüberschrift Steuerzeichen enthält das Zeichen "Löschen".

Anzahl Symbole, Buchstaben und Steuercodes

Die folgende Tabelle zeigt die Anzahl der Buchstaben , Symbole und Kontrollcodes in jeder der Unterüberschriften im Block C0 Controls und Basic Latin.

Art der Unterüberschrift Anzahl der Symbole Zeichenbereich
C0-Steuerung 32 Steuercodes U+0000 bis U+001F
ASCII-Zeichensetzung und -Symbole 33 Satzzeichen und Symbole U+0020 bis U+002F, U+003A bis U+0040, U+005B bis U+0060 und U+007B bis U+007E
ASCII-Ziffern 10 Ziffern U+0030 bis U+0039
Lateinisches Großalphabet 26 akzentfreie lateinische Buchstaben in der Majuskel. U+0041 bis U+005A
Lateinisches Alphabet in Kleinbuchstaben 26 akzentfreie lateinische Buchstaben in der Minuskel. U+0061 bis U+007A
Steuerzeichen 1 Steuercode mit dem Zeichen "Löschen". U+007F

Block

C0 Controls and Basic Latin
Offizielle Codetabelle des Unicode-Konsortiums (PDF)
  0 1 2 3 4 5 6 7 8 9 EIN B C D E F
U+000x  NUL   SOH   STX   ETX   EOT   DEQ   ACK   BEL    BS     HT     LF     VT     FF     CR     SO     SI  
U+001x  DLE   DC1   DC2   DC3   DC4   NAK   SYN   ETB   KANN    EM    SUB   ESC    FS     GS     RS     uns  
U+002x   SP   ! " # $ % & ' ( ) * + , - . /
U+003x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
U+004x @ EIN B C D E F g h ich J K L m n Ö
U+005x P Q R S T U V W x Ja Z [ \ ] ^ _
U+006x ` ein B C D e F g h ich J k l m n Ö
U+007x P Q R S T du v w x ja z { | } ~  DEL 
Anmerkungen
1. ^ Ab Unicode-Version 13.0

Varianten

Einige der Zeichen sind so definiert, dass sie als standardisierte Variante gerendert werden, wenn ihnen Variantenindikatoren folgen.

Für eine Null mit kurzem Diagonalhub ist eine Variante definiert: U+0030 DIGIT ZERO, U+FE00 VS1 (0︀).

Auf zwölf Zeichen (#, * und die Ziffern) kann U+FE0E VS15 oder U+FE0F VS16 folgen, um Emoji- Varianten zu erstellen . Sie sind Basiszeichen für Tastenkappen , zum Beispiel #️⃣ (U+0023 NUMMER SIGN U+FE0F VS16 U+20E3 COMBINING ENCLOSING KEYCAP). Die VS15-Version ist "Textpräsentation", während die VS16-Version "Emoji-Stil" ist.

Emoji-Variationssequenzen
U+ 0023 002A 0030 0031 0032 0033 0034 0035 0036 0037 0038 0039
Base # * 0 1 2 3 4 5 6 7 8 9
Basis+VS15+Tastenkappe #︎⃣ *︎⃣ 0︎⃣ 1︎⃣ 2︎⃣ 3︎⃣ 4︎⃣ 5︎⃣ 6︎⃣ 7︎⃣ 8︎⃣ 9︎⃣
Basis+VS16+Tastenkappe #️⃣ *️⃣ 0️⃣ 1️⃣ 2️⃣ 3️⃣ 4️⃣ 5️⃣ 6️⃣ 7️⃣ 8️ 9️⃣

Geschichte

Die folgenden Unicode-bezogenen Dokumente dokumentieren den Zweck und den Prozess der Definition bestimmter Zeichen im Block Basic Latin:

Ausführung Endgültige Codepunkte Zählen UTC-  ID L2-  ID WG2-  ID Dokumentieren
1.0.0 U+0000..007F 128 (bestimmt werden)
UTC/1999-013 Karlsson, Kent (1999-05-27), Tildes und Mikrozeichenzerlegungen
L2/99-176R Moore, Lisa (1999-11-04), "Micro Sign Case Mappings", Protokoll des gemeinsamen UTC/L2-Meetings in Seattle, 8.-10. Juni 1999
L2/04-145 Starner, David (2004-04-30), C mit Strichzeichenbeispielen aus BAE-Bericht 1884 (Dorsey)
L2/04-202 Anderson, Deborah (2004-06-07), Slashed C Feedback
N3046 Suignard, Michel (2006-02-22), Verbesserung der formalen Definition von Steuerzeichen
N3103 (pdf , doc ) Umamaheswaran, VS (2006-08-25), "M48.33", Unbestätigtes Protokoll der WG 2-Sitzung 48, Mountain View, CA, USA; 2006-04-24/27
L2/11-043 Freytag, Asmus; Karlsson, Kent (2011-02-02), Vorschlag zur Korrektur von Fehlern und Inkonsistenzen bei bestimmten Eigenschaftszuweisungen für hochgestellte und tiefgestellte Buchstaben
L2/11-160 PRI #181 Ändern der allgemeinen Kategorie von zwölf Charakteren , 2011-05-02
L2/11-261R2 Moore, Lisa (2011-08-16), "Consensus 128-C3", UTC #128 / L2 #225 Minutes , Akzeptieren Sie Ken Whistlers Empfehlungen in L2/11-281 zu Namensaliasen für Steuerzeichen mit dem Zusatz der Abkürzungen BEL und NULL.
L2/11-438 N4182 Edberg, Peter (2011-12-22), Emoji-Variationssequenzen (Revision von L2/11-429)
L2/15-107 Moore, Lisa (2015-05-12), "Consensus 143-C5", UTC #143 Minutes , Fügen Sie die 12 Tastenkappensequenzen in emoji-data.txt als vorläufige benannte Sequenzen in Unicode 8.0 hinzu.
L2/15-268 Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray (2015-10-30), Vorschlag zur Darstellung der Slashed Zero-Variante des leeren Sets
L2/15-301 Pournader, Roozbeh (2015-11-01), Ein Vorschlag für 278 standardisierte Variationsfolgen für Emoji
L2/15-254 Moore, Lisa (2015-11-16), "B.12.1.2 Proposal to Representing the Slashed Zero Variant of Empty Set", UTC #145 Minutes
L2/17-294 N4914 Lunde, Ken (2017-08-14), Vorschlag zum Hinzufügen einer standardisierten Variationssequenz für U+FF10 FULLWIDTH DIGIT NULL

Siehe auch

Verweise

  1. ^ "Unicode-Zeichendatenbank" . Der Unicode-Standard . Abgerufen 2016-07-09 .
  2. ^ "Aufzählungsversionen des Unicode-Standards" . Der Unicode-Standard . Abgerufen 2016-07-09 .
  3. ^ Der Unicode-Standard Version 1.0, Band 1 . Addison-Wesley Publishing Company, Inc. 1990. ISBN 0-201-56788-1.
  4. ^ "3.8: Block-für-Block-Diagramme" (PDF) . Der Unicode-Standard . Version 1.0. Unicode-Konsortium .
  5. ^ Alles aussortieren: Wann ist ein Backslash kein Backslash?
  6. ^ a b c d e f g "Unicode 6.2 Code Charts" (PDF) . Der Unicode-Standard . Abgerufen am 1. April 2013 .
  7. ^ Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray (2015-10-30). "L2/15-268: Vorschlag zur Darstellung der Slashed-Null-Variante des leeren Satzes" (PDF) .
  8. ^ a b "UTS # 51 Emoji-Variationssequenzen" . Das Unicode-Konsortium.
  9. ^ Edberg, Peter (2011-12-22). "L2/11-438: Emoji-Variationssequenzen (Revision von L2/11-429)" (PDF) .
  10. ^ Pournader, Roozbeh (2015-11-01). "L2/15-301: Ein Vorschlag für 278 standardisierte Variationsfolgen für Emoji" (PDF) .
  11. ^ „UTR #51: Unicode-Emoji“ . Unicode-Konsortium. 2020-02-11.
  12. ^ "UCD: Emoji-Daten für UTR #51" . Unicode-Konsortium. 2021-08-26.