Leerzeichen - Whitespace character

In der Computerprogrammierung ist Leerraum ein beliebiges Zeichen oder eine Reihe von Zeichen, die in der Typografie horizontalen oder vertikalen Raum darstellen . Beim Rendern entspricht ein Leerraumzeichen keiner sichtbaren Markierung, nimmt jedoch normalerweise einen Bereich auf einer Seite ein. Beispielsweise stellt das allgemeine Leerzeichen U+0020 SPACE (auch ASCII 32) ein Leerzeichen im Text dar, das in westlichen Schriften als Worttrenner verwendet wird .

Überblick

Relative Breiten verschiedener Leerzeichen in Unicode

Bei vielen Tastaturlayouts kann ein Leerzeichen durch die Verwendung einer spacebar. Auf vielen Tastaturen können auch horizontale Leerzeichen mithilfe der Tab ↹Taste eingegeben werden, wobei die Länge des Leerzeichens variieren kann. Vertikale Leerzeichen sind in ↵ EnterBezug auf die Codierung etwas vielfältiger, aber das offensichtlichste bei der Eingabe ist das Ergebnis, das in Anwendungsprogrammen eine "Neuzeilen"-Codesequenz erzeugt. Ältere Tastaturen könnten stattdessen sagen Return, was die Schreibmaschinentastatur abkürzt, was "Wagenrücklauf" bedeutet, was eine elektromechanische Rückkehr zum linken Anschlag (CR-Code in ASCII- Hex &0D;) und einen Zeilenvorschub oder eine Bewegung zur nächsten Zeile (LF-Code in ASCII) erzeugt -hex &0A;); in einigen Anwendungen wurden diese unabhängig verwendet, um textzellenbasierte Displays auf Monitoren zu zeichnen oder auf traktorgeführten Druckern zu drucken – die möglicherweise auch Rückwärtsbewegungen/Positionierungscodesequenzen enthalten, die es textbasierten Ausgabegeräten ermöglichen, eine anspruchsvollere Ausgabe zu erzielen. Viele frühe Computerspiele verwendeten solche Codes, um einen Bildschirm zu zeichnen (zB Kingdom of Kroz ), und Textverarbeitungssoftware würde dies verwenden, um Druckeffekte wie Fettdruck, Unterstreichung und Durchstreichung zu erzeugen.

Der Begriff "Whitespace" basiert auf dem resultierenden Erscheinungsbild auf normalem Papier . Sie werden jedoch innerhalb einer Anwendung codiert, Leerzeichen können wie jeder andere Zeichencode verarbeitet werden und Programme können die für den Kontext, in dem sie auftreten, richtige Aktion ausführen.

Definition und Mehrdeutigkeit

Die gängigsten Leerzeichen können über die Leertaste oder die Tabulatortaste eingegeben werden . Je nach Kontext kann auch ein durch die Return- oder Enter-Taste erzeugter Zeilenumbruch als Whitespace betrachtet werden.

Unicode

Die folgende Tabelle listet die fünfundzwanzig Zeichen auf, die in der Unicode -Zeichendatenbank als Leerzeichen ("WSpace=Y", "WS") definiert sind . Siebzehn verwenden eine Definition von Leerzeichen, die mit dem Algorithmus für bidirektionales Schreiben übereinstimmt ("Bidirektionaler Zeichentyp = WS") und sind als "Bidi-WS"-Zeichen bekannt. Die restlichen Zeichen können ebenfalls verwendet werden, sind aber nicht von diesem "Bidi"-Typ.

Hinweis: Je nach Browser und Schriftarten, die zum Anzeigen der folgenden Tabelle verwendet werden, werden möglicherweise nicht alle Leerzeichen richtig angezeigt.

v T e Unicode-Zeichen mit der Eigenschaft White_Space=yes
Name	Codepunkt		Breite Feld	Kann brechen ?	Im IDN ?	Skript	Block	Allgemeine Kategorie	Anmerkungen
Zeichentabelle	U+0009	9		Jawohl	Nein	Verbreitet	Grundkenntnisse in Latein	Andere, Kontrolle	HT, Horizontale Registerkarte . HTML/XML benannte Entität : `&Tab;`, LaTeX : '\tab'
Zeilenvorschub	U+000A	10	Ist ein Zeilenumbruch			Verbreitet	Grundkenntnisse in Latein	Andere, Kontrolle	LF, Zeilenvorschub . HTML/XML-benannte Entität:`&NewLine;`
Zeilentabellen	U+000B	11	Ist ein Zeilenumbruch			Verbreitet	Grundkenntnisse in Latein	Andere, Kontrolle	VT, vertikale Registerkarte
Formular-Feed	U+000C	12	Ist ein Zeilenumbruch			Verbreitet	Grundkenntnisse in Latein	Andere, Kontrolle	FF, Formularvorschub
Wagenrücklauf	U+000D	13	Ist ein Zeilenumbruch			Verbreitet	Grundkenntnisse in Latein	Andere, Kontrolle	CR, Wagenrücklauf
Platz	U+0020	32		Jawohl	Nein	Verbreitet	Grundkenntnisse in Latein	Trennzeichen, Leerzeichen	Am häufigsten (normaler ASCII-Raum)
nächste Zeile	U+0085	133	Ist ein Zeilenumbruch			Verbreitet	Latein-1- Ergänzung	Andere, Kontrolle	NEL, Nächste Zeile
Kein Pausenraum	U+00A0	160		Nein	Nein	Verbreitet	Latein-1- Ergänzung	Trennzeichen, Leerzeichen	Geschütztes Leerzeichen : identisch mit U+0020, jedoch kein Punkt, an dem eine Linie unterbrochen werden darf. HTML/XML benannte Entität: ` `, LaTeX: '\ '
ogham Leerzeichen	U+1680	5760		Jawohl	Nein	Ogham	Ogham	Trennzeichen, Leerzeichen	Wird zur Trennung zwischen Wörtern in Ogham- Text verwendet. Normalerweise eine vertikale Linie in vertikalem Text oder eine horizontale Linie in horizontalem Text, kann aber auch ein Leerzeichen in "stammlosen" Schriftarten sein. Erfordert eine Ogham-Schriftart.
de quad	U+2000	8192		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Breite von einem en . U+2002 entspricht diesem Zeichen kanonisch; U+2002 wird bevorzugt.
em quad	U+2001	8193		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Auch bekannt als "Hammelquadrat". Breite von einem em . U+2003 entspricht diesem Zeichen kanonisch; U+2003 wird bevorzugt.
en raum	U+2002	8194		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Auch als "Nuss" bekannt. Breite von einem en . U+2000 En Quad ist kanonisch äquivalent zu diesem Zeichen; U+2002 wird bevorzugt. HTML/XML benannte Entität: `&ensp;`, LaTeX: '\enspace'
em Raum	U+2003	8195		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Auch bekannt als "Hammel". Breite von einem em . U+2001 Em Quad ist kanonisch äquivalent zu diesem Zeichen; U+2003 wird bevorzugt. HTML/XML benannte Entität: `&emsp;`, LaTeX: '\quad'
Drei-pro-em-Raum	U+2004	8196		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Auch als "dicker Raum" bekannt. Ein Drittel eines em breit. HTML/XML-benannte Entität:`&emsp13;`
Vier-pro-em-Raum	U+2005	8197		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Auch als "mittlerer Raum" bekannt. Ein Viertel eines em breit. HTML/XML-benannte Entität:`&emsp14;`
Sechs-pro-em-Raum	U+2006	8198		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Ein Sechstel eines em breit. In der Computertypografie manchmal gleichgesetzt mit U+2009.
Figurenraum	U+2007	8199		Nein	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Abbildung Raum . Bei Schriftarten mit einzeiligen Ziffern, die der Breite einer Ziffer entsprechen. HTML/XML-benannte Entität:`&numsp;`
Satzzeichen	U+2008	8200		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	So breit wie die schmale Interpunktion in einer Schrift, also die Vorschubbreite des Punktes oder des Kommas. HTML/XML-benannte Entität:`&puncsp;`
dünner Raum	U+2009	8201		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Dünner Raum ; ein Fünftel (manchmal ein Sechstel) eines em breit. Empfohlen zur Verwendung als Tausendertrennzeichen für Messungen mit SI-Einheiten . Im Gegensatz zu U+2002 bis U+2008 kann seine Breite im Satz angepasst werden. HTML/XML benannte Entität: ` `; LaTeX: '\,'
Haarraum	U+200A	8202		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Dünner als ein dünner Raum. HTML/XML benannte Entität: `&hairsp;`( funktioniert nicht in allen Browsern)
Zeilentrenner	U+2028	8232	Ist ein Zeilenumbruch			Verbreitet	Allgemeine Interpunktion	Trennzeichen, Linie
Absatztrenner	U+2029	8233	Ist ein Zeilenumbruch			Verbreitet	Allgemeine Interpunktion	Trennzeichen, Absatz
schmaler unterbrechungsfreier Raum	U+202F	8239		Nein	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	Enger unterbrechungsfreier Raum . Funktion ähnlich wie U+00A0 No-Break Space. Wenn es mit Mongolian verwendet wird, beträgt seine Breite normalerweise ein Drittel des normalen Raums; in anderen Zusammenhängen ähnelt seine Breite manchmal der des Thin Space (U+2009).
mittlerer mathematischer Raum	U+205F	8287		Jawohl	Nein	Verbreitet	Allgemeine Interpunktion	Trennzeichen, Leerzeichen	MMSP. Wird in mathematischen Formeln verwendet. Vier-Achtzehntel-Em. In der mathematischen Typografie werden die Breiten von Leerzeichen normalerweise in ganzzahligen Vielfachen eines Achtzehntel-Ems angegeben, und 4/18-Em kann in verschiedenen Situationen verwendet werden, zum Beispiel zwischen dem a und dem + und zwischen dem + und dem b im Ausdruck a + b . HTML/XML-benannte Entität:` `
ideografischer Raum	U+3000	12288		Jawohl	Nein	Verbreitet	CJK-Symbole und Satzzeichen	Trennzeichen, Leerzeichen	So breit wie eine CJK- Zeichenzelle ( fullwidth ). Wird zum Beispiel im Tai Tou verwendet .

v T e Zugehörige Unicode-Zeicheneigenschaft White_Space=no
Name	Codepunkt		Breite Feld	Kann brechen ?	Im IDN ?	Skript	Block	Allgemeine Kategorie	Anmerkungen
mongolischer Vokaltrenner	U+180E	6158	᠎	Jawohl	Nein	mongolisch	mongolisch	Sonstiges, Format	MVS. Ein schmales Leerzeichen, das im Mongolischen verwendet wird, um zu bewirken, dass die letzten beiden Zeichen eines Wortes unterschiedliche Formen annehmen. Es wird in Unicode 6.3.0 nicht mehr als Leerzeichen (dh in der Kategorie Zs) klassifiziert, obwohl dies in früheren Versionen des Standards der Fall war.
Leerzeichen mit Nullbreite	U+200B	8203		Jawohl	Nein	?	Allgemeine Interpunktion	Sonstiges, Format	ZWSP, Leerzeichen mit Nullbreite . Wird verwendet, um Textverarbeitungssystemen Wortgrenzen anzuzeigen, wenn Skripte verwendet werden, die keine expliziten Leerzeichen verwenden. Es ähnelt dem weichen Bindestrich , mit dem Unterschied, dass letzterer verwendet wird, um Silbengrenzen anzuzeigen, und einen sichtbaren Bindestrich anzeigen sollte, wenn die Zeile an ihm umbricht. HTML/XML benannte Entität :`&ZeroWidthSpace;`
Nullbreite Nicht-Joiner	U+200C	8204	‌	Jawohl	Kontext abhängig	?	Allgemeine Interpunktion	Sonstiges, Format	ZWNJ, Nicht-Joiner ohne Breite . Wenn es zwischen zwei Zeichen gesetzt wird, die sonst verbunden wären, bewirkt ein ZWNJ, dass sie in ihrer endgültigen bzw. ursprünglichen Form gedruckt werden. HTML/XML-benannte Entität:`&zwnj;`
Tischler mit Nullbreite	U+200D	8205	‍	Jawohl	Kontext abhängig	?	Allgemeine Interpunktion	Sonstiges, Format	ZWJ, Tischler mit Nullbreite . Wenn es zwischen zwei Zeichen gesetzt wird, die sonst nicht verbunden wären, bewirkt ein ZWJ, dass sie in ihrer verbundenen Form gedruckt werden. Kann auch verwendet werden, um Verbindungsformulare isoliert anzuzeigen. Je nachdem, ob standardmäßig eine Ligatur oder Konjunktion erwartet wird, kann die Substitution durch eine einzelne Glyphe entweder induziert (wie in Emoji und in Singhalesisch ) oder unterdrückt (wie in Devanagari ) werden, während die Verwendung individueller Verbindungsformen (im Gegensatz zu ZWNJ) weiterhin möglich ist. HTML/XML-benannte Entität:`&zwj;`
Wortverbinder	U+2060	8288	⁠	Nein	Nein	?	Allgemeine Interpunktion	Sonstiges, Format	WJ, Wortverbinder . Ähnlich wie U+200B, aber kein Punkt, an dem eine Linie unterbrochen werden kann. HTML/XML-benannte Entität:`&NoBreak;`
Nullbreites geschütztes Leerzeichen	U+FEFF	65279		Nein	Nein	?	Arabische Präsentationsformen -B	Sonstiges, Format	Geschütztes Leerzeichen ohne Breite . Wird hauptsächlich als Byte Order Mark verwendet . Die Verwendung als Hinweis auf Non-breaking ist ab Unicode 3.2 veraltet; siehe stattdessen U+2060.

Ersatzbilder

Unicode bietet auch einige sichtbare Zeichen, die verwendet werden können, um verschiedene Leerzeichen in Kontexten darzustellen, in denen ein sichtbares Symbol angezeigt werden muss:

Unicode-Leerzeichen illustrieren (sichtbar)
Code	Dezimal	Name	Block	Anzeige	Beschreibung
U+00B7	183	Mittlerer Punkt	Latein-1-Ergänzung	·	Interpunct Benannte Entität:`·`
U+21A1	8609	Abwärtspfeil mit zwei Spitzen	Pfeile	↡	ECMA-17 / ISO 2047- Symbol für Seitenvorschub (Seitenumbruch)
U+2261	8810	Identisch mit	Mathematische Operatoren	≡	Unter anderem wird das ECMA-17 / ISO 2047-Symbol für Zeilenvorschub verwendet
U+237D	9085	Geschulterte offene Kiste	Sonstiges Technisches	⍽	Wird verwendet, um einen NBSP anzuzeigen
U+23CE	9166	Rückgabesymbol	Sonstiges Technisches	⏎	Symbol für eine Return-Taste , die einen Zeilenumbruch einfügt
U+2409	9225	Symbol für horizontale Tabellierung	Bilder steuern	␉	Ersetzt ein Tabulatorzeichen
U+240A	9226	Symbol für Zeilenvorschub	Bilder steuern	␊	Ersatz für einen Zeilenvorschub
U+240B	9227	Symbol für vertikale Tabellierung	Bilder steuern	␋	Ersetzt einen vertikalen Tabulator (Linientabulator)
U+240C	9228	Symbol für Formularvorschub	Bilder steuern	␌	Ersatz für einen Formularfeed (Seitenumbruch)
U+240D	9229	Symbol für Wagenrücklauf	Bilder steuern	␍	Ersatz für einen Wagenrücklauf
U+2420	9248	Symbol für Raum	Bilder steuern	␠	Ersetzt ein ASCII-Leerzeichen
U+2422	9250	Leerzeichen	Bilder steuern	␢	auch bekannt als "ersetzendes Leerzeichen", verwendet in BCDIC , EBCDIC , ASCII-1963 usw. als Symbol für den Worttrenner
U+2423	9251	Offene Box	Bilder steuern	␣	Wird in Block Brief Handschrift zumindest seit den 1980er Jahren , wenn es um explizit die Anzahl der Leerzeichen angeben notwendig ist (zB wenn sie mit Stift und Papier Programmierung). Wird in einem Lehrbuch (veröffentlicht 1982, 1984, 1985, 1988 vom Springer-Verlag) zu Modula-2 verwendet , einer Programmiersprache, in der Leerzeichen eine explizite Angabe erfordern. Wird auch in der Tastatur der TI-8 x- Serie von Grafikrechnern von Texas Instruments verwendet . Benannte Entität:`&blank;`
U+2424	9252	Symbol für Zeilenumbruch	Bilder steuern	␤	Ersatz für einen Zeilenumbruch
U+25B3	9651	Weißes nach oben zeigendes Dreieck	Geometrische Formen	△	Unter anderem wird das ECMA-17 / ISO 2047-Symbol für den ASCII-Raum verwendet
U+2A5B	10843	Logisch Oder mit Mittelstiel	Ergänzende mathematische Operatoren	⩛	Unter anderem wird das ECMA-17 / ISO 2047 Symbol für vertikale Tabulatoren (Linientabulatoren) verwendet.
U+2AAA	10922	Kleiner als	Ergänzende mathematische Operatoren	⪪	Unter anderem wird das ECMA-17 / ISO 2047-Symbol für den Wagenrücklauf verwendet
U+2AAB	10923	Größer als	Ergänzende mathematische Operatoren	⪫	Unter anderem wird das ECMA-17 / ISO 2047-Symbol für das Tabulatorzeichen verwendet
U+3037	12343	Symbol für ideografisches Telegrafen- Zeilenvorschubtrennzeichen	CJK-Symbole und Satzzeichen	〷	Grafik, die für Code 9999 im chinesischen Telegrafencode verwendet wird und einen Zeilenvorschub darstellt

^ Über der Null „0“ oder negative „(‒)“-Taste.

Genauer Platz

Das Cambridge Z88 bot ein spezielles "exaktes Leerzeichen" (Codepunkt 160 aka 0xA0) (aufrufbar durch Tastenkürzel ⌑+ SPACE), das vom Anzeigetreiber des Betriebssystems als "…" angezeigt wurde. Es wurde daher in Verbindung mit BBC BASIC auch als "dot space" bezeichnet .
Unter Codepunkt 224 (0xE0) stellte der Computer außerdem ein spezielles, drei Zeichen langes SPACE-Symbol "SPC" zur Verfügung (analog zu Unicodes einzelligem U+2420).

Leerzeichen ohne Leerzeichen

Der Braille-Muster- Unicode-Block enthält U+2800 ⠀ BRAILLE PATTERN BLANK (HTML ⠀), ein Braille- Muster ohne Punkte. Einige Schriftarten zeigen das Zeichen als Leerzeichen mit fester Breite an, der Unicode-Standard gibt jedoch ausdrücklich an, dass es nicht als Leerzeichen fungiert.
Die Abdeckung des koreanischen Alphabets durch Unicode umfasst mehrere Codepunkte, die das Fehlen eines geschriebenen Buchstabens darstellen und daher keine Glyphe anzeigen:
- Unicode enthält ein Hangul Filler- Zeichen im Hangul Compatibility Jamo- Block ( U+3164 ㅤ HANGUL FILLER (HTML ㅤ)). Dies wird als Buchstabe klassifiziert, aber als leeres Feld angezeigt, wie ein Hangul-Block, der kein Jamo enthält. Es wird in KS X 1001 Hangul-Kombinationssequenzen verwendet, um sie einzuleiten oder das Fehlen eines Buchstabens in einer Position anzuzeigen, aber nicht in Unicodes kombinierendem Jamo-System.
- Das kombinierende Jamo-System von Unicode verwendet ähnliche Hangul Choseong Filler- und Hangul Jungseong Filler-Zeichen, um das Fehlen eines Buchstabens in der Anfangs- oder Mittelposition innerhalb eines Silbenblocks anzuzeigen , die im Hangul Jamo-Block enthalten sind ( U+115F ᅟ HANGUL CHOSEONG FILLER (HTML ᅟ) , U+1160 HANGUL JUNGEONG FILLER (HTML ᅠ)).
- Darüber hinaus ist ein Halfwidth Hangul Filler in den Halfwidth- und Fullwidth-Formularen enthalten ( U+FFA0 ﾠ HALFWIDTH HANGUL FILLER (HTML ﾠ)), der beim Zuordnen von Codierungen verwendet wird, die sowohl Zeichen von Johab (oder Wansung ) als auch N-Byte-Hangul ( oder sein EBCDIC- Gegenstück), wie IBM-933, das sowohl Johab- als auch EBCDIC-Füllstoffe enthält.

Whitespace und digitale Typografie

Bildschirmanzeige

Texteditoren , Textverarbeitungsprogramme und Desktop-Publishing-Software unterscheiden sich darin, wie sie Leerräume auf dem Bildschirm darstellen und wie sie Leerräume an den Enden von Zeilen darstellen, die länger als die Bildschirm- oder Spaltenbreite sind. In einigen Fällen werden Leerzeichen einfach als Leerzeichen angezeigt; in anderen Fällen können sie durch einen Interpunkt oder andere Symbole dargestellt werden. Viele verschiedene Zeichen (unten beschrieben) können verwendet werden, um Leerzeichen zu erzeugen, und Nicht-Zeichenfunktionen (wie Ränder und Tabulatoreinstellungen) können sich auch auf Leerzeichen auswirken.

Mehrzweckraum mit variabler Breite

In Computer - Zeichencodierungen , gibt es einen normalen Allzweckraum (Unicode - Zeichen U + 0020) , deren Breite nach dem Entwurf der Schrift variiert. Typische Werte reichen von 1/5 em bis 1/3 em (in der digitalen Typografie entspricht ein em der Nenngröße der Schrift, so dass bei einer 10-Punkt-Schrift der Abstand wahrscheinlich zwischen 2 und 3,3 Punkt liegt). Anspruchsvolle Schriftarten können unterschiedlich große Leerzeichen für Fett-, Kursiv- und Kapitälchen haben, und oft passen Compositors die Breite des Leerzeichens je nach Größe und Hervorhebung des Textes manuell an.

Zusätzlich zu diesem Allzweckraum ist es möglich, einen Raum mit einer bestimmten Breite zu codieren. Eine vollständige Liste finden Sie in der folgenden Tabelle.

Haarzwischenräume um Bindestriche

Em Striche als klammerten Teiler verwendet, und en Striche , wenn sie als Wort Schreiner verwendet wird , sind in der Regel kontinuierlich eingestellt mit dem Text. Ein solcher Strich kann jedoch optional mit einem Haarzwischenraum , U+200A oder einem dünnen Zwischenraum , U+2009, umgeben sein. Der Haarraum kann in HTML mit den numerischen Zeichenreferenzen   oder  oder der benannten Entität geschrieben werden &hairsp;, wird jedoch ab 2016 in Browsern noch nicht universell unterstützt. Der dünne Raum heißt Entität  und numerische Referenzen  oder  . Diese Zwischenräume sind viel dünner als ein normaler Zwischenraum (außer in einer monospaced (nicht proportionalen) Schriftart ), wobei der Haarzwischenraum der dünnere der beiden ist.

Normaler Raum im Vergleich zu Haaren und dünnen Räumen (wie von Ihrem Browser gerendert)
Normales Leerzeichen mit em Bindestrich	links rechts
Dünner Raum mit em Strich	links – rechts
Haarraum mit em Strich	links rechts
Kein Leerzeichen mit em Dash	links rechts

Computeranwendungen

Programmiersprachen

In der Syntax von Programmiersprachen werden Leerzeichen häufig verwendet, um Token explizit zu trennen . In den meisten Sprachen werden mehrere Leerzeichen wie ein einzelnes Leerzeichen behandelt (außerhalb von Anführungszeichen); solche Sprachen werden Freiform genannt . In einigen Sprachen, darunter Haskell , occam , ABC und Python , werden Leerzeichen und Einrückungen für syntaktische Zwecke verwendet. In der satirischen Sprache namens Whitespace sind Whitespace-Zeichen die einzigen gültigen Zeichen für die Programmierung, während alle anderen Zeichen ignoriert werden.

Die übermäßige Verwendung von Leerzeichen, insbesondere nachgestellte Leerzeichen am Ende von Zeilen, wird als lästig angesehen. Die korrekte Verwendung von Leerzeichen kann jedoch das Lesen des Codes erleichtern und die gruppenbezogene Logik unterstützen.

Die meisten Sprachen erkennen nur ASCII-Zeichen als Leerzeichen oder in einigen Fällen auch Unicode-Neuzeilen, jedoch nicht die meisten der oben aufgeführten Zeichen. Die Sprache C definiert Leerzeichen als "Leerzeichen, horizontaler Tabulator, neue Zeile, vertikaler Tabulator und Seitenvorschub". Das HTTP- Netzwerkprotokoll erfordert die Verwendung verschiedener Arten von Leerzeichen in verschiedenen Teilen des Protokolls, wie zum Beispiel: nur das Leerzeichen in der Statuszeile , CRLF am Ende einer Zeile und "lineares Leerzeichen" in Header-Werten.

Befehlszeilen-Benutzeroberflächen

In Befehlen verarbeitet Befehlsprozessoren , beispielsweise in Skripten und eingegeben, kann das Leerzeichen zu Problemen führen , da es zwei mögliche Funktionen: als Teil eines Befehls oder einen Parameter, oder als Parameter oder den Namen Separator . Mehrdeutigkeit kann verhindert werden, indem entweder eingebettete Leerzeichen verboten werden oder ein Name mit eingebetteten Leerzeichen zwischen Anführungszeichen eingeschlossen wird.

Auszeichnungssprachen

Einige Auszeichnungssprachen, wie SGML , bewahren Leerzeichen wie geschrieben.

Web-Markup-Sprachen wie XML und HTML behandeln Leerzeichen speziell, einschließlich Leerzeichen, um die Programmierer zu vereinfachen. Ein oder mehrere Leerzeichen, die von entsprechenden Anzeigezeitprozessoren dieser Auszeichnungssprachen gelesen werden , werden je nach ihrem semantischen Kontext auf 0 oder 1 Leerzeichen reduziert. Beispielsweise werden doppelte (oder mehr) Leerzeichen im Text auf ein einzelnes Leerzeichen reduziert, und Leerzeichen, die auf beiden Seiten des " =" erscheinen, das einen Attributnamen von seinem Wert trennt, haben keine Auswirkung auf die Interpretation des Dokuments. Element-End-Tags können nachgestellte Leerzeichen enthalten, und leere-Element-Tags in XML können Leerzeichen vor dem " />" enthalten. In diesen Sprachen erhöht unnötiger Leerraum die Dateigröße und kann somit die Netzwerkübertragung verlangsamen. Auf der anderen Seite kann unnötiger Leerraum auch Code unauffällig markieren, ähnlich, aber weniger offensichtlich als Kommentare im Code. Dies kann wünschenswert sein , eine zu beweisen Verletzung der Lizenz oder Copyright , die durch begangen wurde , Kopieren und Einfügen .

In XML-Attributwerten werden Folgen von Leerzeichen als einzelnes Leerzeichen behandelt, wenn das Dokument von einem Parser gelesen wird. Leerzeichen im Inhalt von XML-Elementen werden vom Parser nicht auf diese Weise geändert, aber eine Anwendung, die Informationen vom Parser empfängt, kann sich dafür entscheiden, ähnliche Regeln auf den Elementinhalt anzuwenden. Ein XML-Dokumentautor kann das xml:space="preserve"Attribut eines Elements verwenden, um den Parser anzuweisen, die nachgeschaltete Anwendung davon abzuhalten, Leerzeichen im Inhalt dieses Elements zu ändern.

In den meisten HTML-Elementen wird eine Folge von Leerzeichen als einzelnes Trennzeichen zwischen Wörtern behandelt , das sich als einzelnes Leerzeichen manifestieren kann, wenn Text in einer Sprache wiedergegeben wird, die normalerweise solche Leerzeichen zwischen Wörtern einfügt. Konforme HTML-Renderer müssen Whitespace innerhalb weniger vorgeschriebener Elemente wie dem preTag und jedem Element, für das CSS verwendet wurde, um eine preähnliche Whitespace-Verarbeitung anzuwenden, wörtlicher behandeln . In solchen Elementen werden Leerzeichen nicht in Trennzeichen zwischen Wörtern "zusammengeklappt".

Sowohl in XML als auch in HTML wird das geschützte Leerzeichen zusammen mit anderen Nicht-"Standard"-Leerzeichen nicht als komprimierbares "Whitespace" behandelt, daher unterliegt es nicht den obigen Regeln.

Dateinamen

Diese Verwendung ähnelt Mehrwort-Dateinamen, die für Betriebssysteme und Anwendungen geschrieben wurden, die durch eingebettete Leerzeichen verwechselt werden – solche Dateinamen verwenden stattdessen einen Unterstrich (_) als Worttrenner, as_in_this_phrase.

Ein weiteres solches Symbol war U+2422 ␢ BLANK SYMBOL . Dies wurde in den frühen Jahren der Computerprogrammierung beim Schreiben auf Kodierungsformularen verwendet. Keypunch- Bediener erkannten das Symbol sofort als "explizites Leerzeichen". Es wurde in BCDIC , EBCDIC und ASCII-1963 verwendet .

Siehe auch

Wagenrücklauf
Em (Typografie)
De (Typografie)
Formular-Feed
Einzugsstil
Zeilenvorschub
Neue Zeile
Programmierstil
Prosigns für Morsecode
Regulärer Ausdruck#Zeichenklassen für die Leerraumzeichenklasse.
Leertaste
Leerzeichen (Satzzeichen)
Tab-Taste
Trimmen (Computerprogrammierung)
Leerzeichen (Programmiersprache)
Leerzeichen ohne Breite

Verweise

Externe Links

Eigenschaftsliste der Unicode-Zeichendatenbank

[22] Über der Null „0“ oder negative „(‒)“-Taste.

Languages

In other projects