Leerzeichen - Whitespace character

In der Computerprogrammierung ist Leerraum ein beliebiges Zeichen oder eine Reihe von Zeichen, die in der Typografie horizontalen oder vertikalen Raum darstellen . Beim Rendern entspricht ein Leerraumzeichen keiner sichtbaren Markierung, nimmt jedoch normalerweise einen Bereich auf einer Seite ein. Beispielsweise stellt das allgemeine Leerzeichen U+0020 SPACE (auch ASCII 32) ein Leerzeichen im Text dar, das in westlichen Schriften als Worttrenner verwendet wird .  

Überblick

Relative Breiten verschiedener Leerzeichen in Unicode

Bei vielen Tastaturlayouts kann ein Leerzeichen durch die Verwendung einer spacebar. Auf vielen Tastaturen können auch horizontale Leerzeichen mithilfe der Tab ↹Taste eingegeben werden, wobei die Länge des Leerzeichens variieren kann. Vertikale Leerzeichen sind in ↵ EnterBezug auf die Codierung etwas vielfältiger, aber das offensichtlichste bei der Eingabe ist das Ergebnis, das in Anwendungsprogrammen eine "Neuzeilen"-Codesequenz erzeugt. Ältere Tastaturen könnten stattdessen sagen Return, was die Schreibmaschinentastatur abkürzt, was "Wagenrücklauf" bedeutet, was eine elektromechanische Rückkehr zum linken Anschlag (CR-Code in ASCII- Hex &0D;) und einen Zeilenvorschub oder eine Bewegung zur nächsten Zeile (LF-Code in ASCII) erzeugt -hex &0A;); in einigen Anwendungen wurden diese unabhängig verwendet, um textzellenbasierte Displays auf Monitoren zu zeichnen oder auf traktorgeführten Druckern zu drucken – die möglicherweise auch Rückwärtsbewegungen/Positionierungscodesequenzen enthalten, die es textbasierten Ausgabegeräten ermöglichen, eine anspruchsvollere Ausgabe zu erzielen. Viele frühe Computerspiele verwendeten solche Codes, um einen Bildschirm zu zeichnen (zB Kingdom of Kroz ), und Textverarbeitungssoftware würde dies verwenden, um Druckeffekte wie Fettdruck, Unterstreichung und Durchstreichung zu erzeugen.

Der Begriff "Whitespace" basiert auf dem resultierenden Erscheinungsbild auf normalem Papier . Sie werden jedoch innerhalb einer Anwendung codiert, Leerzeichen können wie jeder andere Zeichencode verarbeitet werden und Programme können die für den Kontext, in dem sie auftreten, richtige Aktion ausführen.

Definition und Mehrdeutigkeit

Die gängigsten Leerzeichen können über die Leertaste oder die Tabulatortaste eingegeben werden . Je nach Kontext kann auch ein durch die Return- oder Enter-Taste erzeugter Zeilenumbruch als Whitespace betrachtet werden.

Unicode

Die folgende Tabelle listet die fünfundzwanzig Zeichen auf, die in der Unicode -Zeichendatenbank als Leerzeichen ("WSpace=Y", "WS") definiert sind . Siebzehn verwenden eine Definition von Leerzeichen, die mit dem Algorithmus für bidirektionales Schreiben übereinstimmt ("Bidirektionaler Zeichentyp = WS") und sind als "Bidi-WS"-Zeichen bekannt. Die restlichen Zeichen können ebenfalls verwendet werden, sind aber nicht von diesem "Bidi"-Typ.

Hinweis: Je nach Browser und Schriftarten, die zum Anzeigen der folgenden Tabelle verwendet werden, werden möglicherweise nicht alle Leerzeichen richtig angezeigt.

Name Codepunkt Breite Feld Kann brechen ? Im
IDN ?
Skript Block Allgemeine
Kategorie
Anmerkungen
Zeichentabelle U+0009 9 Jawohl Nein Verbreitet Grundkenntnisse in Latein Andere,
Kontrolle
HT, Horizontale Registerkarte . HTML/XML benannte Entität : 	, LaTeX : '\tab'
Zeilenvorschub U+000A 10 Ist ein Zeilenumbruch Verbreitet Grundkenntnisse in Latein Andere,
Kontrolle
LF, Zeilenvorschub . HTML/XML-benannte Entität:

Zeilentabellen U+000B 11 Ist ein Zeilenumbruch Verbreitet Grundkenntnisse in Latein Andere,
Kontrolle
VT, vertikale Registerkarte
Formular-Feed U+000C 12 Ist ein Zeilenumbruch Verbreitet Grundkenntnisse in Latein Andere,
Kontrolle
FF, Formularvorschub
Wagenrücklauf U+000D 13 Ist ein Zeilenumbruch Verbreitet Grundkenntnisse in Latein Andere,
Kontrolle
CR, Wagenrücklauf
Platz U+0020 32 Jawohl Nein Verbreitet Grundkenntnisse in Latein Trennzeichen,
Leerzeichen
Am häufigsten (normaler ASCII-Raum)
nächste Zeile U+0085 133 Ist ein Zeilenumbruch Verbreitet Latein-1-
Ergänzung
Andere,
Kontrolle
NEL, Nächste Zeile
Kein Pausenraum U+00A0 160   Nein Nein Verbreitet Latein-1-
Ergänzung
Trennzeichen,
Leerzeichen
Geschütztes Leerzeichen : identisch mit U+0020, jedoch kein Punkt, an dem eine Linie unterbrochen werden darf. HTML/XML benannte Entität:  , LaTeX: '\ '
ogham Leerzeichen U+1680 5760 Jawohl Nein Ogham Ogham Trennzeichen,
Leerzeichen
Wird zur Trennung zwischen Wörtern in Ogham- Text verwendet. Normalerweise eine vertikale Linie in vertikalem Text oder eine horizontale Linie in horizontalem Text, kann aber auch ein Leerzeichen in "stammlosen" Schriftarten sein. Erfordert eine Ogham-Schriftart.
de quad U+2000 8192   Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Breite von einem en . U+2002 entspricht diesem Zeichen kanonisch; U+2002 wird bevorzugt.
em quad U+2001 8193 Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Auch bekannt als "Hammelquadrat". Breite von einem em . U+2003 entspricht diesem Zeichen kanonisch; U+2003 wird bevorzugt.
en raum U+2002 8194 Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Auch als "Nuss" bekannt. Breite von einem en . U+2000 En Quad ist kanonisch äquivalent zu diesem Zeichen; U+2002 wird bevorzugt. HTML/XML benannte Entität:  , LaTeX: '\enspace'
em Raum U+2003 8195 Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Auch bekannt als "Hammel". Breite von einem em . U+2001 Em Quad ist kanonisch äquivalent zu diesem Zeichen; U+2003 wird bevorzugt. HTML/XML benannte Entität:  , LaTeX: '\quad'
Drei-pro-em-Raum U+2004 8196 Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Auch als "dicker Raum" bekannt. Ein Drittel eines em breit. HTML/XML-benannte Entität: 
Vier-pro-em-Raum U+2005 8197 Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Auch als "mittlerer Raum" bekannt. Ein Viertel eines em breit. HTML/XML-benannte Entität: 
Sechs-pro-em-Raum U+2006 8198 Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Ein Sechstel eines em breit. In der Computertypografie manchmal gleichgesetzt mit U+2009.
Figurenraum U+2007 8199 Nein Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Abbildung Raum . Bei Schriftarten mit einzeiligen Ziffern, die der Breite einer Ziffer entsprechen. HTML/XML-benannte Entität: 
Satzzeichen U+2008 8200 Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
So breit wie die schmale Interpunktion in einer Schrift, also die Vorschubbreite des Punktes oder des Kommas. HTML/XML-benannte Entität: 
dünner Raum U+2009 8201 Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Dünner Raum ; ein Fünftel (manchmal ein Sechstel) eines em breit. Empfohlen zur Verwendung als Tausendertrennzeichen für Messungen mit SI-Einheiten . Im Gegensatz zu U+2002 bis U+2008 kann seine Breite im Satz angepasst werden. HTML/XML benannte Entität:  ; LaTeX: '\,'
Haarraum U+200A 8202 Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Dünner als ein dünner Raum. HTML/XML benannte Entität:  ( funktioniert nicht in allen Browsern)
Zeilentrenner U+2028 8232 Ist ein Zeilenumbruch Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Linie
Absatztrenner U+2029 8233 Ist ein Zeilenumbruch Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Absatz
schmaler unterbrechungsfreier Raum U+202F 8239 Nein Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
Enger unterbrechungsfreier Raum . Funktion ähnlich wie U+00A0 No-Break Space. Wenn es mit Mongolian verwendet wird, beträgt seine Breite normalerweise ein Drittel des normalen Raums; in anderen Zusammenhängen ähnelt seine Breite manchmal der des Thin Space (U+2009).
mittlerer mathematischer Raum U+205F 8287 Jawohl Nein Verbreitet Allgemeine
Interpunktion
Trennzeichen,
Leerzeichen
MMSP. Wird in mathematischen Formeln verwendet. Vier-Achtzehntel-Em. In der mathematischen Typografie werden die Breiten von Leerzeichen normalerweise in ganzzahligen Vielfachen eines Achtzehntel-Ems angegeben, und 4/18-Em kann in verschiedenen Situationen verwendet werden, zum Beispiel zwischen dem a und dem + und zwischen dem + und dem b im Ausdruck a + b . HTML/XML-benannte Entität: 
ideografischer Raum U+3000 12288   Jawohl Nein Verbreitet CJK-Symbole
und
Satzzeichen
Trennzeichen,
Leerzeichen
So breit wie eine CJK- Zeichenzelle ( fullwidth ). Wird zum Beispiel im Tai Tou verwendet .
 Name  Codepunkt Breite Feld Kann brechen ? Im
IDN ?
Skript Block Allgemeine
Kategorie
Anmerkungen
mongolischer Vokaltrenner U+180E 6158 Jawohl Nein mongolisch mongolisch Sonstiges,
Format
MVS. Ein schmales Leerzeichen, das im Mongolischen verwendet wird, um zu bewirken, dass die letzten beiden Zeichen eines Wortes unterschiedliche Formen annehmen. Es wird in Unicode 6.3.0 nicht mehr als Leerzeichen (dh in der Kategorie Zs) klassifiziert, obwohl dies in früheren Versionen des Standards der Fall war.
Leerzeichen mit Nullbreite U+200B 8203 Jawohl Nein ? Allgemeine
Interpunktion
Sonstiges,
Format
ZWSP, Leerzeichen mit Nullbreite . Wird verwendet, um Textverarbeitungssystemen Wortgrenzen anzuzeigen, wenn Skripte verwendet werden, die keine expliziten Leerzeichen verwenden. Es ähnelt dem weichen Bindestrich , mit dem Unterschied, dass letzterer verwendet wird, um Silbengrenzen anzuzeigen, und einen sichtbaren Bindestrich anzeigen sollte, wenn die Zeile an ihm umbricht. HTML/XML benannte Entität :​
Nullbreite Nicht-Joiner U+200C 8204 Jawohl Kontext abhängig ? Allgemeine
Interpunktion
Sonstiges,
Format
ZWNJ, Nicht-Joiner ohne Breite . Wenn es zwischen zwei Zeichen gesetzt wird, die sonst verbunden wären, bewirkt ein ZWNJ, dass sie in ihrer endgültigen bzw. ursprünglichen Form gedruckt werden. HTML/XML-benannte Entität:‌
Tischler mit Nullbreite U+200D 8205 Jawohl Kontext abhängig ? Allgemeine
Interpunktion
Sonstiges,
Format
ZWJ, Tischler mit Nullbreite . Wenn es zwischen zwei Zeichen gesetzt wird, die sonst nicht verbunden wären, bewirkt ein ZWJ, dass sie in ihrer verbundenen Form gedruckt werden. Kann auch verwendet werden, um Verbindungsformulare isoliert anzuzeigen. Je nachdem, ob standardmäßig eine Ligatur oder Konjunktion erwartet wird, kann die Substitution durch eine einzelne Glyphe entweder induziert (wie in Emoji und in Singhalesisch ) oder unterdrückt (wie in Devanagari ) werden, während die Verwendung individueller Verbindungsformen (im Gegensatz zu ZWNJ) weiterhin möglich ist. HTML/XML-benannte Entität:‍
Wortverbinder U+2060 8288 Nein Nein ? Allgemeine
Interpunktion
Sonstiges,
Format
WJ, Wortverbinder . Ähnlich wie U+200B, aber kein Punkt, an dem eine Linie unterbrochen werden kann. HTML/XML-benannte Entität:⁠
Nullbreites geschütztes Leerzeichen U+FEFF 65279  Nein Nein ? Arabische
Präsentationsformen
-B
Sonstiges,
Format
Geschütztes Leerzeichen ohne Breite . Wird hauptsächlich als Byte Order Mark verwendet . Die Verwendung als Hinweis auf Non-breaking ist ab Unicode 3.2 veraltet; siehe stattdessen U+2060.

Ersatzbilder

Unicode bietet auch einige sichtbare Zeichen, die verwendet werden können, um verschiedene Leerzeichen in Kontexten darzustellen, in denen ein sichtbares Symbol angezeigt werden muss:

Unicode-Leerzeichen illustrieren (sichtbar)
Code Dezimal Name Block Anzeige Beschreibung
U+00B7 183 Mittlerer Punkt Latein-1-Ergänzung · Interpunct
Benannte Entität:·
U+21A1 8609 Abwärtspfeil mit zwei Spitzen Pfeile ECMA-17 / ISO 2047- Symbol für Seitenvorschub (Seitenumbruch)
U+2261 8810 Identisch mit Mathematische
Operatoren
Unter anderem wird das ECMA-17 / ISO 2047-Symbol für Zeilenvorschub verwendet
U+237D 9085 Geschulterte offene Kiste Sonstiges Technisches Wird verwendet, um einen NBSP anzuzeigen
U+23CE 9166 Rückgabesymbol Sonstiges Technisches Symbol für eine Return-Taste , die einen Zeilenumbruch einfügt
U+2409 9225 Symbol für horizontale Tabellierung Bilder steuern Ersetzt ein Tabulatorzeichen
U+240A 9226 Symbol für Zeilenvorschub Bilder steuern Ersatz für einen Zeilenvorschub
U+240B 9227 Symbol für vertikale Tabellierung Bilder steuern Ersetzt einen vertikalen Tabulator (Linientabulator)
U+240C 9228 Symbol für Formularvorschub Bilder steuern Ersatz für einen Formularfeed (Seitenumbruch)
U+240D 9229 Symbol für Wagenrücklauf Bilder steuern Ersatz für einen Wagenrücklauf
U+2420 9248 Symbol für Raum Bilder steuern Ersetzt ein ASCII-Leerzeichen
U+2422 9250 Leerzeichen Bilder steuern auch bekannt als "ersetzendes Leerzeichen", verwendet in BCDIC , EBCDIC , ASCII-1963 usw. als Symbol für den Worttrenner
U+2423 9251 Offene Box Bilder steuern Wird in Block Brief Handschrift zumindest seit den 1980er Jahren , wenn es um explizit die Anzahl der Leerzeichen angeben notwendig ist (zB wenn sie mit Stift und Papier Programmierung). Wird in einem Lehrbuch (veröffentlicht 1982, 1984, 1985, 1988 vom Springer-Verlag) zu Modula-2 verwendet , einer Programmiersprache, in der Leerzeichen eine explizite Angabe erfordern. Wird auch in der Tastatur der TI-8 x- Serie von Grafikrechnern von Texas Instruments verwendet .
Benannte Entität:␣
U+2424 9252 Symbol für Zeilenumbruch Bilder steuern Ersatz für einen Zeilenumbruch
U+25B3 9651 Weißes nach oben zeigendes Dreieck Geometrische Formen Unter anderem wird das ECMA-17 / ISO 2047-Symbol für den ASCII-Raum verwendet
U+2A5B 10843 Logisch Oder mit Mittelstiel Ergänzende
mathematische
Operatoren
Unter anderem wird das ECMA-17 / ISO 2047 Symbol für vertikale Tabulatoren (Linientabulatoren) verwendet.
U+2AAA 10922 Kleiner als Ergänzende
mathematische
Operatoren
Unter anderem wird das ECMA-17 / ISO 2047-Symbol für den Wagenrücklauf verwendet
U+2AAB 10923 Größer als Ergänzende
mathematische
Operatoren
Unter anderem wird das ECMA-17 / ISO 2047-Symbol für das Tabulatorzeichen verwendet
U+3037 12343
Symbol für ideografisches Telegrafen- Zeilenvorschubtrennzeichen
CJK-Symbole
und Satzzeichen
Grafik, die für Code 9999 im chinesischen Telegrafencode verwendet wird und einen Zeilenvorschub darstellt
  1. ^ Über der Null „0“ oder negative „(‒)“-Taste.
Genauer Platz
  • Das Cambridge Z88 bot ein spezielles "exaktes Leerzeichen" (Codepunkt 160 aka 0xA0) (aufrufbar durch Tastenkürzel + SPACE), das vom Anzeigetreiber des Betriebssystems als "…" angezeigt wurde. Es wurde daher in Verbindung mit BBC BASIC auch als "dot space" bezeichnet .
  • Unter Codepunkt 224 (0xE0) stellte der Computer außerdem ein spezielles, drei Zeichen langes SPACE-Symbol "SPC" zur Verfügung (analog zu Unicodes einzelligem U+2420).

Leerzeichen ohne Leerzeichen

  • Der Braille-Muster- Unicode-Block enthält U+2800 BRAILLE PATTERN BLANK (HTML  ⠀), ein Braille- Muster ohne Punkte. Einige Schriftarten zeigen das Zeichen als Leerzeichen mit fester Breite an, der Unicode-Standard gibt jedoch ausdrücklich an, dass es nicht als Leerzeichen fungiert.
  • Die Abdeckung des koreanischen Alphabets durch Unicode umfasst mehrere Codepunkte, die das Fehlen eines geschriebenen Buchstabens darstellen und daher keine Glyphe anzeigen:
    • Unicode enthält ein Hangul Filler- Zeichen im Hangul Compatibility Jamo- Block ( U+3164 HANGUL FILLER (HTML  ㅤ)). Dies wird als Buchstabe klassifiziert, aber als leeres Feld angezeigt, wie ein Hangul-Block, der kein Jamo enthält. Es wird in KS X 1001 Hangul-Kombinationssequenzen verwendet, um sie einzuleiten oder das Fehlen eines Buchstabens in einer Position anzuzeigen, aber nicht in Unicodes kombinierendem Jamo-System.
    • Das kombinierende Jamo-System von Unicode verwendet ähnliche Hangul Choseong Filler- und Hangul Jungseong Filler-Zeichen, um das Fehlen eines Buchstabens in der Anfangs- oder Mittelposition innerhalb eines Silbenblocks anzuzeigen , die im Hangul Jamo-Block enthalten sind ( U+115F HANGUL CHOSEONG FILLER (HTML  ᅟ) , U+1160 HANGUL JUNGEONG FILLER (HTML  ᅠ)).
    • Darüber hinaus ist ein Halfwidth Hangul Filler in den Halfwidth- und Fullwidth-Formularen enthalten ( U+FFA0 HALFWIDTH HANGUL FILLER (HTML  ᅠ)), der beim Zuordnen von Codierungen verwendet wird, die sowohl Zeichen von Johab (oder Wansung ) als auch N-Byte-Hangul ( oder sein EBCDIC- Gegenstück), wie IBM-933, das sowohl Johab- als auch EBCDIC-Füllstoffe enthält.

Whitespace und digitale Typografie

Bildschirmanzeige

Texteditoren , Textverarbeitungsprogramme und Desktop-Publishing-Software unterscheiden sich darin, wie sie Leerräume auf dem Bildschirm darstellen und wie sie Leerräume an den Enden von Zeilen darstellen, die länger als die Bildschirm- oder Spaltenbreite sind. In einigen Fällen werden Leerzeichen einfach als Leerzeichen angezeigt; in anderen Fällen können sie durch einen Interpunkt oder andere Symbole dargestellt werden. Viele verschiedene Zeichen (unten beschrieben) können verwendet werden, um Leerzeichen zu erzeugen, und Nicht-Zeichenfunktionen (wie Ränder und Tabulatoreinstellungen) können sich auch auf Leerzeichen auswirken.

Mehrzweckraum mit variabler Breite

In Computer - Zeichencodierungen , gibt es einen normalen Allzweckraum (Unicode - Zeichen U + 0020) , deren Breite nach dem Entwurf der Schrift variiert. Typische Werte reichen von 1/5 em bis 1/3 em (in der digitalen Typografie entspricht ein em der Nenngröße der Schrift, so dass bei einer 10-Punkt-Schrift der Abstand wahrscheinlich zwischen 2 und 3,3 Punkt liegt). Anspruchsvolle Schriftarten können unterschiedlich große Leerzeichen für Fett-, Kursiv- und Kapitälchen haben, und oft passen Compositors die Breite des Leerzeichens je nach Größe und Hervorhebung des Textes manuell an.

Zusätzlich zu diesem Allzweckraum ist es möglich, einen Raum mit einer bestimmten Breite zu codieren. Eine vollständige Liste finden Sie in der folgenden Tabelle.

Haarzwischenräume um Bindestriche

Em Striche als klammerten Teiler verwendet, und en Striche , wenn sie als Wort Schreiner verwendet wird , sind in der Regel kontinuierlich eingestellt mit dem Text. Ein solcher Strich kann jedoch optional mit einem Haarzwischenraum , U+200A oder einem dünnen Zwischenraum , U+2009, umgeben sein. Der Haarraum kann in HTML mit den numerischen Zeichenreferenzen   oder  oder der benannten Entität geschrieben werden  , wird jedoch ab 2016 in Browsern noch nicht universell unterstützt. Der dünne Raum heißt Entität  und numerische Referenzen  oder  . Diese Zwischenräume sind viel dünner als ein normaler Zwischenraum (außer in einer monospaced (nicht proportionalen) Schriftart ), wobei der Haarzwischenraum der dünnere der beiden ist.

Normaler Raum im Vergleich zu Haaren und dünnen Räumen (wie von Ihrem Browser gerendert)
Normales Leerzeichen mit em Bindestrich links rechts
Dünner Raum mit em Strich links rechts
Haarraum mit em Strich links rechts
Kein Leerzeichen mit em Dash links rechts

Computeranwendungen

Programmiersprachen

In der Syntax von Programmiersprachen werden Leerzeichen häufig verwendet, um Token explizit zu trennen . In den meisten Sprachen werden mehrere Leerzeichen wie ein einzelnes Leerzeichen behandelt (außerhalb von Anführungszeichen); solche Sprachen werden Freiform genannt . In einigen Sprachen, darunter Haskell , occam , ABC und Python , werden Leerzeichen und Einrückungen für syntaktische Zwecke verwendet. In der satirischen Sprache namens Whitespace sind Whitespace-Zeichen die einzigen gültigen Zeichen für die Programmierung, während alle anderen Zeichen ignoriert werden.

Die übermäßige Verwendung von Leerzeichen, insbesondere nachgestellte Leerzeichen am Ende von Zeilen, wird als lästig angesehen. Die korrekte Verwendung von Leerzeichen kann jedoch das Lesen des Codes erleichtern und die gruppenbezogene Logik unterstützen.

Die meisten Sprachen erkennen nur ASCII-Zeichen als Leerzeichen oder in einigen Fällen auch Unicode-Neuzeilen, jedoch nicht die meisten der oben aufgeführten Zeichen. Die Sprache C definiert Leerzeichen als "Leerzeichen, horizontaler Tabulator, neue Zeile, vertikaler Tabulator und Seitenvorschub". Das HTTP- Netzwerkprotokoll erfordert die Verwendung verschiedener Arten von Leerzeichen in verschiedenen Teilen des Protokolls, wie zum Beispiel: nur das Leerzeichen in der Statuszeile , CRLF am Ende einer Zeile und "lineares Leerzeichen" in Header-Werten.

Befehlszeilen-Benutzeroberflächen

In Befehlen verarbeitet Befehlsprozessoren , beispielsweise in Skripten und eingegeben, kann das Leerzeichen zu Problemen führen , da es zwei mögliche Funktionen: als Teil eines Befehls oder einen Parameter, oder als Parameter oder den Namen Separator . Mehrdeutigkeit kann verhindert werden, indem entweder eingebettete Leerzeichen verboten werden oder ein Name mit eingebetteten Leerzeichen zwischen Anführungszeichen eingeschlossen wird.

Auszeichnungssprachen

Einige Auszeichnungssprachen, wie SGML , bewahren Leerzeichen wie geschrieben.

Web-Markup-Sprachen wie XML und HTML behandeln Leerzeichen speziell, einschließlich Leerzeichen, um die Programmierer zu vereinfachen. Ein oder mehrere Leerzeichen, die von entsprechenden Anzeigezeitprozessoren dieser Auszeichnungssprachen gelesen werden , werden je nach ihrem semantischen Kontext auf 0 oder 1 Leerzeichen reduziert. Beispielsweise werden doppelte (oder mehr) Leerzeichen im Text auf ein einzelnes Leerzeichen reduziert, und Leerzeichen, die auf beiden Seiten des " =" erscheinen, das einen Attributnamen von seinem Wert trennt, haben keine Auswirkung auf die Interpretation des Dokuments. Element-End-Tags können nachgestellte Leerzeichen enthalten, und leere-Element-Tags in XML können Leerzeichen vor dem " />" enthalten. In diesen Sprachen erhöht unnötiger Leerraum die Dateigröße und kann somit die Netzwerkübertragung verlangsamen. Auf der anderen Seite kann unnötiger Leerraum auch Code unauffällig markieren, ähnlich, aber weniger offensichtlich als Kommentare im Code. Dies kann wünschenswert sein , eine zu beweisen Verletzung der Lizenz oder Copyright , die durch begangen wurde , Kopieren und Einfügen .

In XML-Attributwerten werden Folgen von Leerzeichen als einzelnes Leerzeichen behandelt, wenn das Dokument von einem Parser gelesen wird. Leerzeichen im Inhalt von XML-Elementen werden vom Parser nicht auf diese Weise geändert, aber eine Anwendung, die Informationen vom Parser empfängt, kann sich dafür entscheiden, ähnliche Regeln auf den Elementinhalt anzuwenden. Ein XML-Dokumentautor kann das xml:space="preserve"Attribut eines Elements verwenden, um den Parser anzuweisen, die nachgeschaltete Anwendung davon abzuhalten, Leerzeichen im Inhalt dieses Elements zu ändern.

In den meisten HTML-Elementen wird eine Folge von Leerzeichen als einzelnes Trennzeichen zwischen Wörtern behandelt , das sich als einzelnes Leerzeichen manifestieren kann, wenn Text in einer Sprache wiedergegeben wird, die normalerweise solche Leerzeichen zwischen Wörtern einfügt. Konforme HTML-Renderer müssen Whitespace innerhalb weniger vorgeschriebener Elemente wie dem preTag und jedem Element, für das CSS verwendet wurde, um eine preähnliche Whitespace-Verarbeitung anzuwenden, wörtlicher behandeln . In solchen Elementen werden Leerzeichen nicht in Trennzeichen zwischen Wörtern "zusammengeklappt".

Sowohl in XML als auch in HTML wird das geschützte Leerzeichen zusammen mit anderen Nicht-"Standard"-Leerzeichen nicht als komprimierbares "Whitespace" behandelt, daher unterliegt es nicht den obigen Regeln.

Dateinamen

Diese Verwendung ähnelt Mehrwort-Dateinamen, die für Betriebssysteme und Anwendungen geschrieben wurden, die durch eingebettete Leerzeichen verwechselt werden – solche Dateinamen verwenden stattdessen einen Unterstrich (_) als Worttrenner, as_in_this_phrase.

Ein weiteres solches Symbol war U+2422 BLANK SYMBOL . Dies wurde in den frühen Jahren der Computerprogrammierung beim Schreiben auf Kodierungsformularen verwendet. Keypunch- Bediener erkannten das Symbol sofort als "explizites Leerzeichen". Es wurde in BCDIC , EBCDIC und ASCII-1963 verwendet .

Siehe auch

Verweise

Externe Links