Tabulatorgetrennte Werte - Tab-separated values

Tabulatorgetrennte Werte
Dateinamenerweiterung .tsv, .tab
Internet-Medientyp
Text/Tabulator-getrennte-Werte
Formattyp plattformübergreifende, serielle Datenströme
Behälter für Datenbankinformationen organisiert als nach Feldern getrennte Listen
Standard IANA MIME- Typ

Eine tabulatorgetrennte Wertedatei ( TSV ) ist ein einfaches Textformat zum Speichern von Daten in einer Tabellenstruktur , zB Datenbanktabellen- oder Tabellenkalkulationsdaten , und eine Möglichkeit zum Austausch von Informationen zwischen Datenbanken . Jeder Datensatz in der Tabelle ist eine Zeile der Textdatei . Jeder Feldwert eines Datensatzes wird durch ein Tabulatorzeichen vom nächsten getrennt . Das TSV-Format ist somit eine Art des allgemeineren Formats für durch Trennzeichen getrennte Werte .

TSV ist ein einfaches Dateiformat, das weithin unterstützt wird, daher wird es häufig im Datenaustausch verwendet , um Tabellendaten zwischen verschiedenen Computerprogrammen zu verschieben, die das Format unterstützen. Beispielsweise kann eine TSV-Datei verwendet werden, um Informationen von einem Datenbankprogramm in eine Tabellenkalkulation zu übertragen.

TSV ist eine Alternative zu dem gemeinsamen kommagetrennte Werte (CSV), die oft Schwierigkeiten wegen der Notwendigkeit führt zu entkommen Kommas - wörtliche Kommata sind sehr häufig in Textdaten, aber wörtliche Tabstopps sind selten im Fließtext. Der IANA-Standard für TSV erreicht Einfachheit, indem Tabs in Feldern einfach nicht zugelassen werden.

Beispiel

Zum Beispiel kann der Kopf des Iris-Blumen-Datensatzes als TSV mit dem folgenden Klartext gespeichert werden (beachten Sie, dass das HTML-Rendering Tabulatoren in Leerzeichen umwandeln kann):

Sepal length	Sepal width	Petal length	Petal width	Species
5.1	3.5	1.4	0.2	I. setosa
4.9	3.0	1.4	0.2	I. setosa
4.7	3.2	1.3	0.2	I. setosa
4.6	3.1	1.5	0.2	I. setosa
5.0	3.6	1.4	0.2	I. setosa

Der obige TSV-Klartext entspricht den folgenden Tabellendaten:

Kelchlänge Kelchbreite Blütenblattlänge Blütenblattbreite Spezies
5.1 3.5 1,4 0,2 I. setosa
4.9 3.0 1,4 0,2 I. setosa
4.7 3.2 1.3 0,2 I. setosa
4.6 3.1 1,5 0,2 I. setosa
5.0 3.6 1,4 0,2 I. setosa

Konventionen für die verlustfreie Konvertierung in TSV

Da die Werte im TSV-Format keine literalen Tabulatoren oder Zeilenumbruchzeichen enthalten können, ist eine Konvention zur verlustfreien Konvertierung von Textwerten mit diesen Zeichen erforderlich. Eine übliche Konvention besteht darin, die folgenden Escapes auszuführen:

   \n for newline,
   \t for tab,
   \r for carriage return,
   \\ for backslash.

Eine weitere gängige Konvention ist die Verwendung der CSV-Konvention aus RFC  4180 und das Einschließen dieser Sonderzeichen in doppelte Anführungszeichen. Dies kann zu Unklarheiten führen.

Eine weitere Mehrdeutigkeit besteht darin, ob Datensätze durch Zeilenumbrüche getrennt werden, wie dies für Zeilen unter UNIX typisch wäre, oder durch Wagenrücklauf, Zeilenumbrüche, wie es für Microsoft-Plattformen typisch wäre. Viele Programme wie LibreOffice erwarten Wagenrücklauf, Newline.

Siehe auch

Verweise

  1. ^ So verwenden Sie vom Internationalen Währungsfonds veröffentlichte tabulatorgetrennte (TSV) Dateien
  2. ^ a b "Definition von tabulatorgetrennten Werten (tsv)" . Internet Assigned Numbers Authority (IANA) .
  3. ^ "Linearer TSV" . Datenprotokolle - Open Knowledge Foundation .
  4. ^ "jq-Handbuch" . stedolan.github.io .

Literaturverzeichnis

Externe Links