LaTeXML- LaTeXML

Ein LaTeX zu XML/HTML/MathML Konverter
Originalautor(en) Bruce R. Miller
Erstveröffentlichung 10. Mai 2004 (vor 17 Jahren) ( 2004-05-10 )
Stabile Version
0.8.6 / 30. September 2021 (vor 13 Tagen) ( 2021-09-30 )
Repository
Geschrieben in Perl
Betriebssystem Unix-ähnlich , macOS , Windows
Typ Dokumentenkonverter
Lizenz Gemeinfrei
Webseite dlmf .nist .gov /LaTeXML /

LaTeXML ist eine kostenlose Public-Domain- Software, die LaTeX- Dokumente in XML , HTML , EPUB , JATS und TEI umwandelt .

Arbeitsablauf

Das primäre Ausgabeformat von LaTeXML ist eine XML-Darstellung des Dokumentenmodells von (La) TeX . Ein Postprozessor kann diese XML-Dokumente in andere strukturierte Formate konvertieren. Häufige Anwendungsfälle erzeugen HTML mit mathematischen Formeln als Bilder oder XHTML , HTML5 und EPUB mit Formeln als MathML . Im Vergleich zu anderen LaTeX-zu-XML-Prozessoren zielt LaTeXML darauf ab, die semantischen Strukturen des LaTeX- Markups zu erhalten . Dies macht es zu einer guten Basis für semantische Dienste wie die Math-Suche .

Die Konvertierungszeiten reichen von 30 Millisekunden für eine einzelne Formel (im LaTeXML-Daemon) bis zu Minuten für Dokumente in Buchgröße.

Geschichte

LaTeXML wurde im Rahmen der Digital Library of Mathematical Functions am NIST gestartet , wo LaTeX- Dokumente für die Veröffentlichung im Web vorbereitet werden mussten. Das System wird seit über einem Jahrzehnt aktiv weiterentwickelt und hat eine kleine, aber engagierte Gemeinschaft von Entwicklern und Benutzern angezogen, die sich auf Bruce Miller, den ursprünglichen Projektautor, konzentrieren.

Die aktuell freigegebene Version ist LaTeXML 0.8.6. Es wurde im September 2021 veröffentlicht und die Entwicklung im öffentlichen Repository bleibt aktiv .

Bemerkenswerte Verwendung

LaTeXML wurde verwendet, um 90% (60% fehlerfrei) von 530.000 Dokumenten von arXiv nach XML zu konvertieren . Als Ergebnis dieser laufenden Bemühungen zur Verbesserung der Abdeckung unterstützt LaTeXML eine große Auswahl an LaTeX-Paketen. Die ACL 2014-Konferenz nutzte LaTeXML, um eingereichte Papiere in XML umzuwandeln. Dies folgte einer bestehenden Arbeit, die versucht hat, die ACL Anthology-Papiere für die weitere Analyse in hochwertiges semantisches Markup umzuwandeln. Seit Februar 2013 wird LaTeXML verwendet, um die Webseiten auf der Peer-produzierten Mathematik-Website PlanetMath zu rendern . Seit Juli 2015 wurde es von Authorea für die erweiterte LaTeX-Unterstützung übernommen. 2018 wurde die zweite Datenfreigabe des Gaia- Projekts der Europäischen Weltraumorganisation über LaTeXML realisiert.

Implementierung

Der Kern von LaTeXML ist eine Perl- Reimplementierung des Parsing- und Digestionsalgorithmus von TeX in Verbindung mit einem anpassbaren XML-Emitter. Um die semantischen Strukturen im LaTeX- Markup zu erhalten, benötigt LaTeXML XML-Bindungen für alle LaTeX- Pakete mit High-Level-Makrodefinitionen. Die LaTeXML-Distribution bietet derzeit XML-Bindungen für über 200 häufig verwendete LaTeX-Pakete wie AMSTeX , Babel und PGF/TikZ (die nur experimentelle Unterstützung haben).

Die LaTeXML-Konvertierung besteht aus zwei Phasen:

  • der erste parst LaTeX und wandelt das in einen LaTeX- nahen XML-Dokumenttyp um, und
  • die zweite (Post-Processing) wandelt das XML in eines der standardisierten strukturierten Ausgabeformate um.

LaTeXML 0.8 fügte Daemon-Funktionalität hinzu, die mehrere Konvertierungen und eine einfache Einbettung in Webdienste ermöglichte.

Verweise

Externe Links