Alle Optionen
buster  ] [  bullseye  ] [  bookworm  ] [  trixie  ] [  sid  ]
[ Quellcode: tagsoup  ]

Paket: libtagsoup-java (1.2.1+-1.1)

Links für libtagsoup-java

Screenshot

Debian-Ressourcen:

Quellcode-Paket tagsoup herunterladen:

Betreuer:

Externe Ressourcen:

Ähnliche Pakete:

SAX-konformer Parser für reales HTML

TagSoup, ein in Java geschriebener SAX-konformer Parser, analysiert nicht wohlgeformtes oder gültiges XML, sondern nimmt HTML, wie es in freier Wildbahn vorkommt: schlecht, böse und brutal, wenn auch oft alles andere als kurz. TagSoup wurde für Leute entwickelt, die diese Dinge mit einem Anschein eines rationalen Anwendungsdesigns verarbeiten müssen.

Durch die Bereitstellung einer SAX-Schnittstelle können XML-Standardwerkzeuge selbst auf das schlechteste HTML angewendet werden. TagSoup enthält auch einen Befehlszeilenprozessor, der HTML-Dateien liest und entweder sauberes HTML oder wohlgeformtes XML generieren kann, das XHTML sehr nahe kommt.

TagSoup ist als Parser konzipiert, nicht als ganze Anwendung; er ist nicht dazu gedacht, schlechtes HTML dauerhaft zu bereinigen, wie es HTML Tidy tut, sondern nur, um es im Handumdrehen zu parsen. Daher wird Präsentations-HTML nicht in CSS oder ähnliches konvertiert. Er garantiert gut strukturierte Ergebnisse: Tags werden richtig verschachtelt, Standardattribute werden entsprechend angezeigt und so weiter.

Markierungen: Implementiert in: Java, Unterstützt Formate: HTML, Hypertext Markup Language (Hypertext-Auszeichnungssprache), works-with-format::xml, works-with::text

Andere Pakete mit Bezug zu libtagsoup-java

  • hängt ab von
  • empfiehlt
  • schlägt vor
  • erweitert

libtagsoup-java herunterladen

Download für alle verfügbaren Architekturen
Architektur Paketgröße Größe (installiert) Dateien
all 99,5 kB128,0 kB [Liste der Dateien]