Quellcode-Paket catdoc herunterladen:
Dieses Programm extrahiert den Text aus MS-Word-Dokumenten und versucht dabei, so viele druckbare Sonderzeichen wie möglich zu erhalten. Catdoc unterstützt alle Formate bis Word 97, sowie MS-Write- und RTF-Dokumente.
Das Programm gibt sich keine Mühe, ausgefallene Word-Formatierungen zu erhalten, da Word-Benutzer normalerweise nicht auf eine Dokumentenstruktur achten, was gerade für LaTeX-Benutzer wichtig ist.
Das Paket enthält ebenfalls xls2csv, welches Daten aus Excel-Tabellen extrahiert und im CSV-Format (comma-seperated-values - durch Kommas getrennte Werte) ausgibt und catppt, welches Daten aus Powerpoint-Präsentationen extrahiert.
Dieses Paket schlägt tk vor, da es auch wordview, eine optionale Tk-basierte grafische Benutzeroberfläche für catdoc, enthält. Wenn X läuft, wird die MIME-Konfiguration aus diesem Paket wordview nutzen, andernfalls direkt catdoc.
Homepage: http://freshmeat.net/projects/catdoc
|
|
|
| Architektur | Paketgröße | Größe (installiert) | Dateien |
|---|---|---|---|
| m68k | 577,8 kB | 2636 kB | [Liste der Dateien] |