Quellcode-Paket catdoc herunterladen:
Dieses Programm extrahiert den Text aus MS-Word-Dokumenten und versucht dabei, so viele druckbare Sonderzeichen wie möglich zu erhalten. Catdoc unterstützt alle Formate bis Word 97, sowie MS-Write- und RTF-Dokumente.
Das Programm gibt sich keine Mühe, ausgefallene Word-Formatierungen zu erhalten, da Word-Benutzer normalerweise nicht auf eine Dokumentenstruktur achten, was gerade für LaTeX-Benutzer wichtig ist.
Das Paket enthält ebenfalls xls2csv, welches Daten aus Excel-Tabellen extrahiert und im CSV-Format (comma-seperated-values - durch Kommas getrennte Werte) ausgibt und catppt, welches Daten aus Powerpoint-Präsentationen extrahiert.
Dieses Paket schlägt tk vor, da es auch wordview, eine optionale Tk-basierte grafische Benutzeroberfläche für catdoc, enthält. Wenn X läuft, wird die MIME-Konfiguration aus diesem Paket wordview nutzen, andernfalls direkt catdoc.
Homepage: http://freshmeat.net/projects/catdoc
|
|
|
| Architektur | Paketgröße | Größe (installiert) | Dateien |
|---|---|---|---|
| amd64 | 630,0 kB | 2664 kB | [Liste der Dateien] |
| armel | 620,6 kB | 2648 kB | [Liste der Dateien] |
| hppa | 595,6 kB | 2664 kB | [Liste der Dateien] |
| i386 | 580,6 kB | 2648 kB | [Liste der Dateien] |
| ia64 | 621,9 kB | 2764 kB | [Liste der Dateien] |
| mips | 600,1 kB | 2688 kB | [Liste der Dateien] |
| mipsel | 600,0 kB | 2688 kB | [Liste der Dateien] |
| powerpc | 587,5 kB | 2648 kB | [Liste der Dateien] |
| s390 | 591,3 kB | 2656 kB | [Liste der Dateien] |
| sparc | 580,5 kB | 2648 kB | [Liste der Dateien] |