Paquet : libboilerpipe-java (1.2.0-2)
Liens pour libboilerpipe-java
Ressources Debian :
- Rapports de bogues
- Developer Information
- Journal des modifications Debian
- Fichier de licence
- Suivis des correctifs pour Debian
Télécharger le paquet source boilerpipe :
Responsables :
Ressources externes :
- Page d'accueil [github.com]
Paquets similaires :
retrait des textes standards et extraction du plein texte des pages HTML
La bibliothèque boilerpipe fournit des algorithmes pour détecter et retirer le «⋅bazar⋅» en trop (textes standards, modèles) autour du contenu textuel principal d'une page web.
La bibliothèque fournit déjà des stratégies particulières pour des tâches communes (par exemple, l'extraction de nouveaux articles) et peut aussi être facilement étendue pour le paramétrage de problèmes particuliers.
L'extraction du contenu est très rapide (des millisecondes), il nécessite seulement l'entrée du document (aucune information globale ou du niveau du site n'est nécessaire) et est en général plutôt précis.
Autres paquets associés à libboilerpipe-java
|
|
|
|
-
- dep: libnekohtml-java
- NekoHTML - HTML parser for Java
-
- dep: libxerces2-java
- validateur et analyseur XML pour Java avec la gestion de DOM niveau 3
Télécharger libboilerpipe-java
Architecture | Taille du paquet | Espace occupé une fois installé | Fichiers |
---|---|---|---|
all | 98,0 ko | 132,0 ko | [liste des fichiers] |