toutes les options
buster  ] [  bullseye  ] [  bookworm  ] [  trixie  ] [  sid  ]
[ Paquet source : boilerpipe  ]

Paquet : libboilerpipe-java (1.2.0-2)

Liens pour libboilerpipe-java

Screenshot

Ressources Debian :

Télécharger le paquet source boilerpipe :

Responsables :

Ressources externes :

Paquets similaires :

retrait des textes standards et extraction du plein texte des pages HTML

La bibliothèque boilerpipe fournit des algorithmes pour détecter et retirer le «⋅bazar⋅» en trop (textes standards, modèles) autour du contenu textuel principal d'une page web.

La bibliothèque fournit déjà des stratégies particulières pour des tâches communes (par exemple, l'extraction de nouveaux articles) et peut aussi être facilement étendue pour le paramétrage de problèmes particuliers.

L'extraction du contenu est très rapide (des millisecondes), il nécessite seulement l'entrée du document (aucune information globale ou du niveau du site n'est nécessaire) et est en général plutôt précis.

Autres paquets associés à libboilerpipe-java

  • dépendances
  • recommandations
  • suggestions
  • enhances

Télécharger libboilerpipe-java

Télécharger pour toutes les architectures proposées
Architecture Taille du paquet Espace occupé une fois installé Fichiers
all 98,0 ko132,0 ko [liste des fichiers]