[ Paquet source : html-text ]
Paquet : python3-html-text (0.7.0-1)
Liens pour python3-html-text
Ressources Debian :
- Rapports de bogues
- Developer Information
- Journal des modifications Debian
- Fichier de licence
- Suivis des correctifs pour Debian
Télécharger le paquet source html-text :
Responsable :
Ressources externes :
- Page d'accueil [github.com]
Paquets similaires :
extraction de texte à partir d’HTML
En quoi html_text est-il différent de .xpath('//text()') de LXML ou .get_text() de Beautiful Soup ?
– le texte extrait avec html_text ne contient pas de styles inline, de
javascript, de commentaires ou d’autres textes qui sont normalement visibles
pour les utilisateurs ;
– html_text normalise les espaces blancs, mais d’une façon plus agréable que
.xpath('normalize-space()), ajoutant des espaces autour des éléments inline
(qui sont utilisés comme éléments block dans le marquage HTML) et essayant
d’éviter l’ajout d’espaces supplémentaires pour la ponctuation ;;
– html-text peut ajouter de nouvelles lignes (par exemple, après les en-têtes
ou les paragraphes), de façon à ce que le texte produit ressemble plus à son
rendu dans les navigateurs.
Autres paquets associés à python3-html-text
|
|
|
|
-
- dep: python3
- langage orienté objet interactif de haut niveau – version par défaut de Python 3
-
- dep: python3-lxml
- liaison Python pour les bibliothèques libxml2 et libxslt
-
- dep: python3-lxml-html-clean
- blocklist-based HTML cleaner
Télécharger python3-html-text
| Architecture | Taille du paquet | Espace occupé une fois installé | Fichiers |
|---|---|---|---|
| all | 9,9 ko | 40,0 ko | [liste des fichiers] |
