all options
bookworm  ] [  trixie  ] [  sid  ]
[ Source: html-text  ]

Package: python3-html-text (0.6.2-1)

Links for python3-html-text

Screenshot

Debian Resources:

Download Source Package html-text:

Maintainer:

External Resources:

Similar packages:

estrazione di testo dall'HTML

In cosa html_text è differente da .xpath('//text()') di LXML o .get_text() di Beautiful Soup?

 * Il testo estratto con html_text non contiene stili in linea, JavaScript,
   commenti e altro testo che non sia normalmente visibile agli utenti.
 * html_text normalizza gli spazi, ma in maniera più intelligente di
   .xpath('normalize-space()), aggiungendo spazi intorno agli elementi in
   linea (che spesso sono usati come elementi di tipo blocco nei marcatori
   HTML) e cercando di evitare di aggiungere ulteriori spazi alla
   punteggiatura.
 * html-text può aggiungere degli a-capo (es. dopo intestazioni o
   paragrafi), in modo che il testo in output appaia più simile a come
   viene reso nei browser.

Other Packages Related to python3-html-text

  • depends
  • recommends
  • suggests
  • enhances

Download python3-html-text

Download for all available architectures
Architecture Package Size Installed Size Files
all 9.6 kB41.0 kB [list of files]