Mantieni spazio quando si rimuove HTML con Beautiful Soup

from BeautifulSoup import BeautifulSoup html = "

Para 1. Words

Merge. Para 2

Quote 1
Quote 2

" print html soup = BeautifulSoup(html) print u''.join(soup.findAll(text=True))

L’out out di questo codice è “Para 1 WordsMerge. Para 2Quote 1Quote 2”.

Non voglio che l’ultima parola del primo paragrafo si fonda con la prima parola del paragrafo due. per esempio. “Para 1 Words Merge. Para 2 Quote 1 Quote 2”. Questo può essere ottenuto usando la libreria BeautifulSoup?

Basta unire i pezzi con uno spazio:

 print u' '.join(soup.findAll(text=True)) 

E se stai usando get_text () nella versione 4.x:

 from bs4 import BeautifulSoup ... ... soup.get_text(" ")