[Tech] htmltotxt

Christopher R. Gabriel cgabriel@softwarelibero.org
Ven 11 Maggio 2001 17:33:41 CEST


    Leonardo> Esiste uno script che da un file html stacchi via tutta
    Leonardo> la formattazione e mi renda un file txt liscio ?
    Leonardo> (opzionalmente: che mi lasci solo i tag <a> )

io uso 'sed -f $HOME/bin/dehtml < file.html > nuovo.html'

ecco dehtml:

s/<hr>/__/g
s/<[^>]*>//g
s/\&lt\;/\</g
s/\&gt\;/\>/g
s/\&quot\;/\"/g
s/\&nbsp\;/ /g
s/\&amp\;/\&/g
s/  / /g


Cosi' posso scegliere io cosa togliere o meno (come tags o altro) dal
file.

-- 
Christopher R. Gabriel <cgabriel@softwarelibero.org>
www.linux.it/~cgabriel/ - persone.softwarelibero.org/person/cgabriel

	There's an interference between the keyboard and the chair.




Maggiori informazioni sulla lista flug-tech