[Tech] htmltotxt
Christopher R. Gabriel
cgabriel@softwarelibero.org
Ven 11 Maggio 2001 17:33:41 CEST
Leonardo> Esiste uno script che da un file html stacchi via tutta
Leonardo> la formattazione e mi renda un file txt liscio ?
Leonardo> (opzionalmente: che mi lasci solo i tag <a> )
io uso 'sed -f $HOME/bin/dehtml < file.html > nuovo.html'
ecco dehtml:
s/<hr>/__/g
s/<[^>]*>//g
s/\<\;/\</g
s/\>\;/\>/g
s/\"\;/\"/g
s/\ \;/ /g
s/\&\;/\&/g
s/ / /g
Cosi' posso scegliere io cosa togliere o meno (come tags o altro) dal
file.
--
Christopher R. Gabriel <cgabriel@softwarelibero.org>
www.linux.it/~cgabriel/ - persone.softwarelibero.org/person/cgabriel
There's an interference between the keyboard and the chair.
Maggiori informazioni sulla lista
flug-tech