[Tech] regexp per tag html
Franco Bagnoli
bagnoli@dma.unifi.it
Mer 2 Giu 2004 11:02:27 CEST
On Tue, 1 Jun 2004, paolo palmerini wrote:
> non fate i furbini facendo domande per trovare altre soluzioni.... sono
> sicuro che avete capito benissimo ;-))
> voglio un'espressione regolare che identifichi le parti di testo non
> incluse in un tag html, ovvero testo che non si trovi compreso fra i
> caratteri "<" e ">".
>
> pero' mi spiego meglio ugualmente... ho una pagina php che legge un
> file html e lo restituisce sullo stdout. diciamo che devo operare sul
> file pippo.html, cambiando ogni occorrenza di $old in $new nelle parti
> di testo fuori dai tag: tipo questo frammento:
non so quanto sono potenti le regexp per php, ma ammesso che tu possa
leggere il tutto come una sola stringa, dovrebbe bastare (in perl)
s/((^|>)[^>]*?)$old/$1$new/gs
(nota l'eleganza di (^|>)[^>] ....)
oppure usi un html/xml parser vero e proprio.
--
Franco Bagnoli (franchino) <bagnoli@dma.unifi.it>
virtual location: Dipartimento di Energetica "S. Stecco"
ultra-virtual affiliation: Centro Dinamiche Complesse (CSDC-Firenze)
real location: Dip. Matematica Applicata "G. Sansone", Universita' Firenze,
Via S. Marta, 3 I-50139 Firenze, Italy. Tel. +39 0554796422, fax: +39 055471787
Maggiori informazioni sulla lista
flug-tech