Estrazione nome sito da URL

Massimo Masson blug@lists.linux.it
Tue, 17 Dec 2002 16:02:40 +0100


Mauro Barattin wrote:
> Dovrei estrarre da un URL il solo nome del sito. Ad esempio dalle seguenti
> due linee vorrei estrarre solo il "www.html.it" (tutto quello che c'=E8 t=
ra
> http:// e la fine della stringa oppure il primo "/" dell'URL).
>=20
> http://www.html.it
> http://www.html.it/banner/wooow/468x60.gif=20
>=20
> Avete qualcosa di gi=E0 pronto?

Nulla di gi=E0 pronto, ma in Python potresti molto semplicemente fare quest=
o:

 >>> stringa =3D "http://www.html.it/banner/wooow/468x60.gif"
 >>> import urlparse
 >>> print urlparse.urlparse(stringa)[1]
www.html.it
 >>> print urlparse.urlparse(stringa)
('http', 'www.html.it', '/banner/wooow/468x60.gif', '', '', '')
 >>>

in pratica urlparse(di=5Funa=5Fstringa=5Fformato=5FURL) ti da una tupla con=
 6=20
diversi componenti, il cui indice (partendo da 0) =E8 un elemento.