[ImoLUG] file robots.txt

Riccardo Govoni ☢ battlehorse@gmail.com
Mer 25 Nov 2009 15:14:41 CET


I maggiori crawler (bigG, Bing, Yahoo ... ) giocano pulito e rispettano il
robots.txt ( Google lo usa perfino su se stesso,
http://blogoscoped.com/archive/2009-10-31-n79.html ).

La maggior parte dei crawler fatti in casa, ovviamente, se ne frega.

Lo scopo del robots.txt e' permettere all'indicizzatore di avere un'immagine
chiara del tuo sito, quindi se un certo crawler lo ignora, dovrebbe giocare
a suo svantaggio invece che tuo.

Se lo scopo e' quello di proteggere una certa parte del tuo sito da accessi
esterni, ti conviene puntare ad una qualunque forma di autenticazione (anche
semplice).

Mettere le pagine in questione dietro a dei form POST (invece che normali
http GET) e' una ulteriore forma di protezione perche' i crawler non seguono
link POST (per ovvie ragioni), anche se ci sono esperimenti in materia (
http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html).

C'e' gente che filtra in base all'indirizzo IP di provenienza ma con dubbi
risultati : rischio di falsi positivi, scarsita' di informazioni su quali
siano gli IP da cui provengono i bot rispetto a normali utenti. Qualche
dettaglio extra:
http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=80553

Occhio che servire contenuti differenti ai crawler rispetto agli utenti
reali (ad esempio in base allo UserAgent) non e' pratica gradita, fa
arrabbiare la gente ed, in generale, aumenta la mortalita' dei coniglietti
rosa della Duracell (
http://www.google.com/support/webmasters/bin/answer.py?answer=66355 ).

/R.

2009/11/25 fRANz <andrea.francesconi@gmail.com>

> Ciao a tutti,
>
> mi affido ai numerosi webmaster presenti in lista per un parere sul
> simpatico file robots.txt
> Per quel poco che so, permette di descrivere il comportamento di
> indicizzazione al quale i diversi spider/crawler _dovrebbero_
> attenersi.
>
> Scenario: voglio impedire indicizzazione e ricerche su un determinato sito.
> Risoluzione: creo un file robots.txt del tipo:
>
> User-agent: *
> Disallow: /
>
> Mio dubbio:
> secondo la vostra esperienza, un file di questo tipo basta allo scopo
> oppure sapete di crawler che ignorano tale file?
> In questo specifico caso, anzichè limitarsi a filtrare le richieste in
> base allo User-agent (facilmente bypassabile), ci sono altre modalità
> o pratiche più incisive ed efficaci?
>
> Grazie per ogni spunto in proposito :-)
>
> -f
> _______________________________________________
> ImoLUG mailing list
> imolug@lists.linux.it
> http://lists.linux.it/listinfo/imolug
> Connettivita' offerta da Waymedia - http://www.waymedia.it/
>
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.linux.it/private/imolug/attachments/20091125/e64344eb/attachment.htm>


Maggiori informazioni sulla lista ImoLUG