[ImoLUG] info wget

fRANz andrea.francesconi@gmail.com
Mar 17 Gen 2012 01:06:51 CET


2012/1/16 Stefano Ballardini <stefano.ballardini@gmail.com>:

> Ciao a tutti,
> vorrei scaricare un intero sito, www.debianizzati.org, per poter
> leggermi le guide in tranquillità in locale, avevo pensato a wget
> perchè il download va fatto sul thin client che non ha server grafico:
> $ nohup wget -c --limit-rate=20k -m http://guide.debianizzati.org

Ciao!
In primis parliamo di un sito dinamico (http://guide.debianizzati.org
si appoggia su Mediawiki, esattamente come http://www.imolug.org/wiki/
) quindi eseguire un mirror del sito (parametro -m che hai specificato
sopra) potrebbe non essere così semplice/scontato.
Il manuale, per la funzione -m cita testualmente:

-m
--mirror
    Turn on options suitable for mirroring. This option turns on
recursion and time-stamping, sets infinite recursion depth and keeps
FTP directory listings. It is currently equivalent to -r -N -l inf
--no-remove-listing.

occhio a quel 'sets infinite recursion depth': in certi casi (ricordo
un esperimento di svariati anni fa su un sito Plone, anch'esso
dinamico) potresti ritrovarti un download eterno con wget che scarica
_apparentemente_ le stesse pagine da un lato e, dall'altro (molto
molto peggio), segue ogni link definito all'interno del sito
scaricando veramente un'infinità di dati.

Un cambio di approccio potrebbe essere: partiamo dall'elenco di pagine
contenute nel wiki:

http://guide.debianizzati.org/index.php/Speciale:Prefissi
http://guide.debianizzati.org/index.php?title=Speciale:Prefissi&from=Installazione_Qemu_con_supporto_accelerazione_Kqemu
http://guide.debianizzati.org/index.php?title=Speciale:Prefissi&from=TestElencoPagine

e poi istruiamo wget per scaricare le suddette e i relativi link ad
una determinata profondità, quanto basta per raggiungere il risultato
voluto (mirror offline del sito)...
Prova a vedere se nella pagina man di wget trovi le opzioni che fanno
al caso tuo! ;-)

> il nohup lo uso in quanto mi collego al serverino tramite ssh, e poi
> dopo il lancio del download wget deve andare avanti da solo.

nohup comando &
l'& in fondo serve per esplicitare il comando in background

> Il limit rate a 20k perchè l'adsl a casa fa schifo.

Perfetto!

> Per chiudere la sessione ssh verso il thin client (mantenendo attivo
> il download) uso il classico ctrl + c ?

Con il comando sopra hai mandato l'esecuzione del comando wget in
background, quindi puoi uscire tranquillo dalla sessione ssh con
'exit' e wget continuerà le sue attività ;-)

-f


Maggiori informazioni sulla lista ImoLUG