Para descargar un sitio con wget basta con abrir nuestra terminal y ejecutar:
wget -r -k http://www.sitioweb.com
Recuerda que la descarga se hace en el directorio en el que te encuentres.
Si llegara a existir alguna restriccion por parte del servidor , podemos engañarlo de cierta manera con las siguientes lineas:
Para el primer caso le estableceremos un UserAgent a wget, esto podremos hacerlo con la opción –user-agent, aquí les muestro cómo:
wget --user-agent="Mozilla/5.0 (X11; Linux amd64; rv:32.0b4) Gecko/20140804164216 ArchLinux KDE Firefox/32.0b4" -r http://www.sitio.com -k
Ahora, para burlar al robots.txt basta con hacer un exclude a ese archivo, o sea, que wget descargue el sitio y le importe nada lo que diga robots.txt :
wget --user-agent="Mozilla/5.0 (X11; Linux amd64; rv:32.0b4) Gecko/20140804164216 ArchLinux KDE Firefox/32.0b4" -r http://www.sitio.com -k -e robots=off
Ahora… hay otras opciones o parámetros que podemos usar para engañar aún más al sitio, por ejemplo, indicarle que entramos al sitio desde Google, aquí les dejo ya la línea final con todo:
wget --header="Accept: text/html" --user-agent="Mozilla/5.0 (X11; Linux amd64; rv:32.0b4) Gecko/20140804164216 ArchLinux KDE Firefox/32.0b4" --referer=http://www.google.com -r http://www.sitio.com -e robots=off -k
Comentarios
Publicar un comentario