Usar o comando wget

February 29, 2012

wgetUsar o comando wget para fazer o download de uma página web ou de todo o conteúdo do site.

Abrir o terminal e digitar os comandos consoante o pretendido.


Exermplos

- Para baixar uma página web:
wget http://1rst.jigsy.com/entries/linux/alternativas-ao-flash-player

(A página será guardada na sua /home/Pasta Pessoal/)

- Para baixar o site de forma recursiva (isto irá baixar as imagens e todo outro tipo de dados).
wget -r http://1rst.jigsy.com/

 

Via: G+/JP

(editando)

Aqui o 'post' original publicado no Google Buzz (limitada) em 18/8/2011

 

O wget é uma ferramenta cheia de opções, saiba como usar o comando wget para baixar sites inteiros desde, HTTP, HTTPS, FTP.


Exemplo da linha de comandos a ser executada desde a consola:

wget -k -r -p -D dominio.com --restrict-file-names=sistema http://www.website.pt


Explicação detalhada de todos os argumentos que foram usados com wget.


-K (--convert-links): isto significa que, no final do processo de download, todos os links para as páginas são convertidos em links relativos, de modo a permitir a navegação off-line;

-R (--recursive): Este argumento permite o download - no jargão - recursive na natureza, de forma definitiva para baixar o site completo;

-P (--page-requisites): este argumento também pode baixar o que será preciso para visualizar a página corretamente (folhas de estilo, imagens, javascripts, etc, etc);

D-(--domains): este é um tema importante, para não carregar um monte de páginas web inúteis: faz o download apenas dos links dentro do domínio (ou domínios, separados um do outro por uma vírgula) que se especificar, geralmente usando o mesmo site;

--restrict-file-name: Outra questão importante, pode-se alterar os nomes dos arquivos de modo a não ir de encontro com o sistema operacional que se esteja a usar. Os parâmetros possíveis são unix (caso se esteja a visualizar o site num sistema Unix) ou windows (se for no Windows).

O último parâmetro, é a url do site que se pretende baixar.

Então, se eu quisesse fazer o download do site inteiro http://1rst.jigsy.com, eu iria escrever no terminal:

wget -k -r -p -D jigsy.com --restrict-file-names=unix http://1rst.jigsy.com



No final do processo, teremos o site numa pasta com o nome exacto desse sítio (www.dominio.com). 
Na eventualidade de exitir problemas com o download (por exemplo, perda de ligação) pode-se usar o comando acima para continuar o download, mas também adicionar o parâmetro -nc (--no-clobber) , que permite não substituir os arquivos já baixados.

Go Back