wget抓取网站用法 - 风吹过的沙 - 编程吧 - Powered by X-Space - Powered by SupeSite

wget抓取网站用法

上一篇 / 下一篇  2007-08-28 11:47:57

Wget可以下载http和ftp网站文件,小命令但功能强,它的参数很多,但常用的不多。

一. 下载整个网站:

wget --mirror [--convert-links] http://www.gnu.org/
或短写参数:
wget -m [-k] http://www.gnu.org

--mirror或-m:镜像整个网站,它与“-r -l inf -N”这三个参数一起用效果相同

--recursive或-r:以递归方式抓取
--level=depth或-l depth:递归的深度,缺省最大值为5,0或inf表示无限多
--timestamping或-N:时间戳,不知道有什么用

--convert-links或-k:在全部下载完成之后,修改已下载页面中的链接,如果链接所指向的文件也下在本地了,就指向这个文件,否则,就指向http上原来的文件

二. 其它有用的参数:

--tries=number 或 -t number:指定连接失败时重试次数,0或inf表示无限重试,缺省值为20。但如果遇到“连接被拒绝”或“文件没找到(404)”之类的错误,则不重试

--output-document=file或-O file:指定输出文件名。比如:wget http://xxx.com/index.html -O abc.htm 将以abc.htm保存文件

--no-clobber或-nc:通常在遇到下下来的文件重名,wget将为后下的文件加上‘.1’,‘.2’等加以区分。如果用了这个参数,则一旦后下的文件将与先下的同名,将不再下载后下的文件而保留先下的不变

--no-directories或-nd:保存文件时,即使原来不在一起的文件,也不创建文件夹,所有文件全放在当前目录下

--page-requisites或-p:下载html文件时,把与它有关的图片,声音,脚本等相关文件一同下下来

* 所有参数都可以根据需要灵活搭配,不是固定的

三. 例子:

最简单的用法:
wget http://download.xxx.com/soft/software.tar.gz

指定输出文件名:
wget http://www.xxx.com -O myname.htm

下载html版的‘linux设备驱动’:
wget --mirror http://www.deansys.com/doc/ldd3/index.html
这样,从这个页面开始的所有页面全被抓下来,也就是这本书,嘿嘿~~。

* 参考资料:wget manpage.

TAG: wget 抓取

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

关于作者