Linux 命令篇 之 wget(1)

 

wget是一个从网络上自动下载文件的自由工具,支持通过HTTP、HTTPS、FTP三个最常见的TCP/IP协议下载,并可以使用HTTP代理。wget名称的由来是"World Wide Web"与"get"的结合。

我们尝试来下载一个网络图片吧!

很简单的一条命令,就wget加地址

linux--wget(1) - yakuit - Yakuit的博客

linux--wget(1) - yakuit - Yakuit的博客

挺漂亮的

在/etc/wgettrc文件和甲目录下的.wgettrc文件,看看里面的配置文件,搞清楚是搞什么的先

linux--wget(1) - yakuit - Yakuit的博客

这是不希望下载列表

linux--wget(1) - yakuit - Yakuit的博客

也可以是wget  -X a,b

-r的话我们可以实现多级目录递归下载   -o启动日志记载在wget-log文件了

--background看名字就知道这是后台下载啦

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

当我们遇上了robots。Txt封禁的时候我们是用wget –r –execute robots=off www.baidu.com

猜你喜欢

转载自blog.csdn.net/weixin_38452632/article/details/83067680