一个简单的网页抓取工具

前两天遇到一个妹子,她说不会从拉网页,我想用node做个网页抓取工具是何尝的简单,于是装x之路开始了。

其实想法很简单,由网址得到html,由html解析css,js,image等,分别下载就行了,

一个难点就在路径的解析上,一般的的页面是域名的,例如www.baidu.com。而有的页面是http://xxxxxx.com/c/xxxxx/xxxxxxx/index.html,路径层级比较深,突然想到sea.js,一定对路径问题也很头疼,简单看了一下,确实里面的正则一个比一个复杂,没办法硬着头皮来吧。正好把正则的正向零宽断言看了一下,感觉不是以前我想的那么难。

另个问题是另一个是异步多线程问题,有的页面里面一定有很多图片,难道我用单线程下载吗?明显不合适,所以要用多线程,怎么使用多线程呢,参考我的文章node多线程服务器,这里不再赘述。而这里是多线程请求,参考cluster模块就行了。

再一个就是node的异步编程方案,async/await函数和promise对象的使用,下载首页的时候是要阻塞的,而下载css,js,image都是同步非阻塞的。

好了说这么多不如上代码:

一个简单的网页抓去工具(node版)

为什么不弄到github上呢?为自己的网站拉点流量吗。

注:该链接是安全连接,不会将你的cookie发送到我的服务器,然后登录到你的cnblog,删除你的博客,请放心使用。

猜你喜欢

转载自www.cnblogs.com/node-jili/p/10183127.html