一个简单的网页抓取工具 - 代码天地

一个简单的网页抓取工具

其他 2018-12-27 09:41:22 阅读次数: 0

前两天遇到一个妹子，她说不会从拉网页，我想用node做个网页抓取工具是何尝的简单，于是装x之路开始了。

其实想法很简单，由网址得到html，由html解析css，js，image等，分别下载就行了，

一个难点就在路径的解析上，一般的的页面是域名的，例如www.baidu.com。而有的页面是http://xxxxxx.com/c/xxxxx/xxxxxxx/index.html，路径层级比较深，突然想到sea.js，一定对路径问题也很头疼，简单看了一下，确实里面的正则一个比一个复杂，没办法硬着头皮来吧。正好把正则的正向零宽断言看了一下，感觉不是以前我想的那么难。

另个问题是另一个是异步多线程问题，有的页面里面一定有很多图片，难道我用单线程下载吗？明显不合适，所以要用多线程，怎么使用多线程呢，参考我的文章node多线程服务器，这里不再赘述。而这里是多线程请求，参考cluster模块就行了。

再一个就是node的异步编程方案，async/await函数和promise对象的使用，下载首页的时候是要阻塞的，而下载css，js，image都是同步非阻塞的。

好了说这么多不如上代码：

一个简单的网页抓去工具（node版）

为什么不弄到github上呢？为自己的网站拉点流量吗。

注：该链接是安全连接，不会将你的cookie发送到我的服务器，然后登录到你的cnblog，删除你的博客，请放心使用。

猜你喜欢

转载自www.cnblogs.com/node-jili/p/10183127.html

一个简单的网页抓取工具

java爬虫入门——从一个网页抓取源码

一个简单完整的网页

前端-给大家一个超级好用简单方便的图片压缩工具(网页在线)~

WebAI.js：一个简单的网页前端 AI 模型部署工具

一个简单的Jsoup抓取页面信息的例子

网页的组成以及一个简单网页的编写

【一天一个Python小案例】网页表格抓取

一个简单的在线Review工具

一个简单的Java画布工具

一个简单的缓存工具类

jsonpath 一个简单实用的工具

ttyd一个好用的网页版的终端工具

怎样简单编写一个html网页

使用 Requests 实现一个简单网页爬虫

CSS案例2（一个简单的新闻网页）

#UI+前端#（七）一个简单网页

简单的制作一个钓鱼网页！

配置tomcat并完成一个简单网页

第一个简单的JSP网页

如何做一个简单的网页版地图

如何用html制作一个简单的网页

一个简单的线程工具线程工具

Python3 爬虫（一）-- 简单网页抓取

Python爬虫学习笔记一：简单网页图片抓取

一个简单的python爬虫，抓取单个页面的图片

分享一个简单的python+mysql网络数据抓取

使用java实现一个简单的抓取安居客租房信息的爬虫

用php实现一个简单的爬虫，抓取电影网站的视频下载地址

抓取了一千亿个网页后我才明白，爬虫一点都不简单

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)