如何不会写爬虫也能采集数据

这里我们以最简单、最对小白友善的八爪鱼采集器为例说明

1、下载官网

http://www.bazhuayu.com/

2、采集对象

比如我要采集安居客上上海杨浦区二手房的房源信息,首先打开我要采集的网页

https://shanghai.anjuke.com/sale/yangpu/

我们要采集的界面如下:

就是要把每一条数据的房价、户型、面积等信息爬取下来。

3、开始采集

第一步,点击“自定义采集”下的“立即使用”,把我们的网址复制到“采集网址”里,并点击保存网址

鼠标往下滚,滚到我们想看到的界面

点击第一条的标题后,呈绿色,同时八爪鱼与自动识别相似字段并用浅红色表示,这时,点击右边选项框的“选中全部”

这时,标题都变成绿色了代表全部被选中,当然我们要采集不只是标题,还有点开它以后里面各条的内容,因此我们再点击“循环点击每个链接”

之后就跳到了第一条的内容里

往下滚动鼠标,发现我们要的信息都在这一区域

依次点击我们想要的数据

点击“采集以下数据”后,打开上面的“数据预览”

发现我们采集了很多列数据,这时建议更改列名以防后续把数据导下来时忘记对应的信息是什么。

这里只是设置了一页的规则,接下来我们要设置完翻页

把“流程”打开,点击“打开网页”就可以回到一开始的界面

这时关掉“流程”,来到我们要翻页的地方。

点击“下一页”,会弹出操作提示的选项框,我们点击“循环点击下一页”(这里安居客的网页翻页的是“下一页”,如果是“加载更多”这类其他语句,八爪鱼就识别不出来,选项框也就不会出现“循环点击下一页”的提示,这时我们就要点击“循环点击该链接”等字样的选项)

打开流程,发现原来的循环下面多了一个循环,这个新的循环就是我们刚才设置的翻页循环

我们的逻辑规则是:

先翻页,再点击每一条,最后把每一条中的数据提取出来

那么翻页这个循环就要放在最外面,把上面的循环包含起来,我们用鼠标选中上面那个循环

把它拖动到翻页循环里面

最后整个流程就做完了,接下来就是保存,并点击“开始采集”。

猜你喜欢

转载自blog.csdn.net/weixin_42747054/article/details/81151133