这是第一次写博客文章,内心有点小激动呢!接下来给大家分享一下我在工作中爬取最多的网站,www.ungm.org ,联合国采购网站,听起来是不是很高大上呢?话不多说,进入正题...
1.首先明确一下要抓取的内容,因为我想要的数据是每天都会更新,所以今天就抓取昨天的,以此类推。上图
2.接下来就是分析了
打开f12进行调试,发现如下:我们想要的数据都在Search中,
3,然后我们点击headers,会找到如下:是一个post请求,真正请求的链接是https://www.ungm.org/Public/Notice/Search
4,大家知道,post请求是要传送参数的,我们再往下拉,找到传递的参数,如下图:解释下参数意义:PublishedForm和PublishedTo这两个参数是我们刚刚在最上面输入的日期,PageSize是每一次下拉出现的信息条数,PageIndex是下拉的次数,从0开始,其他的参数都无关紧要,就不解释啦
5,好了,下面咱们开始撸代码,附上全部代码:
扫描二维码关注公众号,回复:
2280321 查看本文章
6,以上就是全部代码了,下面附上抓取的结果图: