python项目(爬虫、数据分析)导入到eclipse上,生成网页,上传到云

这次的项目虽然是滑水过来的,但是还是有很多地方值得去记录。
项目需求:对拉勾网(一个招聘网)的城市、职位等信息进行爬取,通过pyecharts等库实现数据的可视化
(拉勾网更新了,下面的url已经用不了了)
成品网址:http://47.112.3.49:8080/jobAnalysis/index.jsp
1、对拉勾网信息的爬取:
拉勾网是设置了反爬的,所以要设置伪装,创建了一个myresource.py,写入大量UserAgents,为后面爬取换浏览器做准备:
在这里插入图片描述
在这里插入图片描述
分析网页,找到数据url:
在这里插入图片描述

点了几次下一页url都没变,然后分析这个页面是post,需要传入参数:
在这里插入图片描述

就可以得出拉勾网的爬取base_url:
https://www.lagou.com/jobs/positionAjax.json?city=武汉&needAddtionalResult=false&first=false&pn=4&kd=java
(很可惜,项目做完后,拉勾网升级了,这个api爬不到了…,但重点是项目思路)
这里city(quote(‘武汉‘)得到的),pn,kd都是要根据需求发生改变的,所以要在方法中一参数的方式传入,还是在lagou.py代码里:
在这里插入图片描述

保存到mongdb什么的,都很容易,重点是参数的传入,当我的项目发布到云上时,别人想要查询深圳的java工作,而我的mongdb目前只有几千条武汉的java数据,这时我要对用户响应数据正在爬取请稍后访问,后台需要进行对深圳的java数据进行爬取,需要传入的参数有城市(city)和职位(position),所以在main方法里根据系统的参数顺序进行参数的传入:
在这里插入图片描述
dos界面上执行python lagou.py 深圳 java shenzhen。前提是python已经在环境变量里了,我的python是用anaconda安装的,安装的时候就配好了,还有lagou.py也要在Users/Administrator路径下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这个mongo的数据需要在eclipse上面用java代码传入到网页中。
lagou.py的代码就不全展示了,知道的原理就很容易写,接下来是数据的可视化,有点花里胡哨的
在这里插入图片描述
爬取代码和数据可视化代码完成后,需要把这两个py放在eclipse上面。
首先创建一个web项目,然后对mongo进行连接,测试,再创建jsp,在网页将数据显示出来。
连接mongo部分:
在这里插入图片描述
一些从mongo获取数据的方法:
在这里插入图片描述
在这里插入图片描述
创建一个分页类:
在这里插入图片描述
创建一个职位信息分页类,调用方法会返回一个分页类pd,包含了页数和页数相关文档类,方便于查询
在这里插入图片描述
记得测试,页面:
在这里插入图片描述
页面开始就这样子:
在这里插入图片描述
search():

在这里插入图片描述

选择北京,java的话,会有数据展示,分页点击,数据可视化点击。

猜你喜欢

转载自blog.csdn.net/miaokezhang/article/details/85732683
今日推荐