Python爬虫实习笔记 | Week4 项目数据爬取与反思

2018/11/05
1.所思所想:
今天我把Python爬虫实战这本书Chapter6看完,很有感触的一点是,书本中对爬虫实现的模块化设计很给我灵感,让我对项目中比较无语的函数拼接有了解决之道,内省还是比较兴奋。此外,在吃饭问题上需要认真思考下,是否应注意合理的膳食,是否应对要吃的进行好好考究。下午主要是做项目的东西,信用评价这一块很少用到技术性的手段,只写了个格式化脚本,另外了解并运用Navicat的文本导入功能,整体没有太大问题。另,发现自己对零碎时间利用不足,很是惭愧,明天起开始带一些文学、经理或管理等书过来,中午可花半小时认真看看,而不是刷手机。

2.工作:
[1].吉林省
没找到

[2].黑龙江省
2.1 哈尔滨    内容为图片    http://www.hrbhbj.gov.cn/art/2018/8/10/art_263_20640.html
2.2 齐齐哈尔    无内容
2.3 鸡西市    无内容
2.4 鹤岗市    信用信息为空
2.5 双鸭山市    无搜索框,人眼搜索未找到
2.6 大庆市    爬取成功,保存在JilinProvince数据库里    http://hbj.daqing.gov.cn/Journalism_Read.aspx?id=7281
2.7 宜春市    未找到网站,或网站瘫痪
2.8 佳木斯市    内容为图片,需下载    http://www.jmshb.gov.cn/shownews.php?id_5294
2.9 七台河市    未找到
2.10 牡丹江市    未找到
2.11 黑河市    爬取成功 保存在JilinProvince数据库里  http://www.hhshjbhj.gov.cn/about.asp?DonforKenbest=82&DonforListId=2913
2.12 绥化市    未找到
2.13 大兴安岭地区 未找到

2018/11/06
1.所思所想:今天上午很早就到,然后就开始看python简单分布式爬虫这一章,怎么说呢,虽然听学长说有Scrapy等已经封装好的框架,但自己仍然要把这一块敲一下代码,深入理解这里面的处理流程,以及如何提升稳健性等性能的技巧。中午吃饭吃到馊饭,在想馊饭馊菜如何才能检测,我觉得这个值得好好研究下,如果有比较便宜的产品,那一定会畅销吧。下午大抵没有做什么,参加了一个讨论,感觉讨论确实能产生成果。考试在即,加油嘞~

2.工作:
16河南    152郑州    
行政处罚:post请求  需要注意的是headers里要添加Cookie信息,否则网页信息取不出。
环评:
信用评价:

2018/11/07
1.所思所想:今天心情很好,因为之前在后端脚本中遇到的URL绝对路径生成问题得到了解决,我觉得,这是脚本通用性的很重要的一步。此外,和学长的交流过程中,我发现自己还有很多地方需要琢磨,不仅包括Python语法,且爬虫需要把Scrapy都搞精通的地步。自然语言处理、数据挖掘等知识需要后期跟进。昨晚看了别人的面经,觉得在到大厂工作的距离里,还有很多地方需要学习,不仅包括网络编程部分,还有数据库,还有C++语法和STL库的运用,要看的书还有很多,这些书能帮助我对后端知识有深入理解。

2.工作:
行政处罚:152郑州  153开封   
以下message搞定:
154洛阳(未) http://www.lyhbj.gov.cn/tongji/list_5864_1.html
155平顶山市(未) http://www.pdshb.gov.cn/channels/11268.html
156安阳市(未) http://www.ayhbj.gov.cn/front/news/list_FfmMFf_1.chtml

2018/11/08
1.所思所想:
软件设计师考试加油!倒数第二天!

2.工作:
154洛阳    完成
155平顶山市 完成
156安阳市 完成
157鹤壁市 完成 http://www.hbhb.gov.cn/zhengwugongkai/zhengcefagui/index.html
159焦作市 完成 http://www.jzshb.gov.cn/html/list-543-1.html
160濮阳市 未完成
delete FROM `tasks` where city_id = 156;

2018/11/09
1.所思所想:
软件设计师考试加油!倒数最后一天!
2.工作:
160濮阳市 完成

猜你喜欢

转载自blog.csdn.net/qq_37597345/article/details/84059135