Python爬虫实习笔记 | Week10 Daliy工作流水

2018/12/17
1.所思所想
今天感冒加重,整天没心情。最伤心的是,自己的技术流还很不稳固,需要更加努力!今天主要就是在看Python Scrapy爬虫框架,感觉还是挺棒的,自己需要慢慢琢磨,学好学深。从明天开始,自己需要开始学习《MySQL技术内幕》,努力使自己成为大牛~

2.工作
yield
今天运行cnblogSpider时,papers.json的内容一直为空,心情很是郁闷。

1.251眉山市 main_tasks get 内容为pdf
2.252宜宾市 main_tasks get 内容为图片
3.253广安市 main_tasks get 内容为doc
4.254达州市 main_tasks get 内容为图片
5.255雅安市 main_tasks get 内容为图片
6.256巴中市 main_tasks get 内容为图片
7.257资阳市 get
8.258阿坝藏族羌族自治州 get 
9.259甘孜藏族自治州 内容为图片
10.260凉山彝族自治州 http://www.lshj.gov.cn/lshb/zdjkqy/index.shtml 内容只有一条,而且是图片

2018/12/18
1.所思所想
所谓任重道远不过如此,昨晚看了知乎回答关于计算机大学四年的安排,不禁感到羞愧和压力山大。自己在专业造诣上和985高校相比相差不是一点点,自己仍然有许多需要弥补的地方,不论是算法,计算机组成,操作系统,计网,网络编程,精通一门语言等等都有很大的差距。
下面是答主给的建议:
算法方面,可以在leetcode上刷400-500道题目,把剑指offer看完;
计算机组成方面,把《深入理解计算机系统》看完吧;
操作系统呢,就自己买本书,自己构造个原型吧,网上的《30天构造操作系统》就不错;
计网就把《计算机网络 自顶向下》看完吧;
网络编程,对于后端很重要,不如把《Unix网络编程》看完吧;
精通一门语言,C++就很不错,而且可以和Python做比较好的搭档,不如把Effective三部曲看完吧。
2.工作
自己在最近一直在焦急,这种心态不是很好,无论什么事,都一定要for humans。不要给自己太多压力,去努力成为最好的自己。

2018/12/19
1.所思所想
今天时间过得很快,上午做Scrapy的学习,中午和Momenta的两位上司好好聊了许多,感觉自己需要做的地方有很多。下午又去辅导员办公室去拿优秀毕业生的材料,不禁感慨大学四年飞逝而过。下午把行政处罚脚本的get_table好好重构了下,心情舒畅了很多。
2.工作
今天主要就是把get_table这块好好重构了下,效果不错~

2018/12/20
1.所思所想
今天主要的事情就是学习Scrapy框架的Scrapy command tools以及下午做行政处罚任务。随着脚本的不断完善,自己心里还是挺开心的~
2.工作
262 一直出现超时问题,心累得慌~
269 网页很糟心,完全不想跑、。。。  http://www.qiannan.gov.cn/zwgk/xxgklm/xzqlgk/xzcf/index.shtml
注意字符串中是否有%!!!

2018/12/21
1.所思所想
今天上午一直在看Scrapy的Spdier部分,感觉自己对这个模块有了更深的认识,比如name IS NECCESIRY~, start_urls, start_requests, allowed_domain, parse, rules等等。中午继续在看《沉思录》,感觉自己看的非常慢,好吧,是自己没有兴致还是中午实在太累呢,下午就是在做行政处罚的内容了,一天过得挺充实~
2.工作
天啊噜,270+都记录在了GuizhouProvince里。。

猜你喜欢

转载自blog.csdn.net/qq_37597345/article/details/85256714