照葫芦画瓢之python爬虫系列----开篇

    近排因为参加的比赛需要处理一些数据,按道理来说,官方应该提供一些完备数据来给参赛者的。但是我观察了一下官方给出的数据,第一点是在数量上就不够(官方提供的数量不到一百条),第二点是在数据的关联上也是有缺少的,第三点是官方因为数据敏感的原因,也是支持我们自己去爬去数据。综上,我决定不采用官方给出的数据,靠自己来完成数据的收集。简单的来说就是靠自己去爬虫。

    之前的爬虫都是使用java的Jsoup这个jar包来采集数据的,是因为之前爬去的数据是偏向简单并且大多数是静态的,这样我们爬取的难度其实是大大降低的。也导致我一度天真认为掌握了jsoup的一个爬虫就够用了。直到前些天的数据爬取遇到各种问题,也是花了较多的时间去解决。但是效果也不见得有多明显。于是采取曲线救国的方案,放弃java爬虫,采用python爬虫来爬取数据。

    感谢python公众号提供的原始素材(文末会给链接),让我有机会可以照葫芦画瓢,虽说是照葫芦画瓢,但是其中也是会经历很多的坑。于是就想着用博客来记录我是如何根据素材学习,如果根据情况来解决这些坑,给学习过或将要学习的同学一些有用的参考,同时也作为自己的一种记录,达到监督自我,鞭策自我的一个效果。

    公众号的名字是:Python开发者,微信号:PythonCoder

如果你对文章还有兴趣,请看下一章:https://blog.csdn.net/blingzeng/article/details/80450803

猜你喜欢

转载自blog.csdn.net/blingzeng/article/details/80450564