背景
前一段时间在学习hadoop,但一直想不到如何利用hadoop做项目,而且一直希望可以学习python,因此利用此次机会,学习爬虫,希望可以爬写感兴趣的内容,使用hadoop进行处理,现将近阶段学习爬虫所参考文档记录如下.
Java爬虫
Java如何构造HTTP请求
crawler4j
Python爬虫
支撑知识
scrapy
- scrapy爬虫框架教程(一)– Scrapy入门
- Scrapy爬虫框架教程(二)– 爬取豆瓣电影TOP250
- Scrapy爬虫框架教程(三)– 调试(Debugging)Spiders
- Scrapy爬虫框架教程(四)– 抓取AJAX异步加载网页
- Scrapy入门教程— Scrapy 0.24.6 文档
- Scrapy最新版本英文教程
总结
- 爬虫框架也只是一个框架而已,具体从何处爬取何种数据均需要在代码中指定,难点在于分析网页.
- python写起来还是比Java要简单许多,只是因为python是动态语言,无法像Java一样找到被调用的方法的源头.