爬虫学习

背景

前一段时间在学习hadoop,但一直想不到如何利用hadoop做项目,而且一直希望可以学习python,因此利用此次机会,学习爬虫,希望可以爬写感兴趣的内容,使用hadoop进行处理,现将近阶段学习爬虫所参考文档记录如下.

Java爬虫

Java如何构造HTTP请求

  1. HttpUrlConnection使用详解
  2. HttpClient使用详解

crawler4j

  1. Java开源爬虫框架crawler4j
  2. crawler4j 爬爬知多少
  3. crawler4j github

Python爬虫

支撑知识

  1. anaconda 入门
  2. Python教程

scrapy

  1. scrapy爬虫框架教程(一)– Scrapy入门
  2. Scrapy爬虫框架教程(二)– 爬取豆瓣电影TOP250
  3. Scrapy爬虫框架教程(三)– 调试(Debugging)Spiders
  4. Scrapy爬虫框架教程(四)– 抓取AJAX异步加载网页
  5. Scrapy入门教程— Scrapy 0.24.6 文档
  6. Scrapy最新版本英文教程

总结

  1. 爬虫框架也只是一个框架而已,具体从何处爬取何种数据均需要在代码中指定,难点在于分析网页.
  2. python写起来还是比Java要简单许多,只是因为python是动态语言,无法像Java一样找到被调用的方法的源头.

参考

猜你喜欢

转载自blog.csdn.net/jpf254/article/details/79972215