爬虫记忆——【基础】基本工具准备

        当今,数据为王,从大量的数据中我们可以分析出很多有价值的甚至是高价值的信息,但是,又有多少公司或者组织能自身就产生大量数据呢?这并不多,因为这样的公司或者组织是需要一定规模的体量的,另外,有些组织自身就不产生数据,例如高校的老师和同学,常常苦于无法获取有效数据而导致研究进展缓慢。 所以,我们需要一种工具,来帮助我们获取想要的数据,这种工具就是“爬虫”。      

         爬虫,不是指昆虫生物噢,这里所说的爬虫,按我的理解是指,通过编程、配置等工序,生成的计算机程序,这类程序可以从指定url获取网页信息,并且按照预定规则,从网页上抽取有用的数据,而这一切的前提是合法合理(我们不做亏心事噢)。如果我们将这一过程做一下粗略的分解,可以看出最最基本的爬虫至少需要以下两个功能:

  1. 连接url,并从url获取网页信息。
  2. 从信息中抽取指定数据。

考虑到稳定性、通用性等,如果这两个功能完全由自己来写,那实在是太蛮烦了,好在,这些功能的轮子已经有人帮忙造好了,这里推荐两个包:

  1. httpclient:可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。[1]
  2. jsoup:一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。[2]

其对应的maven配置为:

<!-- https://mvnrepository.com/artifact/commons-httpclient/commons-httpclient -->
<dependency>
    <groupId>commons-httpclient</groupId>
    <artifactId>commons-httpclient</artifactId>
    <version>3.1</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

至此,一个最最最最最基本的爬虫所需要的工具就准备好了,在之后的文章里,我会对这两个工具做一些简要的说明,写一些基本的示例。


[1].百度百科:https://baike.baidu.com/item/httpclient

[2].百度百科:https://baike.baidu.com/item/jsoup

猜你喜欢

转载自blog.csdn.net/weixin_38902900/article/details/80592548