爬虫记忆——【基础】基本工具准备

当今，数据为王，从大量的数据中我们可以分析出很多有价值的甚至是高价值的信息，但是，又有多少公司或者组织能自身就产生大量数据呢？这并不多，因为这样的公司或者组织是需要一定规模的体量的，另外，有些组织自身就不产生数据，例如高校的老师和同学，常常苦于无法获取有效数据而导致研究进展缓慢。所以，我们需要一种工具，来帮助我们获取想要的数据，这种工具就是“爬虫”。

爬虫，不是指昆虫生物噢，这里所说的爬虫，按我的理解是指，通过编程、配置等工序，生成的计算机程序，这类程序可以从指定url获取网页信息，并且按照预定规则，从网页上抽取有用的数据，而这一切的前提是合法合理（我们不做亏心事噢）。如果我们将这一过程做一下粗略的分解，可以看出最最基本的爬虫至少需要以下两个功能：

连接url，并从url获取网页信息。
从信息中抽取指定数据。

考虑到稳定性、通用性等，如果这两个功能完全由自己来写，那实在是太蛮烦了，好在，这些功能的轮子已经有人帮忙造好了，这里推荐两个包：

httpclient：可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。[1]
jsoup：一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。[2]

其对应的maven配置为：

<!-- https://mvnrepository.com/artifact/commons-httpclient/commons-httpclient -->
<dependency>
    <groupId>commons-httpclient</groupId>
    <artifactId>commons-httpclient</artifactId>
    <version>3.1</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

至此，一个最最最最最基本的爬虫所需要的工具就准备好了，在之后的文章里，我会对这两个工具做一些简要的说明，写一些基本的示例。

[1].百度百科：https://baike.baidu.com/item/httpclient

[2].百度百科：https://baike.baidu.com/item/jsoup

爬虫记忆——【基础】基本工具准备

猜你喜欢