java爬虫利器Jsoup的使用

对于长期使用java做编程的程序猿应该知道，java支持的爬虫框架还是有很多的，如：ebMagic、Spider、Jsoup等。今天我们就用Jsoup来实现一个小小的爬虫程序，Jsoup作为kava的HTML解析器，可以直接对某个URL地址、HTML文本内容进行解析。

在这里插入图片描述

它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。我们可以使用Jsoup快速地掌握爬取页面数据的技巧。 Jsoup如此强大的关键在于Jsoup对常用的api做了很好的封装，并且通俗易懂，小白上手也很快，下面就主要介绍下常用的对象及API，网络请求，jsoup封装了http请求所涉及的几乎所有api，在Jsoup.connect()方法返回的对象Connection对象中，封装了http请求的常见操作。比如cookie

Connection cookie(String k, String v);

Connection cookies(Map<String, String> cookieMap);

爬虫ip请求

Connection proxy(Proxy var1);

Connection proxy(String var1, int var2);

本次分享将实现的功能为：利用Jsoup爬取某个搜索词语的百度百科的介绍部分，之前的很多爬虫文章都是分享的使用Python进行爬取，所以这次我们将用Java来做爬虫。经过简单的分析发现百度百科还是有些反爬机制的，所以这里我们也可以分享下如何在爬虫程序里面添加爬虫ip进行数据爬取的过程。

代码实现过程如下：

import java.io.IOException;
import java.net.Authenticator;
import java.net.InetSocketAddress;
import java.net.PasswordAuthentication;
import java.net.Proxy;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;


public class Demo
{
    
    
    // 爬虫ip验证信息
    final static String ProxyUser = "16JSHK";
    final static String ProxyPass = "524536";

    // 爬虫ip服务器(http://jshk.com.cn/mb/reg.asp?kefu=xjy)
    final static String ProxyHost = "jshk.com.cn";
    final static Integer ProxyPort = 31111;

    // 设置IP切换头
    final static String ProxyHeadKey = "Proxy-Tunnel";


    public static String getUrlProxyContent(String url)
    {
    
    
        Authenticator.setDefault(new Authenticator() {
    
    
            public PasswordAuthentication getPasswordAuthentication()
            {
    
    
                return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
            }
        });
        // 设置Proxy-Tunnel
        Random random = new Random();
        int tunnel = random.nextInt(10000);
        String ProxyHeadVal = String.valueOf(tunnel);

        Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));

        try
        {
    
    
            // 处理异常、其他参数
            Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();

            if(doc != null) {
    
    
                System.out.println(doc.body().html());
            }
        }
        catch (IOException e)
        {
    
    
            e.printStackTrace();
        }

        return null;
    }

    public static void main(String[] args) throws Exception
    {
    
    
        // 要访问的目标页面
        String targetUrl = "https://baike.baidu.com/";


        getUrlProxyContent(targetUrl);
    }
}

22个受欢迎的Python不同类型开源框架

以下面是我从网上整理的最受欢迎的Python开源框架。这些框架包括事件Web开发,I/O，OLAP，高性能网络通信，测试，爬虫等。

一、Python Web框架

Django: Python Web应用开发框架

Django 应该是最出名的Python框架，GAE甚至Erlang都有框架受它影响。Django是走大而全的方向，它最出名的是其全自动化的管理后台：只需要使用起ORM，做简单的对象定义，它就能自动生成数据库结构、以及全功能的管理后台。

Flask：一个用Python编写的轻量级Web应用框架

Flask是一个使用Python编写的轻量级Web应用框架。基于Werkzeug WSGI工具箱和Jinja2 模板引擎。Flask也被称为“microframework”，因为它使用简单的核心，用extension增加其他功能。Flask没有默认使用的数据库、窗体验证工具。

Bottle: 微型Python Web框架

Bottle是一个简单高效的遵循WSGI的微型python Web框架。说微型，是因为它只有一个文件，除Python标准库外，它不依赖于任何第三方模块。

webpy: 轻量级的Python Web框架

webpy的设计理念力求精简（Keep it simple and powerful），源码很简短，只提供一个框架所必须的东西，不依赖大量的第三方模块，它没有URL路由、没有模板也没有数据库的访问

Web2py：全栈式Web框架

Web2py是一个为Python语言提供的全功能Web应用框架，旨在敏捷快速的开发Web应用，具有快速、安全以及可移植的数据库驱动的应用，兼容Google App Engine。

CubicWeb：面向对象设计的语义Web应用程序框架

一个有趣的系统，强调使用抽象和可重用的代码块称为“多维数据集”，但对于某些开发人员来说可能过于抽象或特殊。

Tornado：异步非阻塞IO的Python Web框架

Tornado的全称是Torado Web Server，从名字上看就可知道它可以用作Web服务器，但同时它也是一个Python Web的开发框架。最初是在FriendFeed公司的网站上使用，FaceBook收购了之后便开源了出来。

二、Python 事件I/O框架

Diesel：基于Greenlet的事件I/O框架

Diesel提供一个整洁的API来编写网络客户端和服务器。支持TCP和UDP。

三、Python OLAP框架

Cubes：轻量级Python OLAP框架

Cubes是一个轻量级Python框架，包含OLAP、多维数据分析和浏览聚合数据（aggregated data）等工具。

四、Python 网络框架

Zerorpc：基于ZeroMQ的高性能分布式RPC框架

Zerorpc是一个基于ZeroMQ和MessagePack开发的远程过程调用协议（RPC）实现。和 Zerorpc 一起使用的 Service API 被称为 zeroservice。Zerorpc 可以通过编程或命令行方式调用。

Falcon：构建云API和网络应用后端的高性能Python框架

Falcon是一个构建云API的高性能Python框架，它鼓励使用REST架构风格，尽可能以最少的力气做最多的事情。

Twisted：底层自定义协议网络框架

Twisted是一个高性能的编程框架。在不同的操作系统平台上，Twisted利用不同的底层技术实现了高效能通信

五、Python 测试框架

selenium：Web的自动化测试工具

一个用电脑模拟人操作浏览器网页,最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。

unittest：标准库中自带的单元测试框架

unittest 单元测试框架是受到 JUnit 的启发，与其他语言中的主流单元测试框架有着相似的风格。其支持测试自动化，配置共享和关机代码测试。支持将测试样例聚合到测试集中，并将测试与报告框架独立。

Robot Framework：作为最重要的Python测试框架之一

Robot Framework主要被用在测试驱动(test-driven)类型的开发与验收中。虽然是由Python开发而来，但是它也可以在基于.Net的IronPython和基于Java的Jython上运行。同时，作为一个Python框架，Robot还能够兼容诸如Windows、MacOS、以及Linux等平台

Pytest：适用于多种软件测试的Pytest

凭借着其开源和易学的特点，该工具经常被QA(质量分析)团队、开发团队、个人团队、以及各种开源项目所使用。鉴于Pytest具有“断言重写(assert rewriting)”之类的实用功能，许多大型互联网应用，如Dropbox和Mozilla，都已经从下面将要提到的unittest(Pyunit)切换到了Pytest之上。

六、Python 爬虫框架

Scrapy：Python的爬虫框架

Scrapy是一个使用Python编写的，轻量级的，简单轻巧，并且使用起来非常的方便。

PySpider：binux做的一个爬虫架构

强大的网络爬虫系统，并自带有强大的webUI，分布式架构，支持多种数据库后端。

Portia：一个开源可视化爬虫工具

可以让使用者在不需要任何编程知识的情况下爬取网站。简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。

二、其他

Kartograph.py：创造矢量地图的轻量级Python框架

Kartograph是一个Python库，用来为ESRI生成SVG地图。Kartograph.py目前仍处于beta阶段，你可以在virtualenv环境下来测试。

Pulsar：Python的事件驱动并发框架

Pulsar是一个事件驱动的并发框架，有了pulsar，你可以写出在不同进程或线程中运行一个或多个活动的异步服务器。

Dpark：Python版的Spark

DPark是Spark的Python克隆，是一个Python实现的分布式计算框架，可以非常方便地实现大规模数据处理和迭代计算。DPark由豆瓣实现，目前豆瓣内部的绝大多数数据分析都使用DPark完成，正日趋完善。

java爬虫利器Jsoup的使用

猜你喜欢