Java解析XML文件(Jsoup,Xpath)

解析xml的方式

DOM（服务器端）：将标记语言文档一次性加载进内存，在内存中形成一颗dom树
- 优点：操作方便，可以对文档进行CRUD的所有操作
- 缺点：占内存
SAX（移动端）：逐行读取，基于事件驱动的。
- 优点：不占内存。
- 缺点：只能读取，不能增删改

xml常见的解析器

JAXP：sun公司提供的解析器，支持dom和sax两种思想
DOM4J：一款非常优秀的解析器
Jsoup：jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
PULL：Android操作系统内置的解析器，sax方式的。

使用Jsoup解析xml

首先导入Jsoup的jar包

要解析的students.xml文件

<?xml version="1.0" encoding="utf-8"?>
<students>
    <student id="stu001">
        <name>范闲</name>
        <age>20</age>
        <sex>male</sex>
    </student>

    <student id="stu002">
        <name>司理理</name>
        <age>19</age>
        <sex>female</sex>
    </student>

    <student id="stu003">
        <name>王启年</name>
        <age>29</age>
        <sex>male</sex>
    </student>
</students>

Jsoup解析类实现输出xml文件中name

public class JsoupTest1 {
    public static void main(String[] args) throws Exception {
		//获取student.xml的path
        String path = JsoupTest1.class.getClassLoader().getResource("xml/student.xml").getPath();
        //解析xml文档，加载文档进内存，获取dom树--->Document对象
        Document document = Jsoup.parse(new File(path), "utf-8");
        //根据标签名获取元素对象 Element
        Elements elements = document.getElementsByTag("name");
        //循环打印
        for(Element element:elements){
            System.out.println(element);
        }
    }
}

结果

Jsoup

工具类，可以解析html或xml文档，返回Document

parse：解析html或xml文档，返回Document
parse(File in, String charsetName)：解析xml或html文件的。
parse(String html)：解析xml或html字符串

parse(URL url, int timeoutMillis)：通过网络路径获取指定的html或xml的文档对象
解析百度首页html:

	@Test
    public void JsoupWeb() throws Exception {
        URL url=new URL("https://www.baidu.com");
        Document document = Jsoup.parse(url, 10000);
        System.out.println(document);
    }

结果：

Document

文档对象。代表内存中的dom树
获取Element对象

getElementById(String id)：根据id属性值获取唯一的element对象
getElementsByTag(String tagName)：根据标签名称获取元素对象集合
getElementsByAttribute(String key)：根据属性名称获取元素对象集合
getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合

public static void main(String[] args) throws Exception {
        String path = JsoupTest1.class.getClassLoader().getResource("xml/student.xml").getPath();
        Document document = Jsoup.parse(new File(path), "utf-8");
        System.out.println("根据id属性值获取唯一的element象");
        Element stu001 = document.getElementById("stu001");
        System.out.println(stu001);
        System.out.println("----------------------------");
        System.out.println("根据标签名称获取元素对象集合");
        Elements student = document.getElementsByTag("name");
        System.out.println(student);
        System.out.println("----------------------------");
        System.out.println("根据属性名称获取元素对象集合");
        Elements elements = document.getElementsByAttribute("id");
        System.out.println(elements);
        System.out.println("----------------------------");
        System.out.println("根据对应的属性名和属性值获取元素对象集合");
        Elements elements1 = document.getElementsByAttributeValue("id", "stu002");
        System.out.println(elements1);
    }

结果：

根据id属性值获取唯一的element象
<student id="stu001"> 
 <name>
  范闲
 </name> 
 <age>
  20
 </age> 
 <sex>
  male
 </sex> 
</student>
----------------------------
根据标签名称获取元素对象集合
<name>
 范闲
</name>
<name>
 司理理
</name>
<name>
 王启年
</name>
----------------------------
根据属性名称获取元素对象集合
<student id="stu001"> 
 <name>
  范闲
 </name> 
 <age>
  20
 </age> 
 <sex>
  male
 </sex> 
</student>
<student id="stu002"> 
 <name>
  司理理
 </name> 
 <age>
  19
 </age> 
 <sex>
  female
 </sex> 
</student>
<student id="stu003"> 
 <name>
  王启年
 </name> 
 <age>
  29
 </age> 
 <sex>
  male
 </sex> 
</student>
----------------------------
根据对应的属性名和属性值获取元素对象集合
<student id="stu002"> 
 <name>
  司理理
 </name> 
 <age>
  19
 </age> 
 <sex>
  female
 </sex> 
</student>

Elements

元素Element对象的集合。可以当做 ArrayList来使用

Element

元素对象

获取子元素对象
- getElementById(String id)：根据id属性值获取唯一的element对象
- getElementsByTag(String tagName)：根据标签名称获取元素对象集合
- getElementsByAttribute(String key)：根据属性名称获取元素对象集合
- getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合
获取属性值
- String attr(String key)：根据属性名称获取属性值
获取文本内容
- String text():获取子标签内的纯文本内容
- String html():获取标签体的所有内容(包括字标签的字符串内容)

public static void main(String[] args) throws Exception {
        String path = JsoupTest1.class.getClassLoader().getResource("xml/student.xml").getPath();
        Document document = Jsoup.parse(new File(path), "utf-8");
        //获取第一个student对象
        Element student = document.getElementsByTag("student").first();
        //获取其name子标签对象
        Elements name = student.getElementsByTag("name");
        System.out.println(name);
        System.out.println("==============================");
        //获取id属性
        String id = student.attr("id");
        System.out.println(id);
        System.out.println("==============================");
        //获取name纯文本内容
        String text = name.text();
        System.out.println(text);
        System.out.println("==============================");
        //获取name全部内容
        String html = name.html();
        System.out.println(html);
    }

结果：
在这里插入图片描述

Node

结点对象，是Document和Element的父类

selector 选择器

使用的方法：Elements select(String cssQuery)
语法：参考Selector类中定义的语法

public static void main(String[] args) throws Exception {
        String path = JsoupTest1.class.getClassLoader().getResource("xml/student.xml").getPath();
        Document document = Jsoup.parse(new File(path), "utf-8");
        //获取id为stu001下的student的age标签
        Elements age = document.select("#stu001").select("age");
        System.out.println(age);
        System.out.println("------------------------");
        //或
        Elements age1 = document.select("student[id='stu001'] > age" );
        System.out.println(age1);
    }

结果：
在这里插入图片描述

XPath

XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言

使用Jsoup的Xpath需要额外导入jar包。

查询w3cshool参考手册，使用xpath的语法完成查询

public static void main(String[] args) throws Exception {
        String path = JsoupTest1.class.getClassLoader().getResource("xml/student.xml").getPath();
        Document document = Jsoup.parse(new File(path), "utf-8");
        //根据document对象，创建JXDocument对象
        JXDocument jxDocument = new JXDocument(document);
        //4.1查询所有student标签
        List<JXNode> jxNodes = jxDocument.selN("//student");
        for (JXNode jxNode : jxNodes) {
            System.out.println(jxNode);
        }

        System.out.println("--------------------");

        //4.2查询所有student标签下的age标签
        List<JXNode> jxNodes2 = jxDocument.selN("//student/age");
        for (JXNode jxNode : jxNodes2) {
            System.out.println(jxNode);
        }

        System.out.println("--------------------");

        //4.3查询students标签下带有id属性的student标签
        List<JXNode> jxNodes3 = jxDocument.selN("//students/student[@id]");
        for (JXNode jxNode : jxNodes3) {
            System.out.println(jxNode);
        }
        System.out.println("--------------------");
        //4.4查询students标签下带有id属性的student标签 并且id属性值为stu001
        List<JXNode> jxNodes4 = jxDocument.selN("//students/student[@id='stu001']");
        for (JXNode jxNode : jxNodes4) {
            System.out.println(jxNode);
        }

结果：

<student id="stu001"> 
 <name> 
  <xing>
   范
  </xing> 
  <ming>
   闲
  </ming> 
 </name> 
 <age>
  20
 </age> 
 <sex>
  male
 </sex> 
</student>
<student id="stu002"> 
 <name>
  司理理
 </name> 
 <age>
  19
 </age> 
 <sex>
  female
 </sex> 
</student>
<student id="stu003"> 
 <name>
  王启年
 </name> 
 <age>
  29
 </age> 
 <sex>
  male
 </sex> 
</student>
--------------------
<age>
 20
</age>
<age>
 19
</age>
<age>
 29
</age>
--------------------
<student id="stu001"> 
 <name> 
  <xing>
   范
  </xing> 
  <ming>
   闲
  </ming> 
 </name> 
 <age>
  20
 </age> 
 <sex>
  male
 </sex> 
</student>
<student id="stu002"> 
 <name>
  司理理
 </name> 
 <age>
  19
 </age> 
 <sex>
  female
 </sex> 
</student>
<student id="stu003"> 
 <name>
  王启年
 </name> 
 <age>
  29
 </age> 
 <sex>
  male
 </sex> 
</student>
--------------------
<student id="stu001"> 
 <name> 
  <xing>
   范
  </xing> 
  <ming>
   闲
  </ming> 
 </name> 
 <age>
  20
 </age> 
 <sex>
  male
 </sex> 
</student>

Process finished with exit code 0

要学好Java

发布了66 篇原创文章 · 获赞 302 · 访问量 5万+

私信关注