解析和遍历文档 - 代码天地

解析和遍历文档

企业开发 2018-05-14 14:04:59 阅读次数: 2

To parse a HTML document(解析一个html文档):

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

(See parsing a document from a string for more info.)

The parser will make every attempt to create a clean parse from the HTML you provide, regardless of whether the HTML is well-formed or not. It handles(无论html格式是否完整或正确，解析器都会试图建立一个干净的对象或完整的对象):

unclosed tags (如未关闭的标签 )(e.g. <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
implicit tags (如隐含的标签)(e.g. a naked <td>Table data</td> is wrapped into a <table><tr><td>?)
reliably creating the document structure (可靠地创建文档结构)(html containing a head and body, and only appropriate elements within the head (html包含head 和 body,那些只适合在头部的标签))

The object model of a document(一个文档对象模型)
Documents consist of Elements and TextNodes (文档模型中包含很多元素和文字节点)(and a couple of other misc nodes（一些其他的节点）: see the nodes package tree(请看节点包)).
The inheritance chain is(继承连): Document extends Element extends Node(文档继承元素继承节点). TextNode extends Node(文字节点继承节点).
An Element contains a list of children Nodes(一个节点包含许多子节点), and has one parent Element(和有一个父节点). They also have provide a filtered list of child Elements only.
See also
Extracting data: DOM navigation
Extracting data: Selector syntax

猜你喜欢

转载自liuzejian4.iteye.com/blog/1629827

解析和遍历文档

jsoup解析和遍历一个html文档详解

【使用JSOUP实现网络爬虫】入门：解析和遍历一个HTML文档

python XML文档解析--ElementTree遍历xml文档以及根据配置修改属性值

HTML文档解析和DOM树的构建

使用Pull解析和生成XML文档

XML文档和SAXParser解析器

DOM和JDOM解析XML文档

文档解析和DOMContentLoaded触发时机

遍历DOM文档树

顺序遍历docx文档

遍历文档树

HTML文档结点的遍历

Map遍历KeySet()和EntrySet的性能差异与源码解析

Java容器HashMap遍历方法和源代码解析

组合和排序-深度优先遍历DFS解析

集合框架解析和遍历性能比较

集合框架解析和遍历性能比较

使用SAX和dom4j解析XML文档

使用 jsoup 对 HTML 文档进行解析和操作

Dom4j解析和生成XML文档

sanic官方文档解析之Response和Cookie

sanic官方文档解析之logging和request Data

sanic官方文档解析之Deploying(部署)和Extension(扩展)

JAVA解析docx文档提取文字和图片

Langchain 大型复杂结构文档解析-识别目录和页码

一步一步教你通过JsonCpp在VS2013上解析Json文件,遍历Json文档

导入表的解析及遍历

day03.2 bs4安装与使用、 bs4解析库之遍历文档树、bs4之搜索文档树

7种文档遍历法

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)