简述多个python 不同类型的解析器

解析器（parser）是指一个程序，通常是编译器的部分，接收输入的顺序源程序指令、交互式联机命令、标记或者一些其它定义的接口。

Python解析器的全流程:利用编辑器编写好源代码,保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法,那么该文件就以相应的编码方式保存在磁盘中。

python 网页解析器

1、常见的python网页

常见的python网页解析工具有：re正则匹配、python自带的html.parser模块、第三方库BeautifulSoup(重点学习)以及lxm库。

2、常见网页解析器分类

以上四种网页解析器，是两种不同类型的解析器：

（1）模糊匹配

re正则表达式即为字符串式的模糊匹配模式；

（2）结构化解析

扫描二维码关注公众号，回复： 1798949 查看本文章

BeatufiulSoup、html.parser与lxml为“结构化解析”模式，他们都以DOM树结构为标准，进行标签结构信息的提取。　

（3）结构化解析

我们在了解什么是结构化解析之前，需要先了解下什么是DOM树这个概念。

DOM树解释：即文档对象模型（Document Object Model），其树形标签结构，而所谓结构化解析，就是网页解析器它会将下载的整个HTML文档当成一个Doucment对象，然后在利用其上下结构的标签形式，对这个对象进行上下级的标签进行遍历和信息提取操作。

3、BeautifulSoup第三方库

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python第三方库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

轻量级Python解析器：Bpython

Bpython是轻量级的Python解析器，同时包含了常见的IDE功能，功能包括语法高亮，预计参数列表、自动缩进和自动补全。

bpython并不是一个完整的IDE，它的主要目的是为了快速把灵感用实用又轻量的方式实现出来。bpython可以作为常规Python解析器的替代品，在不需要创建临时文件的情况下，它可以用来快速测试问题解决方案，或者测试方法模块等。

Python的PDF解析器

PDFMiner是一个可以从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它注重的完全是获取和分析文本数据。PDFMiner允许你获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器，可以把PDF文件转换成HTML等格式。它还有一个扩展的PDF解析器，可以用于除文本分析以外的其他用途。

简述多个python 不同类型的解析器

猜你喜欢