python学习笔记——爬虫中提取网页中的信息

1 数据类型

网页中的数据类型可分为结构化数据半结构化数据非结构化数据三种

1.1 结构化数据

 常见的是MySQL,表现为二维形式的数据

1.2 半结构化数据

 是结构化数据的一种形式,并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。常见的半结构数据有HTML,XML和JSON等,实际上是以树或者图的结构来存储的。

<person>

  <name>A</name> 

  <age>13</age>

  <class>aid1710</class>

  <gender>female</gender>

</person>

 结点中属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的

这样的数据格式,可以自由地表达很多有用的信息,包括自描述信息(元数据)。所以,半结构化数据的扩展性很好,特别适合于在互联网中大规模传播。

1.3 非结构化数据

  就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式;除了结构化和半结构数据之外的数据都是非结构化数据

2 关于XML,HTML,DOM和JSON文件

2.1 XML

XML(Extentsible Markup Language)(可扩展标记语言),是用来定义其它语言的一种元语言,其前身是SGML(标准通用标记语言)。它没有标签集(tagset),也没有语法规则(grammatical rule),但是它有句法规则(syntax rule)。任何XML文档对任何类型的应用以及正确的解析都必须是良构的(well-formed),即每一个打开的标签都必须有匹配的结束标签,不得含有次序颠倒的标签,并且在语句构成上应符合技术规范的要求。XML文档可以是有效的(valid),但并非一定要求有效。所谓有效文档是指其符合其文档类型定义(DTD)的文档。如果一个文档符合一个模式(schema)的规定,那么这个文档是模式有效的(schema valid)。

2.2 HTML

 HTML(Hyper Text Mark-up Language)即超文本标记语言,是WWW的描述语言。

2.3 DOM

文档对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口。在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM

2.4 JSON

JSON(JavaScript Object Notation, JS对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的JS规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率

JSON是 JS对象的字符串表示法,它使用文本表示一个 JS 对象的信息,本质是一个字符串

3 提取网页中的信息

猜你喜欢

转载自www.cnblogs.com/gengyi/p/9048895.html