Python爬虫中的信息提取

一、信息的标记

1、标记后的信息可形成信息结构,增加了信息维度。

2、标记后的信息可用于通信、储存或展示。

3、标记后的结构与信息一样具有重要价值。

4、标记后的信息更利于程序的理解与运行

二、信息标记的三种形式

信息标记的三种形式为:xml、json、yaml。

XML :全名为:Extensible Markup Language。可扩展标记语言标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言

JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript 的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。

YAML:全名为:YAML Ain't Markup Language。是YAML不是一种标记语言的外语缩写  ;但为了强调这种语言以数据做为中心,而不是以置标语言为重点,而用返璞词重新命名。它是一种直观的能够被电脑识别的数据序列化格式,是一个可读性高并且容易被人类阅读,容易和脚本语言交互,用来表达资料序列的编程语言。它是类似于标准通用标记语言的子集XML数据描述语言

1、信息标记的三种形式的比较

XML:最早的标记信息通用语言,可拓展性好,但繁琐。

JSON:信息有类型,适合程序处理。比XML简洁。

YAML:信息无类型,文本信息比例高,可读性好。

2、实例如下

 

 

 

猜你喜欢

转载自blog.csdn.net/Ljt101222/article/details/81389104