Python爬虫入门——信息组织与提取方法(1)

1. 概念:什么是信息标记

  简单来说,信息标记就是给一个信息做标记(呃,虽然有点傻,但好像就是这样)。例如:“北京市中关村”,给它做标记的话,它是一个地名。而“北京理工大学”,它是一所大学的名字。如果对一组信息做上标记呢?
信息的标记:

  • 标记后的信息可形成信息组织结构,增加了信息的维度。
  • 标记后的信息可用于通信、存储或展示。
  • 标记的结构与信息一样具有重要价值。
  • 标记后的信息更利于程序理解和运用,也更有利于人的理解与运用。

2. 信息标记的三种形式

  HTML(超文本标记语言)是WWW(World Wide Web)的信息组织方式。它将声音、图像、视频,等超文本信息嵌入到文本中。HTML通过预定的<>…</>标签形式组织不同类型的信息。
在这里插入图片描述

简单来说,现在国际公认的信息标记一般意义上的种类有三种形式:XML、JSON、YAML

  • XML(eXtensible Markup Langue)
    可以看出和HTML很类似~
    在这里插入图片描述
    当标签中没有元素时,用缩写形式,一对尖括号即可</>。若标签中有元素,要用<>…</>
    在这里插入图片描述
    也可以嵌入注释,以尖括号、叹号开头,以尖括号结尾
    在这里插入图片描述
  • JSON(JavaScript Object Notation)
    有类型的键值对,key:value ,都要增加双引号来表达它是字符串的形式。如果值是一个数字,直接写数字就可以了。
    在这里插入图片描述
    当一个键对应多个值的时候,采用[ ]和,来组织。
    在这里插入图片描述
    嵌套使用时,用{ }来体现。
    在这里插入图片描述
    简单说,JSON使用有类型的键值对将信息组织起来,
    在这里插入图片描述
  • YAML
    无类型键值对,key:value。无论键还是值都没有双引号的形式,
    在这里插入图片描述
    通过缩进的形式来表达所属关系,这点和Python很像。
    在这里插入图片描述
    表达并列关系,加上“-”号:
    在这里插入图片描述
    用“|”表示整块数据,“#”表示注释:
    在这里插入图片描述
    常用的使用格式:
    在这里插入图片描述

3. 三种信息标记形式的比较

  • XML:用<>标签来标记信息的表达形式(最早的通用信息标记语言,可扩展性好,但繁琐)。
  • JSON:用有类型的键值对来标记信息的表达形式(信息有类型,适合程序处理(js),较XML简洁)。
  • YAML:用无类型的键值对来标记信息的表达形式(信息无类型,文本信息比例较高,可读性好)。

XML实例:可以看出,有效信息比例不高,大部分被标签占用。
在这里插入图片描述
JSON实例:都需要用双引号来表达类型。
在这里插入图片描述
YAML实例:
在这里插入图片描述
三种信息标记形式的比较

  • XML:Internet上的信息交互与传递。包括HTML也是属于XML这一类别的。
  • JSON:移动应用端和节点的信息通信,无注释。一般来讲,JSON格式用在程序的接口处理的地方。JSON数据在经过传输之后,能够作为程序代码一部分,并能被程序直接运行,这样,JSON中对信息类型的定义才能发挥最大作用。
  • YAML:各类系统的配置文件,有注释易读。对文本利用率比较高。

4. 总结

  文章简单介绍了信息标记的三种形式,XML、JSON、YAML。这三种信息标记形式各有特点,各自适用不同的范围。
  讲完信息标记之后,接着会说说信息提取的一般方式,一点一点深入理解Python爬虫的深层原理。不仅要会爬虫,更要懂爬虫。
  才疏学浅,文章如有不当之处,还请多多指教~~ (●′ω`●)

发布了20 篇原创文章 · 获赞 51 · 访问量 7514

猜你喜欢

转载自blog.csdn.net/weixin_43275558/article/details/104406737