信息标记的三种方式、比较及其提取方式

  1、信息的标记

    标记后的信息可形成信息组织结构,增加了信息维度

    标记后的信息可用于通信、存储或展示

    标记后的结构与信息一样具有重要价值

    标记后的信息更利于程序理解和运用

  2、HTML的信息标记

    HTML是www的信息组织方式。

    HTML是通过预定义的<>....</>标签形式组织不同类型的信息

  3、信息标记的三种方式

    1)、XML

    

    如果标签中没有内容,那么我们可以用一对尖括号表示:

    

    也可嵌入注释内容:

    

    2)、JSON

      有类型的键值对key:value

      注意:

        无论是键还是值,如果是字符串的形式,我们都需要使用双引号来表示,如果是数值,直接写就行。

        如果值中有多个值,我们需用[,]来表示。

        键值对嵌套使用的时候,我们需要用{,}来表示,如:

         

    3)、YAML

       无类型键值对key:value,如:

       

       同时使用缩进的方式来表示所属关系:

       

       用-表达并列关系:

       

      用|表达整块数据 #表示注释

      

  4、三种信息标记的实例

    1)、XML实例

      

    2)、JSON实例

      

    3)、YAML实例

      

  5、三种信息标记形式的比较

    XML 最早的通用信息标记语言,可扩展性好,但繁琐

    JSON 信息有类型,适合程序处理,比XML简洁

    YAML 信息无类型,文本信息比例最高,可读性好。

      而Internet上的信息交互与传递是采用XML格式(HTML也是属于这个范畴的)

      JSON则是用在移动应用云端和节点的信息通信,无注释,

  ·    YAML则是应用在各类系统的配置文件,有注释易读

  6、信息提取的一般方法

    方法一:完整解析信息的标记形式,再提取关键信息

    即使用标记解析器去解析三种信息标记格式,然后将所需要的信息提取出来。如:bs4库中的标签树遍历

      优点:信息解析准确

      缺点:提取过程繁琐,速度慢

    方法二:无视标记形式,直接搜索关键信息。

    搜索: 

      对信息的文本查找函数即可

      优点:提取过程简洁,速度较快

      缺点:提取结果准确性与信息内容相关

    方法三:融合方法

      结合形式解析与搜索方法,提取关键信息

        需要标记解析器及文本查找函数。

      实例:

        提取HTML中所有URL链接

      思路:

        搜索到所有<a>标签

        解析<a>标签格式,提取href后的链接内容

import requests
from bs4 import BeautifulSoup
#BeautifulSoup是一个类
r = requests.get('http://python123.io/ws/demo.html')

# print(r.text)
demo = r.text
#解析demo的解释器
soup = BeautifulSoup(demo,'html.parser')

for link in soup.find_all('a'):
    print(link.get('href'))

        

猜你喜欢

转载自www.cnblogs.com/fb1704011013/p/11111465.html