信息组织与提取

一、信息标记的三种方法

信息的标记:

标记后的信息可形成信息组织结构,增加信息维度

标记后的信息可以用于通信、存储或展示

标记的结构与信息一样具有重要的价值

标记后的信息更利于程序理解和应用

信息标记的三种形式:XML JSON YAML

XML:标签

JSON :有类型的键值对key:value

"key ":"value "

"key":["value" ,"value" ]

"key":{“subkey":"subkey"}

YAML :无类型键值对key:value

缩进表示所属关系

二、三种信息标记的比较

XML:Internet上的信息交互与传递

JSON:移动应用云端和节点的信息通信,无注释

YAML:各类系统的配置文件,有注释易读

三、信息提取的一般方法

方法一:完整解析信息的标记形式,在提取关键信息

方法二:无视标记形式,直接搜索关键信息(过程简洁速度快,缺点:准确性)

融合方法:结合形式解析与搜索方法,提取关键信息

from bs4 import BeautifulSoup

soup = BeautifulSoup(demo,"html.parser")

for link in soup.find_all('a'):

print(link.get('href'))

四、基于bs4库的HTML查找方法

<>.find_all(name,attrs,recursive,string,**kwargs)

返回一个列表类型,存储查找的结果

name:对标签名称的检索字符串(可以用正则表达式)(re.compile(' '))

attrs:对标签属性值的检索字符串,可标注属性检索

recursive:是否对子孙全部索引,默认True

string:<>...</>中字符串区域的检索字符串

find_all拓展方法

猜你喜欢

转载自blog.csdn.net/Canon_M/article/details/82885275
今日推荐