python爬虫学习笔记4：信息提取

其他 2018-06-04 15:28:31 阅读次数: 0

信息组织与提取方法

信息标记的三种形式

xml

由HTML扩展而来的通用信息标记形式

实例

<person>
    <firstName>Tian</firstName>
    <lastName>Song</lastName>
    <address>
        <streeAddr>中关村南大街5号</streetAddr>
        <city>北京市</city>
        <zipcode>100081</zipcode>
    </address>
    <prof>Computer System</prof><prof>Security</prof>
<person>

扩展性好，但繁琐

json

有类型的键值对

"key":"value"
"key":["value1","value2"]
"key":{"subkey":"subvalue"}

实例

{
    "firstName":"Tian",
    "lastNmae":"Song",
    "address":{
        "streetAddr":"中关村南大街5号",
        "city":"北京市",
        "zipcode":"100081"
            },
    "prof":["Computer System","Security"]
}

适合程序处理（js），较xml简洁

YAML

无类型键值对 key：value

由缩进表达所属关系，由|表达整块数据，#表示注释，-表示并列的值信息

key : value
key : #Comment
-value1
-value2
key :
    subkey : subvalue

text：|      #学校介绍
北京理工大学创立于……

实例

firstName : Tian
lastName : Song
address :
    atreeAddr :中关村南大街5号
    city:北京市
    zipcode:100081
prof :
-Computer System
-Security

可读性好

信息提取的一般方法

1.完整解析信息的标记形式，再提取关键信息
2.无视标记形式，直接搜索关键信息
3.融合1，2

基于bs4库的html内容查找方法

find_all()

<>.find_all(name,attrs,recursive,string,**kwargs)

返回一个列表类型，存储查找的结果

name：对标签名称的检索字符串
attrs：对标签属性值的检索字符串，可标注属性检索
recursive：是否对子孙全部检索，默认为True
string：<>…</>中字符串区域的检索字符串

简写：
<tag>(…)等价于<tag>.find_all(…)
soup(…)等价于soup.find_all(…)

扩展方法

这里写图片描述

猜你喜欢

转载自blog.csdn.net/w0ryitang/article/details/80209624

python爬虫学习笔记4：信息提取

Python 信息提取-爬虫

Python 爬虫基础学习--网络爬虫与信息提取

网络爬虫笔记4，信息提取之Re库

爬虫学习(三)---基于bs4的信息提取

【学习笔记】PYTHON网络爬虫与信息提取(北理工嵩天)

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

第三次作业-MOOC学习笔记：Python网络爬虫与信息提取

第3次作业-MOCC学习笔记：Python网络爬虫与信息提取

Python爬虫中的信息提取

Python网络爬虫与信息提取（一）

Python网络爬虫与信息提取

Python网络爬虫与信息提取笔记05-信息组织与提取方法

Python网络爬虫与信息提取（4）—— 实战之爬取亚马逊商品信息

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取 1.注册中国大学MOOC

Python网络爬虫与信息提取（五）信息标记与信息提取的一般方法

Python网络爬虫与信息提取笔记08-实例2：淘宝商品比价定向爬虫

Python网络爬虫与信息提取（2）—— 爬虫协议

爬虫：网页信息提取

爬虫（四）信息提取

网络爬虫与信息提取

Python网络爬虫与信息提取（四）bs4的内容遍历方法及注意事项

Python网络爬虫与信息提取（三）bs4入门

Python网络爬虫基于BeautifulSoup4库的信息提取

嵩天教授的Python网络爬虫与信息提取课程笔记——requests库入门

python网络爬虫和信息提取笔记之BeautifulSoup类

Python网络爬虫与信息提取笔记04-Beautiful Soup库入门

Python网络爬虫与信息提取笔记01-Requests库入门

嵩天老师网络爬虫与信息提取课程学习笔记（三）

嵩天老师网络爬虫与信息提取课程学习笔记（二）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)