Python爬虫(七)_非结构化数据与结构化数据 - 代码天地

Python爬虫(七)_非结构化数据与结构化数据

其他 2019-09-22 23:44:30 阅读次数: 0

页面解析与数据提取

实际上爬虫一共就四个主要步骤：

定（要知道你准备在哪个范围或者网站去搜索）

爬（将所有的网站的内容全部爬下来）

取（分析数据，去掉对我们没用处的数据）

存（按照我们想要的方式存储和使用）

表（可以根据数据的类型通过一些图标展示）

以前学的就是如何从网站去爬数据，而爬下来的数据却没做分析，现在，就开始对数据做一些分析。

数据，可分为非结构化数据和结构化数据

非结构化数据：先有数据，再有结构

结构化数据：先有结构，再有数据

不同类型的数据，我们需要采用不同的方式来处理

非结构化的数据处理

文本、电话号码、邮箱地址

正则表达式Python正则表达式

HTML文件

正则表达式
XPath
CSS选择器

结构化的数据处理

JSON文件

JSON Path
转化为Python类型进行操作（json类）

XML文件

转化为Python类型（xmltodict）
XPath
CSS选择器
正则表达式

猜你喜欢

转载自www.cnblogs.com/moying-wq/p/11569914.html

Python爬虫(七)_非结构化数据与结构化数据

爬虫提取非结构化数据

非结构化和结构化数据提取

数据的种类(结构化数据、非结构化数据、半结构化数据)

结构化数据、半结构化数据和非结构化数据

Hive结构化数据、半结构化数据和非结构化数据

结构化数据、非结构化数据、半结构化数据

简述结构化数据、非结构化数据、半结构化数据

结构化数据、非结构化数据和半结构化数据

什么是结构化数据、半结构化数据与非结构化数据

什么是结构化数据、半结构化数据、非结构化数据

非结构化数据与结构化数据提取---多线程爬虫案例

非结构化数据与结构化数据提取---- 案例：使用bs4的爬虫

黑马python2.7的爬虫2-非结构化数据与结构化数据提取

结构化、非结构化和半结构化数据数据清洗

结构化、半结构化、非结构化数据

结构化，半结构化，非结构化数据总结

关于结构化、半结构化、非结构化数据的理解

结构化、半结构化和非结构化数据

结构化数据和非结构化数据的提取【Python篇】

结构化数据

MongoDB操作非结构化数据

非结构化信息(数据）总结

非结构化数据存储方案

详谈非结构化数据（三）

非结构化数据_事件抽取

非结构化数据怎么盘点？

【大数据课堂0001】结构化数据、半结构化数据和非结构化数据

python读取 doc/docx文档（非结构化数据）

非结构化数据与结构化数据提取---- 案例：使用正则表达式的爬虫

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)