Python抓取百度百科数据 - 代码天地

Python抓取百度百科数据

其他 2019-04-20 17:41:13 阅读次数: 0

抓取策略

确定目标：确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。

分析目标：分析要抓取的url的格式，限定抓取范围。分析要抓取的数据的格式，本实例中就要分析标题和简介这两个数据所在的标签的格式。分析要抓取的页面编码的格式，在网页解析器部分，要指定网页编码，然后才能进行正确的解析。

编写代码：在网页解析器部分，要使用到分析目标得到的结果。

执行爬虫：进行数据抓取。

分析目标

1、url格式

进入百度百科python词条页面，页面中相关词条的链接比较统一，大都是/view/xxx.htm。

2、数据格式

标题位于类lemmaWgt-lemmaTitle-title下的h1子标签，简介位于类lemma-summary下。

3、编码格式

查看页面编码格式，为utf-8。

经过以上分析，得到结果如下：

代码编写

项目结构

在sublime下，新建文件夹baike-spider，作为项目根目录。

新建spider_main.py，作为爬虫总调度程序。

新建url_manger.py，作为url管理器。

新建html_downloader.py，作为html下载器。

新建html_parser.py，作为html解析器。

新建html_outputer.py，作为写出数据的工具。

最终项目结构如下图：

spider_main.py

url_manger.py

html_downloader.py

html_parser.py

html_outputer.py

运行

在命令行下，执行python spider_main.py。

运行结果

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/89419138

Python抓取百度百科数据

python自动规则化抓取百度百科词条数据

词库的扩充-百度百科的抓取（二）

百度百科与维基百科

百度百科

nginx 百度百科

Spring 百度百科

struts百度百科

Hibernate百度百科

pthread百度百科

百度百科：tmpfs

linux——百度百科

Hadoop 百度百科

Unix——百度百科

接地_百度百科

DMA(百度百科)

Python爬虫入门——百度百科词条数据

Python爬取百度百科1000个页面的数据

词库的扩充-百度百科的抓取-你知道这些热词吗？

抓取维基百科数据

python爬虫-百度百科百名红通人员名单

百度百科：头条百科快懂百科的优势有哪些？

维基百科创建，百度百科创建，全球百科创建-大舍传媒

Python Scrapy学习(从百度翻译,人人网,豆瓣,糗事百科爬取数据)

比百度百科靠谱的维基百科

百度百科人物词条怎么创建，百科人物创建技巧

品牌百科词条怎么写？品牌百度百科创建干货

java.nio_百度百科

（转自百度百科）AgitarOne

struts2百度百科

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)