百度百科全站爬取教程 - 代码天地

百度百科全站爬取教程

其他 2021-04-01 22:03:41 阅读次数: 0

百度百科全站目前有16,330,473个词条

这里介绍一个基于scrapy的分布式百度百科爬虫，能够全量爬取百度百科的词条

特性

百科类网站全站词条抓取，包括百度百科、互动百科、wiki中英文站点；
支持断点续爬；
支持缓存百科词条页面；
可分布式部署；
经过单机测试，在i9-9900K 内存64G 100M网络带宽下，百度百科词条一天可以抓取大概50w条(默认系统配置下)；互动百科测试结果
类似，wiki网站抓取数据量较少，受到配置的代理延迟影响较大；

如何使用

安装依赖 pip install -r requirement.txt
初始数据库 python initialize_db.py
初始化爬虫种子 python initialize_tasks_seeds.py
开始运行爬虫 python start_spiders.py

分布式使用

单机，多次运行 python start_spiders.py
多机，配置好redis 和mysql 服务器，多次运行python start_spiders.py

常见问题

理论上来说，只要你给的种子够全面，你就可以尽可能的抓取到更多的词条信息
种子链接提取码：iagw 来源于百度百科 2012 dump

已知BUG

多进程爬取下，Redis 的内存会溢出（64G），目前改为 1.5T内存尚未遇到BUG，运行三个小时，已使用内存高达38G

redis监控

欢迎star！

猜你喜欢

转载自blog.csdn.net/u013741019/article/details/102882731

百度百科全站爬取教程

《百年孤独》百度百科的爬取

Python爬取百度百科！付费文档同样爬！

Python入门级爬取百度百科词条

Python Selenium爬取百度百科旅游景点的消息盒

简单的python爬虫（爬取百度百科词条）

爬取百度百科5A景点摘要并实现分词

python爬虫入门--爬取百度百科10000条记录

爬取1000条百度百科词条

python 爬虫——针对query爬取百度百科页面

Python爬虫爬取百度百科词条

python3爬取1000个百度百科页面（二）

python3爬取1000个百度百科页面（一）

Python——爬取百度百科关键词1000个相关网页

python简单爬虫爬取百度百科python词条网页

2.爬取百度百科的infobox内容

Python爬取百度百科1000个页面的数据

python爬取百度百科保存scv

python爬取百度百科属性框

爬百度百科黄渤的爬虫

百度百科与维基百科

java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)

Scrapy 爬取百度贴吧全站图片

nginx 百度百科

Spring 百度百科

Hibernate百度百科

struts百度百科

百度百科

pthread百度百科

linux——百度百科

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)