百科重名人物信息盒python3爬虫Demo

源代码下载:PaChong.py

1.按照年份爬取人名

6102062-5eabf3fbb5667538.png
按照年份爬取人名,百科截图  
6102062-463c97cac518809a.png
按照年份爬取人名,python函数截图 ,生成name.txt文件 

2.判断name.txt文件的名字是不是歧义实体,若是歧义实体,则筛选下来

6102062-804e1f01fadd1ff6.png
具有歧义的实体
6102062-92ece3945a8c473a.png
具有歧义的实体,生成polyName.txt文件

3.获取每个歧义实体的百科链接

6102062-4f45d18c94cb756c.png
歧义实体消歧页面
6102062-d6d256ee234bc1aa.png
获取歧义实体的百科链接,生成nameLink.txt文件

4.获取每个实体的信息盒里的数据

6102062-6510b9bac7b9cc68.png
实体信息盒页面
6102062-b688fdc4757bcf44.png
抓取实体信息盒内容,生成nameInfoBox.txt文件

5.统计所有实体的关系,计算去重关系数量

6102062-0f3de89e5deaf85c.png

猜你喜欢

转载自blog.csdn.net/weixin_34301307/article/details/87425646