python网络爬虫批量获取百度百科词条使用request和beautifulsoup - 代码天地

python网络爬虫批量获取百度百科词条使用request和beautifulsoup

其他 2020-03-29 16:23:17 阅读次数: 0

理论上可以直接批量处理百度百科词条，但是存在如下问题：

百度百科需要比较严格的输入搜索名称，模糊搜索能力不强
百度百科在不输入词条后面的id时，请求频率太高会弹出error
百度百科可能会弹出一词多义选择，需要额外处理。

因此，选择直接使用百度搜索，利用搜索向百度百科进行跳转。
按照常理来讲，可以直接在搜索结果中检索所有标题，再用正则表达式判断网址中是否包含baike。
实际上，由于baidu自身的推广政策，在进行百度搜索时，第一条在很多情况下都是百度百科，因此，直接使用bs4 find第一条，直接跳转即可。
贴上代码如下：

import requests
import time
from bs4 import BeautifulSoup

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

f2 = open("test.csv", "r", encoding="UTF-8")
nameListPre = f2.readlines()
nameList = []
for namePre in nameListPre:
    nameList.append(namePre[:-1])
# print(nameList)

f2.close()

for name in nameList:
    r = requests.get("https://www.baidu.com/s?ie=UTF-8&wd=唐" + name, headers=headers)
    r.encoding = r.apparent_encoding
    bs1 = BeautifulSoup(r.text, 'html.parser')
    url2 = bs1.find('h3').find('a').get('href')
    r2 = requests.get(url2, headers=headers)
    r2.encoding = r2.apparent_encoding
    f1 = open("./html/" + name + ".html", "w", encoding="UTF-8")
    f1.write(r2.text)
    f1.close()
    print(name+"已完成\n")
    # break
    time.sleep(3)

代码中涉及到本地的数据特征，仅供参考，有疑问可评论讨论，共同进步。
request库和bs4库细节建议自行搜索文档，文档详细度远高于相关参考书籍。

Leowner

发布了90 篇原创文章 · 获赞 65 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/ctsnevermore/article/details/104452720

python网络爬虫批量获取百度百科词条使用request和beautifulsoup

品牌百度百科创建词条有什么步骤和流程

java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)

企业百度百科词条创建多少钱，费用和什么有关？

python 简单爬虫,爬100个百度百科页面的标题和描述

从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库

爬虫（一）request和BeautifulSoup

图神经网络和神经网络,图神经网络百度百科

python简单爬虫爬取百度百科python词条网页

简单的python爬虫（爬取百度百科词条）

Python爬虫入门——百度百科词条数据

Python爬虫爬取百度百科词条

初探：Python中使用request和BeautifulSoup库进行网络爬虫

什么人可以创建百度百科，关于百度百科参考资料和审核的问题

Python爬虫（urllib.request和BeautifulSoup）

<爬虫>利用BeautifulSoup爬取百度百科虚拟人物资料存入Mysql数据库

使用python写糗事百科的爬虫

Python爬虫实战项目1 | 基础爬虫的实现（爬取100条百度百科词条）

解释型语言和编译型语言区别（百度百科总结的）

用OkHttp和jsoup借用百度百科得到简介

古鱼、恐龙和大众，相逢在百度百科的“彩虹桥”

Python奇技淫巧之利用协程加速百度百科词条爬虫

Python奇技淫巧之利用协程加速百度百科词条爬虫！

为品牌建立百度百科词条

品牌百科词条怎么写？品牌百度百科创建干货

百度百科人物词条怎么创建，百科人物创建技巧

Python入门级爬取百度百科词条

python自动规则化抓取百度百科词条数据

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

娱乐人物百科词条怎么做百度百科创建词条技巧

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)