python爬虫1、~爬取糗事百科 - 代码天地

python爬虫1、~爬取糗事百科

其他 2019-01-28 18:01:18 阅读次数: 0

1、基础版本，没有反扒，没有分类，单纯每一页的爬取下来

 1 # Author:li
 2 import requests
 3 import re
 4 def  start():
 5     page = 1
 6     n = int(input("需要爬取的页数："))
 7     while page < n:#写个
 8 
 9         url = 'https://www.qiushibaike.com/text/page/' + str(page)
10         res = requests.get(url).text #获取到了源代码
11         #正则表达式 拿来匹配项目
12         zhengze = '<div.*?article block untagged mb15 typs.*?".*?>.*?<.*?class="content">.*?<span>(.*?)</span>.*?</div>'
13         #div.*?class="article block untagged mb15".*?>.*?<.*?class="content">.*?<span>(.*?)</span>.*?</div>'
14         duanzi_list= re.findall(zhengze,res,re.S) #分别是正则表达式，源代码，re.S表示会把/n也匹配
15         #对段子进行过滤
16         #print(duanzi_list)
17         page+=1
18         num = 1
19         for duanzi in duanzi_list:
20             filter_duanzi = re.sub('<br/>','',duanzi) #re.sub 1.选取要替换的字符，2.用以替换的字符，3.对象
21             print("当前第%s页"%page)
22             print(str(num)+'.'+filter_duanzi)
23 
24 
25         #保存段子
26             #with open('糗事百科.txt','a',encoding='UTF-8' )as f:
27                 #f.write(str(num)+'.'+filter_duanzi+'\n\n\n')
28             num += 1
29     else:
30         print("已爬取%s"%page)
31 start()

猜你喜欢

转载自www.cnblogs.com/ilovelh/p/10331142.html

python爬虫1、~爬取糗事百科

python爬虫（二）爬取糗事百科

爬虫：python爬取糗事百科网页信息

Python爬取糗事百科

python爬虫练习1：通过python爬取糗事百科的搞笑图片

[Python 爬虫之路1] 爬取糗事百科（requests，bs4）

python3糗事爬取-------------------糗事百科

爬虫实战（二）：爬取糗事百科段子

爬虫多线程案例：爬取糗事百科

芝麻HTTP:Python爬虫实战之爬取糗事百科段子

python爬虫十二：middlewares的使用，爬取糗事百科

Python爬虫实战(六)：爬取糗事百科段子

python爬虫学习之路(7) 爬取糗事百科

Python爬虫实现爬取糗事百科段子 (26行代码简单实现)

[Python爬虫]使用Scrapy框架爬取糗事百科

[爬虫]用python的requests模块爬取糗事百科段子

Python爬虫爬取糗事百科(xpath+re)

Python学习之爬虫07-糗事百科段子爬取

Python爬虫（二）之使用标准库爬取糗事百科段子

python网络爬虫-爬取糗事百科段子源码

2019基于python的网络爬虫系列，爬取糗事百科

Python爬虫实战之爬取糗事百科段子【华为云技术分享】

Python爬虫框架Scrapy之爬取糗事百科大量段子数据

Python多线程爬虫实战_爬取糗事百科段子的实例

python爬虫之多线程爬取糗事百科

小白python爬虫入门实战（爬取糗事百科）

python3爬虫入门(正则+requests 糗事百科单页图片爬取)

python3爬虫入门(正则+requests 糗事百科多页图片爬取)

基于python3 爬取糗事百科

Python 爬取糗事百科段子

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)