python爬虫（五）：实战【3. 使用正则来爬创客实验室】 - 代码天地

python爬虫（五）：实战【3. 使用正则来爬创客实验室】

其他 2018-12-09 14:40:50 阅读次数: 0

依然爬取创科实验室网站中讲座的信息（只爬标题，其它同）

但技术上采用requests+正则表达式

思想：

#通过正则表达式，获取讲座标题规则：<h3>中文字符出现4次任意字符</h3>

m = str(re.findall('<h3>[\u4e00-\u9fff]{4}.+</h3>',html))

# str转换为字符，分割两次得到讲座标题

n = m.split('：')[1].split('<')[0]

n

结果：

扫描二维码关注公众号，回复： 4435027 查看本文章

完整代码：

import requests

import re

titlelist = []

# 获取页面

for i in range(1,17):

url = 'http://127.0.0.1/lab/lectureContent/' + str(i)

r = requests.get(url)

r.encoding = r.apparent_encoding

html = r.text

#通过正则表达式，获取讲座标题规则：<h3>中文字符出现4次任意字符</h3>

j = str(re.findall('<h3>[\u4e00-\u9fff]{4}.+</h3>',html))

# str转换为字符，分割两次得到讲座标题

m = j.split('：')[1].split('<')[0]

#通过正则表达式，获取报告人规则：<h5>中文字符出现3次任意字符</h5>

k = str(re.findall('<h5>[\u4e00-\u9fff]{3}.+</h5>',html))

# str转换为字符，同样分割两次

n = k.split('：')[1].split('<')[0]

titlelist.append([m,n])

titlelist

结果：

也可输出一张表，放在D盘

# 输出为表

import pandas as pd

table = pd.DataFrame(data=titlelist,columns=['讲座标题','报告人'])

table.to_csv('D:/2.csv',index=0)

猜你喜欢

转载自blog.csdn.net/weixin_42490528/article/details/84926397

python爬虫（五）：实战【3. 使用正则来爬创客实验室】

python爬虫（五）：实战【2. 爬创客实验室（requests + bs4）】

Python Flask定时调度疫情大数据爬取全栈项目实战-3.爬虫概述

[网络爬虫基础] 3. 正则表达式实战

python 3.

3. 基本使用

3.使用API

3.零基础系统学习Python爬虫之BeautifulSoup的简单使用

python爬虫.3.下载网页图片

python爬虫（三）：BeautifulSoup 【3. 遍历】

Python升级3.多

3. Python基础语法

Redis 3. 与python交互

[python笔记]3.列表

3. Python控制结构

3. express 框架使用

[模拟登陆三剑客]3. 使用Python实现模拟登陆

3.简单爬虫————爬取拉勾网招聘信息(二)

python爬虫（五）：实战【4. 爬亚马逊】

python爬虫（五）：实战【5. 使用正则爬亚马逊价格】

3. Python3 基础语法

Python3 爬虫实战（并发爬取）

Python3.X 爬虫实战（并发爬取）

3.爬虫 urlib库讲解总结

3.简单的网页爬虫开发

【ChatGPT实战】3.使用ChatGPT自动化文件管理

[Python] [爬虫] 3.批量政府网站的招投标、中标信息爬取和推送的自动化爬虫——代理池

3.用python写网络爬虫，下载缓存

【牛客】3.进制转换

Python3爬虫系列：理论+实验+爬取妹子图实战

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)