Python 简单页面提取 - 代码天地

Python 简单页面提取

其他 2018-08-12 03:55:26 阅读次数: 0

#页面简单的提取
from urllib import request
import re

#1.生成一个模拟请求
rq = request.Request(r'https://www.qiushibaike.com/',headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"})

#请求数据
data = request.urlopen(rq)
string = data.read().decode('utf-8')
# print(string)
# with open('qiubai.html','w',encoding='utf-8') as fp:
#     fp.write(string)
items = re.findall(r'<div class="author clearfix">.+?<div class="stats">',string,re.S)
# print(items)
duanzi = []
for item in items:
    author = re.search(r'<h2>(.+?)</h2>',item,re.S)
    # print(author.group(1).strip())
    content = re.search(r'<span>(.+?)</span>',item,re.S)
    # print(content.group(1).strip())
    content = content.group(1).strip()
    content = re.sub(r'<br/>','\n',content)
    duanzi.append((author.group(1).strip(),content))

print(duanzi)

猜你喜欢

转载自blog.csdn.net/weixin_42218889/article/details/81483980

Python 简单页面提取

Python爬虫-页面解析数据提取思路方法与简单正则应用

Python爬虫10-页面解析数据提取思路方法与简单正则应用

基于 Python 的 Scrapy 爬虫入门：页面提取

CGI 简单的python显示的页面

python爬虫的页面数据解析和提取(2)

Python爬虫教程-18-页面解析和数据提取

Python之爬虫-- 页面解析和数据提取

Python 爬虫，lxml模块，XPath语法提取页面数据

Python页面解析和数据提取【bs4】

Python数据采集——提取页面内容的几种手段

二级python——计算生态，Web信息页面提取

08-页面解析之数据提取-python爬虫

使用Python提取PDF文件中指定页面的内容

怎么提取PDF页面？简单的方法介绍

【网页正文识别及提取算法】- Python requests的安装与简单运用

【网页正文识别及提取算法】- Python requests的安装与简单运用

Python 简单可视化音乐 — 提取频谱法

用Python开发PDF编辑器，实现PDF页面提取，页面合并与替换

python简单抓取页面数据实例

python线程抓取页面简单内容

python之CSS简单的页面布局

python简单爬虫，爬取整个页面

【Python自学笔记】Python爬虫＞页面数据提取模块parsel（支持xpath css re）

Python自动化脚本【1】url提取及自动打开页面

python爬虫之Beautiful Soup库，基本使用以及提取页面信息

PDF怎么提取页面，原来这个方法这么简单

python爬虫简单的抓页面图片并保存到本地

老男孩python作业9-简单的商城页面布局

测试网站页面网速的一个简单Python脚本

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)