实例1：urllib3获取简书首页 - 代码天地

实例1：urllib3获取简书首页

其他 2019-04-18 22:28:05 阅读次数: 0

实例1：urllib3获取简书首页

模块：re 、urllib.request

最基本的爬虫程序，因为前端存在ajax，所以如果需要全部数据还需模拟ajax，具体详见实例2

#!/usr/bin/env python
# encoding: utf-8
import re
from urllib import request

# 构建基本因素：url  user-agent
url = 'http://www.jianshu.com'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}

# 发起请求
req = request.Request(url, headers=headers)
resp = request.urlopen(req)
# print(resp.read().decode())

# 解析数据
result = re.findall(r'<a class="title" target="_blank" href=".*?">(.*?)</a>.*?<p class="abstract">(.*?)</p>', resp.read().decode(), re.S)
for title, abstract in result:
    print(title)
    print(abstract)

猜你喜欢

转载自www.cnblogs.com/xjl-dwy/p/10732762.html

实例1：urllib3获取简书首页

python的urllib3

urllib和urllib3

socket,urllib,urllib3,request多种方法请求网页首页

urllib3库的学习

urllib3禁用警告

urllib3高级用法

Python urllib、urllib2、urllib3用法及区别

urllib2 urllib urllib3的区别联系

urllib，urllib2，urllib3区别

实例2：requests获取简书

爬虫2 urllib3用法

禁用 urllib3 的安全请求警告

Python网络请求urllib和urllib3详解

python urllib和urllib3包使用

简书首页案例练习

简书首页案例练习

使用itchat过程碰到urllib3的异常

关于ModuleNotFoundError: No module named 'urllib3'解决

AttributeError: 'module' object has no attribute 'urllib3'

python的urllib3库(http连接池PoolManager)

python中urllib, urllib2,urllib3, httplib,httplib2, request的区别

urllib、urllib2、urllib3区别和使用

urllib、urllib2、urllib3 和 requests 模块有什么区别？

解决Python下urllib3报错requests.packages.urllib3.connectionpool : Connection pool is full

爬虫基础（3）发送请求之urllib库与urllib3库的使用

Python爬虫入门学习----Urllib和urllib3包的使用

python实现HTTP网络请求的三种方式：urllib、urllib3以及requests

Python使用urllib,urllib3,requests库+beautifulsoup爬取网页

spider数据挖掘-----2、urllib库与urllib3库的理解

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)