python爬虫学习笔记1 - 代码天地

python爬虫学习笔记1

其他 2020-06-22 11:59:04 阅读次数: 0

from urllib import request
from urllib import parse
'''
resp = request.urlopen("https://www.baidu.com")
print(resp.read())
print(resp.getcode())#返回状态码200正常301跳转400服务器问题
request.urlretrieve('http://www.baidu.com/', 'baidu.html')#下载网页或者图片都行
params = {'name':'张三', 'age':18,'greet':'hello world'}
result = parse.urlencode(params)#转url编码url不识别中文和空格
print(result)
#例如
url = 'http://www.baidu.com/s'
params = {"wd":"刘德华"}
qs = parse.urlencode(params)
url = url + "?" + qs
resp = request.urlopen(url)
print(resp.read())
#正常会出错查询这个http://baidu.com/s?刘德华
qs = "name=%E5%BC%A0%E4%B8%89&age=18&greet=hello+world"
print(parse.parse_qs(qs))
#这个与上面程序相反解码

url = 'http://www.baidu.com/s;hello?wd=python&username=abc#1'
result = parse.urlparse(url)#解析这个域名分割然后求出每个项
print('scheme:', result.scheme)
print('netloc', result.netloc)
print('path', result.path)
print('params', result.params)
print('query',result.query)
print('fragment',result.fragment)    
result1 = parse.urlsplit(url)#解析这个域名分割然后求出每个项
print('scheme:', result1.scheme)
print('netloc', result1.netloc)
print('path', result1.path)
#print('params', result1.params)#urlsplit没这个参数
print('query',result1.query)
print('fragment',result1.fragment)    
#urlparse 比 urlsplit多获取一个hello                                                                
'''

猜你喜欢

转载自blog.csdn.net/qq_43568078/article/details/105700631

学习python爬虫笔记(1)

python 爬虫学习笔记（1）

Python 爬虫学习笔记1

Python爬虫学习笔记 - 1

python爬虫学习笔记1

Python 开发简单爬虫学习笔记1

python网络爬虫学习笔记（1）

Python爬虫学习笔记（Selenium（1））

python学习笔记之爬虫 -1- 初识爬虫

python爬虫学习笔记_初识网络爬虫_1

Python 爬虫笔记1

python爬虫笔记1

爬虫学习笔记（1）

爬虫学习笔记1

Python——爬虫学习1

python 爬虫学习1

python爬虫学习1

[Python]爬虫学习1

Python学习笔记--Python 爬虫入门 -18-1 Scrapy

python爬虫学习笔记2：实例学习1

Python爬虫学习笔记

[Python学习笔记]爬虫

爬虫学习笔记（1）-- 利用Python从网页抓取数据

python爬虫学习笔记1：requests库及robots协议

Python爬虫-学习笔记(1) ———— 爬豆瓣电影资源

Python的学习笔记DAY6---爬虫（1）

python学习笔记分享(三十三)网络爬虫(1)

Python爬虫的小白学习笔记1-批量下载图片

Python爬虫（入门+进阶）学习笔记 1-1 什么是爬虫？

爬虫笔记1：Python爬虫常用库

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)