Spider_权威指南_ch03_None_global_urlparse - 代码天地

Spider_权威指南_ch03_None_global_urlparse

其他 2020-06-25 23:04:45 阅读次数: 0

# 知识点补充：
# 1) None：
a=None
if a:
    print("非None")
    
if a is not None:
    print("非None")
    
    
    
# 2) global 的用法：在函数内引用 列表，集合，元组，字典的时候，不需要使用 global
l=[1,2,3]
s=set(l)
dic={'k1':'v1'}
t=(1,2,3)  # 不可变类型
v='123'

def test():
    l.append(4)
    s.add(5)
    dic['k2']='v2'
    t2=list(t)
    print(t2)   # [1, 2, 3]
    global v
    v=v+'4'

test()
print(l)       # [1, 2, 3, 4]
print(s)       # {1, 2, 3, 5}
print(dic)     # {'k1': 'v1', 'k2': 'v2'}
print(v)       # 1234


# 3) 使用 urlparse解析 url:
# 我们通过parsed的各个属性来访问不同的部分

from urllib.parse import urlparse

url='https://www.cnblogs.com/Alexephor/p/11431950.html'
parsed = urlparse(url)  # 将字符串进行解析
print('scheme  :'+ parsed.scheme)     #网络协议 https
print('netloc  :'+ parsed.netloc)     #服务器位置（也可呢能有用户信息） www.cnblogs.com
print('path    :'+ parsed.path)       #网页文件在服务器中存放的位置  /Alexephor/p/11431950.html
print('params  :'+ parsed.params)     #可选参数 
print('query   :'+ parsed.query)      #连接符（&）连接键值对
print('fragment:'+ parsed.fragment)   #拆分文档中的特殊猫
# print('username:'+ parsed.username) #用户名
# print('password:'+ parsed.password) #密码
print('hostname:'+ parsed.hostname)   #服务器名称或者地址  www.cnblogs.com
print('port    :', parsed.port)       #端口（默认是80）   None

[1, 2, 3]
[1, 2, 3, 4]
{1, 2, 3, 5}
{'k1': 'v1', 'k2': 'v2'}
1234
scheme  :https
netloc  :www.cnblogs.com
path    :/Alexephor/p/11431950.html
params  :
query   :
fragment:
hostname:www.cnblogs.com
port    : None

# 爬取内链和外链的练习请见 权威指南 的随书代码

猜你喜欢

转载自www.cnblogs.com/Collin-pxy/p/13193240.html

Spider_权威指南_ch03_None_global_urlparse

Spider_权威指南_ch01

Spider_权威指南_ch03_爬取所有网页链接

Spider_权威指南_seeion&cookies_爬虫基本模板（3个类）

WEB性能权威指南笔记 03

spider_使用request库进行post传参

Spider_基础总结2_Request+Beautifulsoup解析HTML

ES权威指南_05_Geolocation_03 Geo Aggs

Netty权威指南_札记03_Netty入门应用

vue权威指南笔记03——v-for的几种用法

《cuda c编程权威指南》03 - cuda小功能汇总

spider_使用urllib库提交post请求，有道翻译案例

spider_爬取斗图啦所有表情包（图片保存）

jsee_ch03

ES权威指南_06_Modeling Your Data_03 Parent-Child Relationship

Elasticsearch: 权威指南

linux权威指南

ssh权威指南.pdf

Android Gradle权威指南

HTTP权威指南笔记

elasticsearch 权威指南

web性能权威指南

试读《Netty 权威指南》

Netty权威指南试读

Hadoop 权威指南

RF权威指南

Maven权威指南

maven 权威指南

MongoDB 权威指南目录

JavaScript权威指南.pdf

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)