昨日重现

昨日重现

什么是文件

操作系统提供的虚拟单位

文件打开的步骤

1.找到文件的路径 file_path
2.打开文件 open
3.读取 /修改文件 read/write
4.保存文件 flush
5.关闭文件 close

打开文件的3种模式+2种方式

模式

1.w:清空后写入
2.r:只读不写
3.a:追加写入

方式

1.b:二进制
2.t:文本

不建议使用

1.r+:又可读又可写
2.a+:又可读又可写
3.w+:又可读又可写(清空)

with管理上下文

f = open()
f.read()
#自动关闭文件
with open() as f:
    f.read()

爬虫原理

通过浏览器发送请求拿到内容;通过requests模拟浏览器发送请求拿到内容

爬虫的流程

1.发送请求(填入一个url)
2.获取内容
3.筛选你所需要的数据

requests模块的使用

import requests
res = requests.get(url)
#文本
res.text
#二进制流
res.content

re模块

re.S 全局搜索
data = '<img id = "blogLogo" src = "http://www.baidu.com" alt="返回主页">'
re.findall('src ="(.*?)"',data)从内容中筛选所需要的内容
.*?--你需要什么就把什么(.*?)#80%-90%场景下用.*?

猜你喜欢

转载自www.cnblogs.com/793564949liu/p/11425948.html