使用Urllib爬虫(1)--简单的将数据爬到内存或硬盘中 - 代码天地

使用Urllib爬虫(1)--简单的将数据爬到内存或硬盘中

其他 2020-04-18 09:34:14 阅读次数: 0

将数据爬取到内存中

import urllib
import urllib.request
import re
#打开京东网页并且进行读取，解码格式utf-8,ignore小细节自动略过，大大减少出错率
#将数据爬到内存中
#http://www.jd.com
url = "http://www.jd.com"
data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
pat = "<title>(.*?)</title>"
#re.S模式修正符，网页数据往往是多行的，避免多行的影响
print(re.compile(pat,re.S).findall(data))

将数据爬取到硬盘中

import urllib
import urllib.request
import re
url = "http://www.jd.com"
#urlretrieve(网址，文件名filename),由于\有转义的作用所以改用为/或者\\
res = urllib.request.urlretrieve(url,filename="D:\\pythonstudy\\pachong\\jd1.html")
print(res)

猜你喜欢

转载自www.cnblogs.com/u-damowang1/p/12724139.html

使用Urllib爬虫(1)--简单的将数据爬到内存或硬盘中

python 爬虫将所爬到的数据保存在文件中

将爬虫爬到的数据存入MySQL数据库

爬虫中的urllib库使用

python爬虫入门之urllib的简单使用

数据爬虫（二）：python爬虫中urllib库详解,parse和request使用方法

简单的爬虫例子urllib

node.js爬虫，爬到数据存入数据库

爬虫中urllib库

Python爬虫——urllib的使用

python3爬虫入门（urllib和requests简单使用）

python3爬虫(1)--urllib请求库使用

爬虫基础(1):urllib库

urllib的简单使用

在以 CentOS7.6 为基础镜像的 Docker 容器中通过 NFS 将内存挂载成高速硬盘使用

数据之路 - 爬虫 - urllib库

python爬虫（一）Urllib使用

【Python爬虫】urllib库的使用

python爬虫之urllib的使用

python爬虫urllib库使用

python爬虫，使用urllib + 正则

Python爬虫urllib库的使用

【Python爬虫】Urllib的使用（2）

爬虫基本库的使用(urllib)

Python爬虫开发——urllib的使用

python爬虫——urllib使用代理

爬虫——urllib库的基本使用

python爬虫urllib使用和进阶 | Python爬虫实战二（1）

内存化作硬盘使用

urllib库与爬虫的简单示例程序

今日推荐

周排行

【转】mongodb中删除数组内嵌对象文档

php数字金额转换成中文大写显示

枫神之路--Java 的继承机制

四、Spring中使用@Conditional按照条件注册Bean

tomcat中直接使用第3放jar包

进程的创建fork vs vfork

结构体和组合体

“无任何网络提供程序接受指定的网络路径”的解决办法

webpack配置vue项目引入和部分引入

Oracle在不同windows系统中的迁移

每日归档

更多

2024-06-14(0)

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)