爬虫之旅

其他 2018-08-16 20:21:11 阅读次数: 0

在学过Python的基础语法之后，开始学习爬虫，今天是学习的第一天。

了解了什么是爬虫，安装Charles软件可以很清楚该软件实时对浏览器的数据进行爬取。

自己之后再PyCharm自己动手编写了对网页信息的爬取，其程序如下所示：

import urllib.request#爬取网页信息需要urllib包

#向指定的url地址发起请求，并返回服务器相应的数据(文件的对象)
response=urllib.request.urlopen("http://www.baidu.com")
#读取网页的全部内容
data=response.read()
print(data)
#将爬取到的数据存储到文件
with open(r"C:\Users\Administrator\Desktop\file\file1.html","wb") as f:
f.write(data)

还有另一种把爬取的网页信息存储到本地文件中的方法

#爬取网页信息需要urllib包

import urllib.request

urllib.request.urlretrieve("http://www.baidu.com",filename=r"C:\Users\Administrator\Desktop\file\file3.html")

猜你喜欢

转载自blog.csdn.net/qq_31900497/article/details/81150446

PHPExcel探索之旅

linux 探索之旅

Bootstrap 探索之旅

前端探索之旅

netty探索之旅六

netty探索之旅八

netty探索之旅五

netty探索之旅三

netty探索之旅二

netty探索之旅七

netty探索之旅四

netty探索之旅一

webservice 菜鸟探索之旅

PHPer的进阶探索之旅

LeetCode探索之旅（2）

LeetCode探索之旅（1）

LeetCode探索之旅（0）

LeetCode探索之旅（3）

LeetCode探索之旅（4）

LeetCode探索之旅（6）

LeetCode探索之旅（5）

小程序的探索之旅

LeetCode探索之旅（7）

LeetCode探索之旅（11）

LeetCode探索之旅（10）

LeetCode探索之旅（9）

LeetCode探索之旅（8）

【Java对象探索之旅】

dubbo-探索之旅(三)---ExtensionFactory

Postgres 索引类型探索之旅

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)