python-day3爬虫基础之下载网页 - 代码天地

python-day3爬虫基础之下载网页

其他 2018-07-28 22:36:57 阅读次数: 0

今天主要学习了关于网页下载器的一些内容，下边做一下总结：

1.网页下载器，顾名思义，就是将URL所对应的网页以HTML的形式下载到本地，最终存储成本地文件或者还是本地内存字符串，然后进行后续的分析与处理；

网页下载器主要有：urllib2和requests

下边介绍下urllib下载网页的方法：

首先是引入urllib.request

然后打开我们所定义的url，最后打印出状态码（getcode的作用就获取状态码），如果状态码是200的话，就代表是正常的。运行之后的结果如下所示：

2.网页解析器：它是以下载好的html网页字符串作为输入，然后从中提取出有价值的数据以及新的URL。

其中常见的网页解析器有：正则表达式（这是一种模糊化思想，个人认为就跟搜索关键词一样）

　　　　　　　　　　　　html.parser

　　　　　　　　　　　　Beautiful Soup（比较强大且比较常用）

　　　　　　　　　　　　lxml

其中后三者主要适用于结构化解析，这里还涉及到一个词叫做DOM(Document Object Model)树，这个今天理解的不是很透彻，以后在慢慢谈。Beautiful Soup属于python的第三方库，主要是从html和xml中提取数据。

这里给大家举个例子：

在这里，节点名称就是 nav，节点属性：id=“nav” class=“clearfix” ，节点内容：...

除此之外，今天还接触到了实例爬虫的过程：

第一步就是确定目标；第二步就是分析目标，这里边包括URL格式、数据格式以及网页编码；第三步就是编写代码了，最后执行爬虫。

今天白天帮老师干活，晚上身体有点不舒服，学的比较少，写的也比较范范，希望大家理解，如果有写的不对的，欢迎指出，大家共同学习，一起进步。

猜你喜欢

转载自www.cnblogs.com/jiangtongxue/p/9383642.html

python-day3爬虫基础之下载网页

python-day3

初识python-day3之函数基础

路飞学城Python-Day3

小白学习 Python-Day3

python-day3(正式学习)

Python3~scrapy项目之下载网页图片

python-day3 元组(tuple),列表(list),字典(dict)

初识python-day3之文件操作

初识python-day3之包与内置模块

python爬虫.3.下载网页图片

python爬虫之下载京东页面图片

Python3简单爬虫之下载相关类型音乐（喜马拉雅网站）！

python-day3基本数据类型的方法（路飞学城）

python3爬虫下载网页上的pdf

Python3.x爬虫下载网页图片的实例讲解

Python爬虫学习之下载源文件与数据存储

httpclient下载网页源码---java基础爬虫

urconnection下载网页源码 ----java基础爬虫

Python爬虫精简步骤3 HTML基础（下）网页头和网页体

Python学习---网页爬虫[下载图片]

python爬虫自动下载网页链接

python 爬虫（爬取网页的img并下载）

python 爬虫（xpath解析网页，下载照片）

python 网页爬虫，多任务下载视频

day3 python爬虫

（Python基础教程之二十二）爬虫下载网页视频(video blob)

Python 3: 第一个网络爬虫：下载网页—指定内容

python爬虫之下载文件的方式总结以及程序实例

Python爬虫实战之爬取QQ音乐之下载有版权的音乐(五)-1

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)