爬虫公开课学习的一天 - 代码天地

爬虫公开课学习的一天

其他 2020-03-22 19:17:27 阅读次数: 0

学习链接http://stu.ityxb.com/openCourses/detail/238

什么是爬虫：

　　网络爬虫就是模拟浏览器发送网络请求接受请求响应按照一定规则自动抓取互联网信息的程序

爬虫的用途:

　　数据采集（百度新闻，今日头条）、12306抢票、网络自动投票、

调试工具：　　　　

　　Fn+ F12

　　　　　　

浏览器的请求过程:

　　　　

URL规则

　　　　、

http请求

　　　　　　

http请求重要组成部分

　　请求URL、请求方式（post、GET）、请求头、请求体

http响应格式

　　

http响应重要组成部分

　　响应状态码：404、500 、200(成功)

　　响应头、

　　响应体（html内容）

Ruquests模块

　　是一个python模块，可以模拟浏览器发送请求获取响应

学习资料：

http://cn.python-requests.org/zh_CN/latest/

安装

pip install requests

爬取网站步骤：

步骤一：分析

　　请求url、请求方式、请求头、请求参数

步骤二：模拟浏览器发送请求获取响应

'''
url https://www.baidu.com/baidu?wd=%E7%9F%B3%E5%AE%B6%E5%BA%84%E5%AD%A6%E9%99%A2
请求方式  get
请求头 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0
请求参数 ?wd=%E7%9F%B3%E5%AE%B6%E5%BA%84%E5%AD%A6%E9%99%A2
'''
# 1.导入模块
import requests
#2. 模拟发送请求获取响应

response = requests.get(
    url = " https://www.baidu.com/baidu/s",
    headers={
         "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0",
    }

)

#3. 对响应内容结果进行处理
with open ('获取响应内容.html' , 'w',encoding='utf8') as f:
    f.write(response.text)

实现自定义请求参数

猜你喜欢

转载自www.cnblogs.com/xingyuner/p/12547596.html

爬虫公开课学习的一天

深度学习公开课

Photoshop学习公开课

一些机器学习公开课

David Silver强化学习公开课（一）：简介

机器学习公开课-笔记1

学习多线程公开课

网上的一些公开课

公开课网址

网易公开课

全球公开课

公开课

公开课汇总

《网易公开课》也能被拿来练习python爬虫？离谱~

吴恩达机器学习公开课学习笔记（一）

关于深度学习，这里有一份入门公开课（文末福利）

学习经验分享（最近听了一节Java公开课）

公开课学习笔记- 哈佛计算机科学CS50（一）

斯坦福机器学习公开课笔记一 --单变量线性回归

Khan公开课 - 概率学习笔记（一）独立事件相依事件和排列组合

公开课视频( 一 ):飞桨强化学习框架Parl解析

coursera机器学习公开课笔记1：Introduction

算法模型---【David Silver强化学习公开课】

【网易公开课】Python机器学习kaggle案例

编程方法学 - 公开课学习笔记（九）

企业架构实践的线下公开课学习感悟

奈学公开课RocketMq学习笔记二

机器学习最好的公开课——多变量线性回归

大恒halcon 深度学习公开课

北大AI公开课

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)