路飞学城—Python—爬虫实战密训班第一章 - 代码天地

路飞学城—Python—爬虫实战密训班第一章

其他 2018-07-05 21:10:14 阅读次数: 0

1、心得、体会：

第一天听了佩奇老师的拉钩，大概梳理了一下爬虫的基本原理

#1、发起请求
使用http库向目标站点发起请求，即发送一个Request
Request包含：请求头、请求体等

#2、获取响应内容
如果服务器能正常响应，则会得到一个Response
Response包含：html，json，图片，视频等

#3、解析内容
解析html数据：正则表达式，第三方解析库如Beautifulsoup，pyquery等
解析json数据：json模块
解析二进制数据:以b的方式写入文件

#4、保存数据
数据库
文件


2、知识点总结
拉钩网主要是登录的时候 一定要注意在页面上存在auth_code 这都是老师经验传授，如果没有老师 自己找怎么办？
所以每次请求 都要按照顺序去查看，如果无法正常登录或者得到数据，那么根据请求顺序查看传送的数据里是否还存在哪些遗漏 这些才是做好爬虫的重要知识点
理解web知识 理解这段程序是如何提交的 都是做好爬虫的重要的基础工作

# 梳理好请求与响应 

总结：

#1、总结爬虫流程：
    爬取--->解析--->存储

#2、爬虫所需工具：
    请求库：requests,selenium
    解析库：正则，beautifulsoup，pyquery
    存储库：文件，MySQL，Mongodb，Redis

#3、爬虫常用框架：
    scrapy

猜你喜欢

转载自www.cnblogs.com/touchlixiang/p/9270393.html

路飞学城—Python—爬虫实战密训班第一章

路飞学城—Python—爬虫实战密训班第三章

路飞学城—Python—爬虫实战密训班第二章

路飞学城—Python爬虫实战密训班第三章

路飞学城-python爬虫密训-第一章

路飞学城-Python爬虫实战密训-第1章

路飞学城—python爬虫实战密训-—第1章（作业）

路飞学城—python爬虫实战密训-—第1章

路飞学城-——Python爬虫实战密训-——第2章

路飞学城-Python爬虫实战密训-第2章

路飞学城-Python爬虫实战密训-第3章

路飞学城-Python开发-第一章

路飞学城Python爬虫课第一章笔记

路飞学城-Python爬虫集训-第一章

路飞学城-python爬虫密训-第二章

路飞学城-python爬虫密训-第三章

路飞学院-Python爬虫实战密训班-第2章

路飞学院-Python爬虫实战密训班-第1章

路飞学院-Python爬虫实战密训班-第3章

路飞学城-爬虫集训营-第一章

路飞第一章练习

路飞学城-python开发培训－－第一章

路飞学城-Python14天集训营-第一章

路飞学城-Python开发集训-第一章

路飞学城-python开发集训-第一章之用户登录作业

路飞学城——python开发集训——第一章

路飞学城-python开发集训-第一章之简介与基础

路飞学城-python集训营-第一章

第一章：爬虫

爬虫第一章

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)