爬虫的原理和思路（自我总结） - 代码天地

爬虫的原理和思路（自我总结）

编程语言 2018-07-30 01:01:32 阅读次数: 0

网络爬虫框架主要由控制器、解析器和索引库三大部分组成，而爬虫工作原理主要是解析器这个环节，解析器的主要工作是下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。

解析器的具体流程是：

入口访问->下载内容->分析结构->提取内容

爬虫的思路：

1、查看该网站是否可爬，robot.txt是君子协议，定义了可爬取和不可爬取的内容；之所以叫做君子协议是靠自己的道德去约束的，就是你可以去爬但是违反了你的道德~~~

2、给爬虫一个目标即网页地址及参数，模拟浏览器请求网站，得到网页源码

3、通过 python 正则对所需要的数据进行分析，匹配出数据

4、保存数据（数据库或文件中）

如果网站有反爬虫技术，那么这个过程可能就会稍复杂。

爬虫的难点在于如何去提取到你需要的数据。

response源码中没有要提取的内容：

只有2种可能，一是ajax异步，二是js拼接而成

获取js加载的内容：

1、js加载的：需要分析到底是哪个js加载出来的，可用调试工具打断点。然后模拟请求获得数据

2、使用pyV8

不到万不得已不要模拟浏览器，消耗性能和内存，手工调试分析出数据来源请求即可

猜你喜欢

转载自blog.csdn.net/loner_fang/article/details/81023017

爬虫的原理和思路（自我总结）

自我总结和检讨

爬虫的自我修养

c语言的++和--运算自我总结

JAVA类和对象自我总结

类的继承和派生(自我总结)

HTML自我总结

工作自我总结

自我总结2018.11.20

自我总结2018.11.05

自我总结

GMS自我总结

考试的自我总结

2019 自我总结

spring自我总结

mybatis自我总结

springMVC自我总结

自我技术总结

docker的自我总结

mysql的自我总结

Redis的自我总结

Eureka实现原理和自我保护机制简单介绍

转：linux下的文件和目录管理自我总结

关于html和jsp页面的自我总结

c++中的const和volatile知识自我总结

IO流的自我实现和总结

爬虫思路总结

面试自我总结2

面试自我总结3

ActiveMQ自我总结一

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)