python爬虫：不需要登录静态网页抓取 - 代码天地

python爬虫：不需要登录静态网页抓取

其他 2018-07-11 14:42:39 阅读次数: 0

简单爬虫架构

URL 管理器：管理待爬取URL集合和已抓取URL集合（防止重复抓取、防止循环抓取）

需要支持：1.添加新URL到待爬取集合中 2. 判断待添加URL是否在容器中 3.从url管理器中获取待爬取URL

4.判断URL管理器中是否还有待爬取的URL 5.将URL从待爬取集合中移动到已爬取集合

实现方式：1.将待爬取的URL集合和已爬取的URL集合存储在内存中使用set（）[为了去重]

2.关系数据库MySQL：用一个表存储两个集合（待，已） urls（url， is_crawled）

3.缓存数据库redis ：set

网页下载器：从互联网将一个url对应的互联网以HTML形式存储为一个本地文件或本地字符串

1.python对应下载器：urllib2,requests

urllib2:response = urllib2.urlopen("url")

print response.getcode()#获取状态码，如果是200则是成功

cont = response.read（）#读取内容

2.urllib2 下载网页的方法：添加data 、http header

3.添加特殊情景的处理器

HTTPCookieProcessor （用户登录） ProxyHandler（需要代理） HTTPSHandler（加密访问） HTTPRedirectHandler（自动跳转关系）

猜你喜欢

转载自blog.csdn.net/lx5090110/article/details/79487764

python爬虫：不需要登录静态网页抓取

python网络爬虫（1）静态网页抓取

SSH　登录不需要密码的关键

ssh不需要密码登录

Crawler 不需要写代码的爬虫不需要写正则的爬虫

爬虫学习----静态网页抓取

Python爬虫小白教程（一）—— 静态网页抓取

idea 修改静态资源不需要重启的办法

java静态成员变量不需要赋初值

使用ssh登录不需要输入密码

mantis不需要邮箱验证，创建使用密码登录

jdk1.8不需要登录下载界面

接口中不需要登录的接口@base_request

解决MySQL不需要密码就能登录问题

MySQL不需要密码就能登录问题

设置本机登录ssh不需要密码

Mac跳过SourceTree Atlassian账户登录的方法（不需要改文件、不需要科学用网）

Python类方法、静态方法与实例方法 -----类里面不需要实例化参数调用函数的方法

Python:爬虫从这里开始----解决需要登录的网页

Python:BeautifulSoup移除某些不需要的属性

python 中为什么不需要重载

python 缩进-函数首行不需要缩进

删除不需要的文件

你不需要 Kubernetes？

工作不需要忍受

Python3网络爬虫基本操作(二)：静态网页抓取

Python爬虫抓取纯静态网站及其资源！动态的需要ajax！

NetworkManager需要与不需要

Springmvc JSP静态化处理 | 不需要第三方Jar 不需要任何模板化技术

不需要编程，你也可以灵活采集网页数据

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)