Python笔记本 - 代码天地

Python笔记本

编程语言 2018-07-13 02:43:58 阅读次数: 0

爬虫基本原理

爬虫是请求网站并提取数据的自动化程序

爬虫的基本流程

发起请求：通过http库想目标站点发送请求
如果服务器响应，会得到一个response
解析内容
保存数据，保存成文本或者至数据库

#!/usr/bin/env python
# encoding: utf-8

import requests
response = requests.get('http://www.baidu.com')
print response.headers
print response.status_code
print response.text

能抓取怎么样的数据

抓取网页文本
抓取图片
视频
其他

#!/usr/bin/env python
# encoding: utf-8

import requests
response = requests.get('https://ss1.bdstatic.com/kvoZeXSm1A5BphGlnYG/skin_zoom/178.jpg?2')
with open('e:/aaa.jpg', 'wb') as f:
    f.write(response.content)
    f.close()

有哪些解析方式

直接处理（网页构造简单、返回的内容简单）
Json解析（返回Json的字符串）
正则表达式
BeatifulSoup
PyQuery
Xpath

怎么解决javascript渲染的问题，获取的网页和浏览器打开的网页内容不一致，如下

#!/usr/bin/env python
# encoding: utf-8

import requests
response = requests.get('https://m.weibo.cn/')
print response.headers
print response.status_code
print response.text

分析Ajax请求
selenium/WebDriver

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://m.weibo.cn/')
#driver.get('https://www.zhihu.com/')
print driver.page_source

3. Splash

4. PyV8、Ghost.py

怎么样来保存数据

纯文本
关系型数据库
非关系型数据库
二进制文件

猜你喜欢

转载自blog.csdn.net/l4642247/article/details/81015234

Python笔记本

python笔记本11

Python实现的简易笔记本

python小错误笔记本

python编程用什么笔记本好,学python用什么笔记本好

python编程用什么笔记本好,python用什么笔记本电脑

JavaScript笔记本

Redis笔记本

笔记本

联想笔记本

笔记本电视

ASUS 笔记本

sql笔记本

linux笔记本

【Android】笔记本

笔记本导购

我的笔记本

数学笔记本

笔记本优化

笔记本的保养

MySql笔记本

matlab笔记本

Thinkpad 笔记本

笔记本充电

笔记和笔记本

Python深度学习工具，jupyter笔记本安装

数据处理01：Python编程笔记本Jupyter！

数据处理01：Python编程笔记本Jupyter

VS code -python 使用笔记本

python爬虫爬取华硕笔记本信息

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)