Python 几种爬虫的方法 - 代码天地

Python 几种爬虫的方法

其他 2019-03-13 12:28:01 阅读次数: 0

Python 几种爬虫的方法

一、使用Requests库

1.1安装Requests库

pip install Requests

1.2实例：

import Requests

r = Requests.get(url)

print r.text

print r.status_code

传递URL参数

import requests

key_dict = {'key1':'value1','key2':'value2'}

r = requests.get(url,params=key_dict)

定制请求头

import requests

headers = {"User-Agent":......,

"Host":......}

r = requests.get(url,headers=headers)

print (“响应状态码：”,r.status_code)

二、使用selenium模拟浏览器

2.1安装selenium

pip install selenium

示例：

from selenium import webdriver

driver = webdriver.Firefox()

driver.get(url)

注：使用selenium模拟浏览器时，需要下载对应的驱动，例如：火狐：需要下载geckodriver.exe;谷歌：需要下载chromdriver.exe；IE：需要下载IEDriverServer.exe ；下载好驱动后，放在相应的浏览器安装目录下，并将其加入环境变量

遇到的问题：

1.Python2和3中'ascii' codec can't decode position 0: ordinal not in range(128)

python2:

在开头加上
import sys

reload(sys)

sys.setdefaultencoding('utf-8')

python3:

x = pickle.load(open("./data/coco/word2vec.p","rb"),encoding='bytes')

2.使用demjson

pip install demjson

demjson.encode --将对象转换json

demjsonl.decode --将json转化为对象

3.print ()

使用

i = cool

print("中文测试：" + i )

使用上述方法容易乱码

可以使用：

print (“中文测试 %s”) % i

解决

猜你喜欢

转载自www.cnblogs.com/xuyiwen/p/10522203.html

Python 几种爬虫的方法

Python爬虫 ruquests库的几种方法

Python爬虫数据的几种保存方法

【python爬虫】几种连接错误

Python爬虫进阶之selenium定位不到元素的几种情况和解决方法

Python爬虫定时计划任务的几种常见方法

python爬虫-----Python访问http的几种方式

python爬虫基本方法

python 解压的几种方法

Python爬虫解析方法以及爬虫实现

Python爬虫，get方法的封装

python爬虫（二十） select方法

Python爬虫基础:创建和删除文件的几种方式

Python爬虫 | 打开网页获取原码的几种方式

爬虫中几种去重过滤器的 python 实现

python爬虫的几种数据解析提取方式

Python 爬虫数据去重的几种实现浅析

python几种常见的模块安装方法

Python几种读取mat格式数据的方法

Python运行外部程序的几种方法

python中取整的几种方法

Python模拟登录的几种方法

python模块安装的几种方法

（python）几种方法的训练和对比

python反转列表的几种方法

python安装模块的几种方法

python字典遍历的几种方法（for in 用法）

python中统计计数的几种方法

python3 str的几种常用方法

python字典遍历的几种方法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)