python爬虫过程中出现的问题汇总 - 代码天地

python爬虫过程中出现的问题汇总

其他 2019-02-20 19:00:52 阅读次数: 0

1.出现 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 7: ordinal not in range(128)

原因：混淆了 python2 里边的 str 和 unicode 数据类型

解决办法：在出错的脚本前加上以下代码：

import sys

reload(sys)

sys.setdefaultencoding('utf8')

或者是：

import sys

if sys.getdefaultencoding()！='utf-8':

reload(sys)

sys.setdefaultendcoding('utf-8')

2.出现 SyntaxError: Non-ASCII character '\xe8' in file

原因：Python的默认编码文件是用的ASCII码

解决：只要在文件开头加入#-*- coding: UTF-8 -*-或者 #coding=utf-8就可以了

3.利用githup上的爬虫爬取裁判文书网时，在文书id的解密过程中出现了如下问题

异常产生于：

def decrypt_id(RunEval, id):
    """
    docid解密
    """
    js = ctx2.call("GetJs", RunEval)
    print js
    js_objs = js.split(";;")
    js1 = js_objs[0] + ';'
    js2 = re.findall(r"_\[_\]\[_\]\((.*?)\)\(\);", js_objs[1])[0]
    key = ctx2.call("EvalKey", js1, js2)
    key = re.findall(r"\"([0-9a-z]{32})\"", key)[0]
    docid = ctx2.call("DecryptDocID", key, id)
    return docid

原因是缺少node.js环境，需要安装node.js，安装教程参照：https://www.cnblogs.com/zhouyu2017/p/6485265.html

注意：安装node.js后还需要更换cnpm的镜像（执行下面这条语句）

npm install -g cnpm --registry=https://registry.npm.taobao.org

爬虫项目连接：https://github.com/sixs/wenshu_spider

文书id解密过程：

首先，由获得的runEval得到下图：

提取com.str._KEY的值，传入到js文件中的com.str._KEY

之后，对加密的id进行解密

var unzipid=unzip(id);
var realid=com.str.Decrypt(unzipid);
return realid;

最终的返回值即文书id明文。

猜你喜欢

转载自blog.csdn.net/MonsterZw/article/details/82744646

python爬虫过程中出现的问题汇总

iphone编程过程中出现的问题

JAVA 学习过程中出现的问题

linux学习过程中出现的问题

hive 安装及过程中出现的问题

安装mysql过程中出现的问题

nginx配置过程中出现的问题

配置bond过程中出现的问题

boa移植过程中出现的问题

使用Pyecharts 过程中出现的问题

Gitbook安装及过程中出现的问题

ELK搭建过程中出现的问题与解决方法汇总

Jenkins安装以及使用过程中出现的问题汇总

python3安装包过程中出现的问题

在Windows操作系统下使用MySQL过程中出现的小问题及解决方法的汇总（不断更新）

mysql/mariadb学习过程中出现的问题与解决

Ecplice 导包过程中出现的问题

JGroups使用过程中出现的问题及追踪

【Tomcat】Tomcat卸载过程中出现的问题总结

bitnami redmine linux 安装过程中出现的问题

opencv3.4.0　安装过程中出现的问题

mysql应用过程中出现的主键重复的问题

Umbraco安装过程中出现的问题以及调试

Android Studio安装及配置过程中出现的问题

安装Zabbix过程中出现的问题集

跑Monkey过程中出现的ANR问题分析

解决wampserver安装过程中出现的各类问题

Arduino与ROS通信过程中出现的版本错误问题

SSD训练过程中出现问题总结

anaconda安装过程中出现的问题

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)