PyPDF2中文配置

其他 2021-01-25 00:32:14 阅读次数: 0

目录标题

PyPDF2 中文设置
- - 快速方法：（覆盖文件）
  - 自定义：（自己修改配置文件）

PyPDF2 中文设置

PyPDF2 默认是 Latin-1 编码的，当处理中文文档的时候就会报错。

本文内容 Linux 与 Windows 通用 已测试

快速方法：（覆盖文件）

配置文件下载
将下载的 generic.py 和 utils.py复制到目录C:\Users\currentuser\AppData\Local\Programs\Python\Python39\Lib\site-packages\PyPDF2下即可
Linux下find一下

自定义：（自己修改配置文件）

将 utils.py 内大概240行左右的内容：

 r = s.encode('latin-1')
 if len(s) < 2:
   		bc[s] = r
 return r

修改为

r = s.encode('utf-8')
if len(s) < 2:
    bc[s] = r
return r

将 generic.py 大概480行左右的内容

try:
   return NameObject(name.decode('utf-8'))
except (UnicodeEncodeError, UnicodeDecodeError) as e:
   # Name objects should represent irregular characters
   # with a '#' followed by the symbol's hex number
   if not pdf.strict:
      warnings.warn("Illegal character in Name Object", utils.PdfReadWarning)
      return NameObject(name)
   else:
      raise utils.PdfReadError("Illegal character in Name Object")

修改为

try:
	return NameObject(name.decode('utf-8'))
except (UnicodeEncodeError, UnicodeDecodeError) as e:
	try:
		return NameObject(name.decode('gbk'))
	except (UnicodeEncodeError, UnicodeDecodeError) as e:
		# Name objects should represent irregular characters
		# with a '#' followed by the symbol's hex number
		if not pdf.strict:
			warnings.warn("Illegal character in Name Object", utils.PdfReadWarning)
			return NameObject(name)
		else:
			raise utils.PdfReadError("Illegal character in Name Object")

文章内容结束，以上内容在2021年01月09日 Windows 与 Linux 平台下均测试通过

猜你喜欢

转载自blog.csdn.net/qq_41238308/article/details/108572771

PyPDF2中文配置

PyPDF2的使用

[转]PyPDF2详解

通过Python的PyPDF2库提取pdf中的文字

通过Python的PyPDF2库提取pdf中的图片

Python应用【PDF处理-pypdf2】

Python之PyPDF2模块的使用

PyPDF2 合并PDF文档

python3 集成PyPDF2

python中pypdf2模块报错：NotImplementedError: only algorithm code 1 and 2 are supported

Py之PyPDF2：PyPDF2的简介、安装、使用方法之详细攻略

利用PyPDF2删除PDF文件首页

python 之 pip、pypdf2 安装与卸载

Python：使用pypdf2合并、分割、加密pdf文件。

python常用库简单使用（ PyPDF2 ）

【Python军火库】PyPDF2：操纵PDF的利器

[python3] pypdf2 处理书签

PyPDF2读取文件只能得到‘\n’的问题

python PyPDF2 程序模块基础功能测试

通过Python的PyPDF2库合并多个pdf文件

python之PyPDF2:操作PDF文档示例详解

PyPDF2 编码问题 PyPDF2.utils.PdfReadError Illegal character in Name Object

PyPDF2.errors.DeprecationError: reader.getNumPages is deprecated and was removed in PyPDF2 3.0.0. Us

PyPDF2 pdf 文件写入提示如下错误:PyPDF2.utils.PdfReadError: Illegal character in Name Object

Python 深入浅出 - PyPDF2 处理 PDF 文件

pypdf2填充form field表单域后不显示问题的解决

PyPDF2读取PDF文件内容保存到本地TXT

实用代码Python（二）：使用PyPDF2融合多个PDF文件

Python编程：pypdf2和pdfplumber获取pdf文件的页数

python.pdf 利用python PyPDF2 实现pdf操作全集

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)