python从pdf文件中提取文本，并自动翻译 - 代码天地

python从pdf文件中提取文本，并自动翻译

编程语言 2018-04-19 11:54:45 阅读次数: 4

针对Python 3.5.2 测试

首先安装两个包：

$ pip install googletrans

$ pip install pdfminer3k

googletrans会提供一个命令translate，这个命令会调用google translate api执行自动翻译：

pdfminer3k会提供一个工具脚本pdf2txt.py：

$ pdf2txt.py xxx.pdf

谷歌翻译并不能识别段落或者整句，如果一个整句中出现换行符，会发现翻译就不完整了，以网页版谷歌翻译测试：

因此需要将pdf转换好的文本文件进行拼接，借用linux args 命令，实现此功能，将整个文件的换行符全部去掉。

但是问题又出现了，整个文件变成一行，我们的段落结构都消失了，那么我们需要手动添加delimiter，设置为一个特殊字符@。

扫描二维码关注公众号，回复： 32909 查看本文章

执行如下命令：

cat trans_src.txt |xargs  |xargs -0 -d '@'  -i{} translate  -d zh-cn {} |tee trans_dst.txt

将翻译后的文本重定向到一个文件，然后对文件进行简单的后处理，就可以了。

猜你喜欢

转载自blog.csdn.net/zhajio/article/details/79990140

python从pdf文件中提取文本，并自动翻译

如何用Python从PDF文件中提取文本词汇

java从pdf中提取文本

Python--从PDF中提取文本的方法总结

【Python】从文本中提取数字

C#从PDF文档中提取文本

ChemDataExtractor:从PDF、HTM、文本等中提取化学数据

基于C＃从PDF文档中提取文本

如何编辑PDF文件，怎么从PDF中提取单页

图像中提取文本

python提取pdf文本内容

python 从url中提取文件名

如何从word、excel、pdf等文件中提取文字（Tika）

从规则文本文件中提取列字段

多列数据的文本文件中提取数据

使用python提取英语pdf内容并翻译

从文本中提取特定信息

Python提取PDF表格及文本！（附源码）

从PDF和图像中提取文本，以供大型语言模型使用

从html富文本中提取纯文本

Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本

从PDF文件中提取嵌入的MP4视频文件

Camelot:从pdf中提取表格数据

从ipa中提取png文件

从rpm文件中提取源码

利用pyltp从文本中提取时间信息

Python 从字典中提取子集

Python从视频中提取音频

python 实现文本自动翻译功能

Python中提取指定字符串取出中间文本正则表达式

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)