如何将不清晰的扫描版pdf转为清晰的pdf或word

   最近需要将一份很长的英文合同翻译成中文,足足有80页,o(╯□╰)o,虽然近期一直在强化英语口语,但英语以及翻译并不是自己的强项,加之合同内容专业性很强,面对这个时间紧任务重的差事真的是头大了。时间又紧迫,怎么办?因为只是将翻译内容拿给非专业的人看一看,不具备法律效力,所以只能先借助翻译软件翻译个大概了。

   扫描版的pdf,没法选择复制粘贴,这一点很麻烦。那就用pdf阅读器自带的转word功能吧,但实际操作效果发现识别成功率很低,错误乱码非常多。这个时候查到一种叫OCR(Optical Character Recognition)光学字符识别的功能,对于识别扫描版dpf貌似比较有效。网上找了一款叫迅捷pdf转换器的软件,但是非VIP会员最多只能利用OCR转换5页。实际效果不确定的情况下不想交钱办VIP,于是先借助别的工具把80页的pdf拆分成5页一份的十几个pdf文档,这类工具比较多,也有在线拆分的,非常方便。之后把拆分后的十几个pdf文档用迅捷pdf转换器的扫描pdf转word(OCR)功能进行转换,发现转换效果确实有提升,少了很多的乱码。

   于是开开心心地准备用word2013自带的翻译功能进行英译汉转换(可以自行百度如何在word中设置翻译选项),但是竟然失败了。what the F***。


  仔细检查发现,迅捷pdf转换器识别率虽然确实很高,但有个问题就是生成的word文档中全都是一个个的文本框。问题应该出在这里。

 

  这个就有点蛋疼了,因为常规操作很难同时提取多个文本框的内容,网上搜到一种提取办法是在查找中利用通配符“?”进行全选(https://jingyan.baidu.com/article/ceb9fb10da00d98cac2ba065.html),但试验发现这种办法对去文字量很少的文本框或许还可以,而当文字量很多的时候非常耗时,也很容易卡死。因为它是按照一个个字符去选择的。

   另一种方法是在word文档中全选,然后复制,打开写字板,在写字板进行粘贴。然后再在写字板里复制,再粘贴到word中。这样也会存在一个问题:就时行与行之间都多了一个换行符。且排序变得错乱毫无规律。


 继续再想办法吧,突然灵光一现:那我要是把这份带很多文本框的word文档先转为pdf,之后再将该pdf转回为word,是不是就可以去掉所有的文本框了呢?

 实际操作了一下,果然有效。没有多余的文本框,没有多余的空格回车等等,看上去干净清爽多了。

注意,这一步如果使用在线pdf转word,可能会出现生成的word文档每一行后面都有换行符,这样会降低自动翻译的准确率。实测使用Adobe Acrobat DC将pdf转成word的话,会显著减少每行最后换行符的数量。


                                  转换后得到的pdf文档



                          pdf再次转换后得到的word文档


原始扫描版pdf文档


 于是到这一步,已经可以得到比较清晰的pdf版或word版文档了,如果前面利用OCR识别成功率很高的话,最终效果还是不错的。


猜你喜欢

转载自blog.csdn.net/ZZZLJB/article/details/79287219