如何将不清晰的扫描版pdf转为清晰的pdf或word

最近需要将一份很长的英文合同翻译成中文，足足有80页，o(╯□╰)o，虽然近期一直在强化英语口语，但英语以及翻译并不是自己的强项，加之合同内容专业性很强，面对这个时间紧任务重的差事真的是头大了。时间又紧迫，怎么办？因为只是将翻译内容拿给非专业的人看一看，不具备法律效力，所以只能先借助翻译软件翻译个大概了。

扫描版的pdf，没法选择复制粘贴，这一点很麻烦。那就用pdf阅读器自带的转word功能吧，但实际操作效果发现识别成功率很低，错误乱码非常多。这个时候查到一种叫OCR（Optical Character Recognition）光学字符识别的功能，对于识别扫描版dpf貌似比较有效。网上找了一款叫迅捷pdf转换器的软件，但是非VIP会员最多只能利用OCR转换5页。实际效果不确定的情况下不想交钱办VIP，于是先借助别的工具把80页的pdf拆分成5页一份的十几个pdf文档，这类工具比较多，也有在线拆分的，非常方便。之后把拆分后的十几个pdf文档用迅捷pdf转换器的扫描pdf转word（OCR）功能进行转换，发现转换效果确实有提升，少了很多的乱码。

于是开开心心地准备用word2013自带的翻译功能进行英译汉转换（可以自行百度如何在word中设置翻译选项），但是竟然失败了。what the F***。

仔细检查发现，迅捷pdf转换器识别率虽然确实很高，但有个问题就是生成的word文档中全都是一个个的文本框。问题应该出在这里。

这个就有点蛋疼了，因为常规操作很难同时提取多个文本框的内容，网上搜到一种提取办法是在查找中利用通配符“？”进行全选（https://jingyan.baidu.com/article/ceb9fb10da00d98cac2ba065.html），但试验发现这种办法对去文字量很少的文本框或许还可以，而当文字量很多的时候非常耗时，也很容易卡死。因为它是按照一个个字符去选择的。

另一种方法是在word文档中全选，然后复制，打开写字板，在写字板进行粘贴。然后再在写字板里复制，再粘贴到word中。这样也会存在一个问题：就时行与行之间都多了一个换行符。且排序变得错乱毫无规律。

继续再想办法吧，突然灵光一现：那我要是把这份带很多文本框的word文档先转为pdf，之后再将该pdf转回为word，是不是就可以去掉所有的文本框了呢？

实际操作了一下，果然有效。没有多余的文本框，没有多余的空格回车等等，看上去干净清爽多了。

注意，这一步如果使用在线pdf转word，可能会出现生成的word文档每一行后面都有换行符，这样会降低自动翻译的准确率。实测使用Adobe Acrobat DC将pdf转成word的话，会显著减少每行最后换行符的数量。

转换后得到的pdf文档

pdf再次转换后得到的word文档

原始扫描版pdf文档

于是到这一步，已经可以得到比较清晰的pdf版或word版文档了，如果前面利用OCR识别成功率很高的话，最终效果还是不错的。

如何将不清晰的扫描版pdf转为清晰的pdf或word

猜你喜欢