【pythonクローラー】pdf内の英語を一括認識、中国語に自動翻訳

学校に通っているときでも、仕事に行っているときでも、特に卒業論文を書くときには英語の論文を読むことが避けられないことがあります。さらに面倒なのは、専門性の高い英語のPDF記事を中国語に翻訳することです。学生の頃、段落ごとにコピーしたり、知らない単語を百度で翻訳したりしていましたが、非常に時間がかかったのを覚えています。この記事では、中国語と英語の pdf を一括認識する方法を説明し、次の記事では pdf を英語から中国語に自動的に変換しますので、ご期待ください。


  

1. pdfplumber ライブラリをインストールする

  
PDF 内のコンテンツを識別するには、pdfplumber ライブラリを使用する必要があるため、まず pdfplumber ライブラリをインストールします。一般的なコードは次のとおりです。

pip install pdfplumber

ただし、インストール プロセス中に次のエラーが報告されます。
  
写真

インターネットで情報を調べたところ、国内の鏡像を使用してインストールできることがわかりました。

国内的一些pip源:
阿里云 http://mirrors.aliyun.com/pypi/simpl

おすすめ

転載: blog.csdn.net/qq_32532663/article/details/132653169