私は誰もがこの状況にしばしば遭遇すると信じています(コピーすることはできません):
これは直接の「恐喝」であり、貧しい大学生はそれを買う余裕がないと言います〜
上記のすべては、Webページがテキストをコピーできない場合です。ただし、これはPythonにとって問題ではありません。今日はPythonでそれを解決するためにあなたを連れて行きます。
コアテクノロジー:pdfkitライブラリを使用してhtmlWebページをpdfとして保存
1.pdfkitライブラリをインストールします
pip install pdfkit
コマンドを使用してpdfkitをインストールします。さらに、exeファイル(wkhtmltopdf)のダウンロードリンクをインストールする必要があります。
https://wkhtmltopdf.org/downloads.html
ダウンロードしてインストールする対応するバージョンを選択します(自分のインストールディレクトリを覚えておいてください)
2.実際の戦闘作戦
ここでは、Baidu Wenkuプラットフォームで記事の1つをテストしています(記事はコピーを禁止するように設定されています)
たとえば、作者がコピーしたい場合は、転載(コピー不可)が禁止され、このウェブページのPDFの保存を開始します。
import pdfkit
import time
if __name__ == '__main__':
url = "https://wenku.baidu.com/view/e1dd3a2f0066f5335a812103?aggId=e1dd3a2f0066f5335a812103"
config = pdfkit.configuration(wkhtmltopdf=r'D:\wkhtmltopdf\bin\wkhtmltopdf.exe')
pdfkit.from_url(url, r"D:\素材库\%s.pdf"
% time.strftime('%Y-%m-%d-%H-%M-%S', time.localtime(time.time())), configuration=config)
これにより、コンテンツがpdfとして保存され、直接コピーできます。