[ネットワーク セキュリティで爬虫類を練習する - 100 の演習] 演習 18: クロールされたコンテンツを Word 文書内の指定された場所に書き込む

目次

1. 目標 1: Word の指定した位置にテキストを追加する

2. 目標 2: Word に画像を挿入する


1. 目標 1: Word の指定した位置にテキストを追加する

Python を使用して Word 文書内の特定の場所にコンテンツを書き込むには、Python のサードパーティ ライブラリを使用しますpython-docx

 最初にライブラリをインストールする必要がありますpython-docx

pip install python-docx

コード:

from docx import Document

# 打开现有的Word文档
doc = Document('path/to/your/document.docx')

# 获取第一个段落
first_paragraph = doc.paragraphs[0]

# 在段落的末尾添加文本
first_paragraph.add_run('这是要添加的内容')

# 保存修改后的文档
doc.save('path/to/your/modified_document.docx')

ノート:

1.Documentクラスと関連モジュールをインポートします。

2.Documentクラスごとに既存の Word 文書を開きます (path/to/your/document.docx実際の文書パスに置き換えられます)。

3.paragraphsプロパティを使用してドキュメント内の段落のリストにアクセスし、最初の段落 (インデックス 0) を取得します (他の段落にアクセスするには、必要に応じてインデックスを変更します)。

4.add_run()メソッドを使用して、選択した段落の末尾にテキスト コンテンツを追加します。

5.save()メソッドを使用して、変更したドキュメントを指定したパスに保存します (path/to/your/modified_document.docx保存されたパスとファイル名に置き換えます)。



2. 目標 2: Word に画像を挿入する

アイデア: 実際には、画像にアクセスし、画像をダウンロードし、画像を挿入することです。

Python によってクロールされたグラフィック インターフェイスをそのまま Word 文書に書き込むには、 Pythonでサードパーティのライブラリを使用しrequestspython-docx

 最初にインストールしrequestspython-docxライブラリを作成する必要があります

pip install requests python-docx

import requests
from docx import Document

# 发送HTTP请求获取网页内容
url = 'https://example.com'  # 替换为要爬取的网页URL
response = requests.get(url)
html_content = response.text

# 创建Word文档
doc = Document()

# 将网页内容写入Word文档
doc.add_paragraph(html_content)

# 保存文档
doc.save('path/to/your/document.docx')

ノート:

1.requestsライブラリとDocumentクラスをインポートします。

2.requests.get()関数を使用して、指定した URL に HTTP リクエストを送信し、応答内容をresponse変数に保存します。

3. response.textWeb ページの HTML コンテンツを取得し、それをhtml_content変数に保存するために使用します (https://example.comクロールされた Web ページの URL に置き換えます)。

4.Documentクラスを使用して新しい Word 文書を作成します (または既存の文書を開きます)。

5.add_paragraph()このメソッドを使用して、クロールされた HTML コンテンツを段落として Word 文書に書き込みます (必要に応じて、他のメソッドと属性を使用して文書に対してより複雑な操作を実行できます)。

6.save()メソッドを使用して、指定したパスにドキュメントを保存します (path/to/your/document.docx予想されるパスとファイル名に置き換えられます)。


 

おすすめ

転載: blog.csdn.net/qq_53079406/article/details/132090401