以下は、Python クローラー ユニバーサル テンプレートの拡張バージョンです。
``` bs4 import BeautifulSoupからのPython
インポートリクエスト
# ブラウザ アクセス ヘッダーをシミュレートするリクエスト ヘッダーを設定
= { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# リクエスト送信
レスポンス =requests.get(url, headers=headers)
# Web ページの解析
Soup = BeautifulSoup(response.text, 'html.parser')
# 必要な情報を検索
info =Soup.find('div', {'class': 'info'})
# 提取信息
title = info.find('h1').text.strip()
author = info.find('span', {'class': 'author'}).text.strip()
content = info.find ('div', {'クラス': 'コンテンツ'}).text.strip()
# 存储データ据
with open('data.txt', 'w', encoding='utf-8') as f:
f.write(title + '\n')
f.write(author + '\n')
f .write(コンテンツ + '\n')
```
このテンプレートには次の手順が含まれています。
1. ブラウザーアクセスをシミュレートするようにリクエストヘッダーを設定します。
2. Web ページのコンテンツを取得するリクエストを送信します。
3. Web ページを解析するには、BeautifulSoup ライブラリを使用します。
4. 必要な情報を検索するには、find() メソッドを使用します。
5. 情報を抽出するには、text 属性とstrip() メソッドを使用します。
6. データを保存するには、open() 関数と write() メソッドを使用します。
このテンプレートはほとんどの Web クローリング タスクに適用でき、特定のニーズに応じて一部の詳細を変更するだけで済みます。