Python クローラー ユニバーサル テンプレートの拡張バージョン

以下は、Python クローラー ユニバーサル テンプレートの拡張バージョンです。

``` bs4 import BeautifulSoupからのPython
インポートリクエスト

# ブラウザ アクセス ヘッダーをシミュレートするリクエスト ヘッダーを設定
= {     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# リクエスト送信
レスポンス =requests.get(url, headers=headers)

# Web ページの解析
Soup = BeautifulSoup(response.text, 'html.parser')

# 必要な情報を検索
info =Soup.find('div', {'class': 'info'})

# 提取信息
title = info.find('h1').text.strip()
author = info.find('span', {'class': 'author'}).text.strip()
content = info.find ('div', {'クラス': 'コンテンツ'}).text.strip()

# 存储データ据
with open('data.txt', 'w', encoding='utf-8') as f:
    f.write(title + '\n')
    f.write(author + '\n')
    f .write(コンテンツ + '\n')
```

このテンプレートには次の手順が含まれています。

1. ブラウザーアクセスをシミュレートするようにリクエストヘッダーを設定します。
2. Web ページのコンテンツを取得するリクエストを送信します。
3. Web ページを解析するには、BeautifulSoup ライブラリを使用します。
4. 必要な情報を検索するには、find() メソッドを使用します。
5. 情報を抽出するには、text 属性とstrip() メソッドを使用します。
6. データを保存するには、open() 関数と write() メソッドを使用します。

このテンプレートはほとんどの Web クローリング タスクに適用でき、特定のニーズに応じて一部の詳細を変更するだけで済みます。

おすすめ

転載: blog.csdn.net/weixin_73725158/article/details/131411558