python3シンプルな爬虫類爬虫類の環境設定+ソースコード(ように良い爬虫類を再生することができます白)

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/gudada010/article/details/95508630

1.pycharm爬虫類の環境設定

I.最初に、あなたはpycharmを開く必要があります。
ここに画像を挿入説明
第二に、必要なモジュールを導入

1. pycharm、ファイルを探し、[設定]をクリック
ここに画像を挿入説明
+右クリックし、2.プロジェクトの通訳をしてオープン見つけます

ここに画像を挿入説明
3.インポートモジュールピップ、ピップ検索およびインポート

ここに画像を挿入説明
同様に、各検索要求とlxmlのモジュールとインポート
、それを3.7.2にバージョン注lxmlのモジュールをインポートすることを選択した
私たちは、データを取得するために、XPath、後にバージョン3.7.2でlxmlの何etreeは影響力ではないので、ここに画像を挿入説明
環境にここに構成された成功!

2.小​​型の爬虫類 - 猫の目のムービーデータをクロール

ソースコード(コピーは直接使用することができます)

訪問猫の目は、かつての映画のリスト10です
URL:https://maoyan.com/boardは、
右のクロールに関するデータを確認するためにサイトを入力することができます

import requests
from lxml import etree

# 得到一个网页数据
def getonepage():

    # 网址
    url = 'https://maoyan.com/board'

    # 模拟浏览器
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}

    # 访问网站获取网站数据
    r = requests.get(url, headers=header)

    # 返回网站数据文本
    return r.text


# 处理并输出网页数据
def parse(text):

    # 处理网站数据文本
    html = etree.HTML(text)

    # 获取指定位置网站数据
    names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title')  # 获取电影名

    releasetimes = html.xpath('//div[@class="movie-item-info"]/p[@class="releasetime"]/text()')  # 获取电影上映时间

    # 将电影名和上映时间绑定在一起输出
    for name, releasetime in zip(names, releasetimes):
        print(name, releasetime)


# 将获取的数据赋值给text
text = getonepage()


# 处理并输出网页数据
parse(text)

クロール結果:
ここに画像を挿入説明

3.おわりに

ここでは、小さな爬虫類をマスターしている
強力なクローラプロジェクトは、多くの環境を設定する必要があります(ここではごく一部)で、実際にされた
私は、この記事を書いています白エディタ
まず、後で戻ってくることができます忘れて見て
他の第2の白に彼らの学習体験を共有しようとしている
あなたがこの記事を読んで希望のお手伝いをすることができ、兄スプレーしない
道路にはまだ、私を

おすすめ

転載: blog.csdn.net/gudada010/article/details/95508630
おすすめ