Day01、Pythonの爬虫類の基礎

今日の内容:

爬虫類コース:

爬虫類の基本原理

2つの要求のライブラリリクエスト

爬虫類の基本原理

1.爬虫類とは何ですか?

爬虫類は、データをクロールしています。

2.インターネットは何ですか?

インターネットステーションコールへのネットワーク機器、コンピュータネットワークのスタック。

3、インターネットの設立の目的

データ転送とデータの共有。

4.データとは何ですか?

例えば:

製品情報の電力供給のプラットフォーム(淘宝網、Jingdongは、アマゾン)の家のリストチェーン、自由にプラットフォームを借ります

持分証券投資情報(東富、雪だるまネットワーク)■。

 12306、チケット情報(グラブ票)

5.インターネットとは何ですか?

普通のユーザー:ブラウザの開くA - > URLを入力してください。..-.->をホストターゲットに要求を送信--->応答データを返すブラウザに--->描画データを

・クロラ:アナログブラウザが。---..->ホスト>はターゲット-..-に要求を送信し、応答データを返しますローカルに書き込まれて保存されたデータ(ファイルを--->解析をして--->貴重なデータを抽出します)データベースに永続

6、爬虫類の全体プロセス

1.送信要求(ライブラリ:要求/セレン)

2.取得応答データ

3.解析データ(解析ライブラリ:BeautifulSoup4)

4.保存したデータ(店舗:/ MongoDBのファイル保存)

概要:我々は、インターネットのメタファーにデータを置くことができます- -ブロックの宝物、 爬虫類は、宝を掘り、実際にあります。

 

インポート時の
インポート要求が
デフ(URL)get_page:
    応答 =リクエストを。取得(URL)
     の戻り応答

再インポートを
デフparse_index(HTML):
    detail_urls = re.findall(
         ' <divのクラスには、= "アイテム"> <クラス= "imglink"のhref = "(*)。?" ' 、HTML、再.S)
    プリント(detail_urls)
    のリターンはdetail_urls 

:DEF(HTML)parse_detail 
    movie_url = re.findall(' <元SRC = "(*。?)"> ' 、HTML、re.S)を
     場合movie_url:
        

インポートUUID 
DEF save_video(コンテンツ):
    オープンと(F ' {uuid.uuid4()} MP4 '' WB 'としてF:
        f.write(コンテンツ)
        プリント(' 下载完毕' 

場合 __name__ == ' __main__ ' のためのライン範囲(6 ):
        URL = F ' http://www.xiaohuar.com/list-3-{line}.html ' 
        応答 = get_page(URL)
        detail_urls =parse_index(response.text)
          detail_url detail_urls:
            プリント(detail_url)
            detail_res = get_page(detail_url)
            movie_url = parse_detail(detail_res.text)
             場合movie_url:
                プリント(movie_url)
                movie_res = get_page(movie_url)
                save_video(movie_res.content)

 

 

 

おすすめ

転載: www.cnblogs.com/zhoujie333/p/11114076.html