今日の内容:
爬虫類コース:
爬虫類の基本原理
2つの要求のライブラリリクエスト
爬虫類の基本原理
1.爬虫類とは何ですか?
爬虫類は、データをクロールしています。
2.インターネットは何ですか?
インターネットステーションコールへのネットワーク機器、コンピュータネットワークのスタック。
3、インターネットの設立の目的
データ転送とデータの共有。
4.データとは何ですか?
例えば:
製品情報の電力供給のプラットフォーム(淘宝網、Jingdongは、アマゾン)の家のリストチェーン、自由にプラットフォームを借ります
持分証券投資情報(東富、雪だるまネットワーク)■。
12306、チケット情報(グラブ票)
5.インターネットとは何ですか?
普通のユーザー:ブラウザの開くA - > URLを入力してください。..-.->をホストターゲットに要求を送信--->応答データを返すブラウザに--->描画データを
・クロラ:アナログブラウザが。---..->ホスト>はターゲット-..-に要求を送信し、応答データを返しますローカルに書き込まれて保存されたデータ(ファイルを--->解析をして--->貴重なデータを抽出します)データベースに永続
6、爬虫類の全体プロセス
1.送信要求(ライブラリ:要求/セレン)
2.取得応答データ
3.解析データ(解析ライブラリ:BeautifulSoup4)
4.保存したデータ(店舗:/ MongoDBのファイル保存)
概要:我々は、インターネットのメタファーにデータを置くことができます- -ブロックの宝物、 爬虫類は、宝を掘り、実際にあります。
インポート時の インポート要求が デフ(URL)get_page: 応答 =リクエストを。取得(URL) の戻り応答 再インポートを デフparse_index(HTML): detail_urls = re.findall( ' <divのクラスには、= "アイテム"> <クラス= "imglink"のhref = "(*)。?" ' 、HTML、再.S) プリント(detail_urls) のリターンはdetail_urls :DEF(HTML)parse_detail movie_url = re.findall(' <元SRC = "(*。?)"> ' 、HTML、re.S)を 場合movie_url: インポートUUID DEF save_video(コンテンツ): オープンと(F ' {uuid.uuid4()} MP4 '、' WB ')としてF: f.write(コンテンツ) プリント(' 下载完毕' ) 場合 __name__ == ' __main__ ' : のためのラインで範囲(6 ): URL = F ' http://www.xiaohuar.com/list-3-{line}.html ' 応答 = get_page(URL) detail_urls =parse_index(response.text) 用 detail_url でdetail_urls: プリント(detail_url) detail_res = get_page(detail_url) movie_url = parse_detail(detail_res.text) 場合movie_url: プリント(movie_url) movie_res = get_page(movie_url) save_video(movie_res.content)