#アフタースクールの概要 #「クローラ」は、登山を開始するためにああ理解していない #爬虫類の原理 #インターネットがある何1.? #は、 ネットワーク機器、プラットフォームが一緒にそれを呼び出すために、コンピュータのインターネットの束を指しインターネットのため。 #?2.インターネットの確立を目的と #の 目的は、インターネットの転送とデータを共有データ確立することです #3 ..インターネットの全体のプロセス: #を 通常のユーザー: #は 、要求を送信するために標的部位にブラウザを>開きます>応答データをフェッチ- >ブラウザにレンダリング # -クローラ: #は ブラウザをシミュレート- >標的部位への送信要求は、>>データ抽出貴重の応答データをフェッチ>データに永続 #4。インターネットの全体のプロセス: # 通常のユーザー: #は のリクエストを送信するために標的部位にブラウザA>を開く>応答データa>は、ブラウザにレンダリングフェッチ # -クローラ: #の シミュレートブラウザA>標的部位にリクエストを送信しますA>貴重を抽出するために応答データ>データをフェッチ>データに永続 #ブラウザは何5.要求?送信 # HTTPプロトコル要求を。 # -クライアント: #の ブラウザはソフトウェアである- >クライアントIPおよびポート # サーバー # HTTPS:.. / / JD WWW COM / # www.jd. COM(Jingdongはドメイン名) - > DNSの解析- > JingdongはサーバーのIPとポート #1 - -クライアントのIPアドレスとポート-サーバに要求を送信する> IPとポートは、対応するデータを取得するためのリンクを確立することができます。 #6クローラープロセス全体の #の 送信要求 #は (限り、サーバへの送信要求として、リクエストがレスポンスデータで返されます)応答データをフェッチ-パースと抽出データ(パースライブラリが必要です、BeautifulSoup4、XPathの再...) - 保存ローカル # (ファイル処理、データベース、MongoDBのリポジトリ) #インポート要求の #のレスポンス= requests.get(URL = 'HTTP://www.baidu.com/') #response.encoding = 'UTF-8' #1 プリント(response.text) #Fとしてオープンと( 'baidu.html'、 'W'、エンコード= 'UTF-8'): #1 f.write(response.text) #のインポート要求 #1 応答= requests.get ( 'https://video.pearvideo.com/head/20190625/cont-1570107-14056273.mp4') #プリント(response.content) #:Fとして( 'WB'、 '视频.MP4')オープンと # f.write(response.content) のインポート要求 のインポートを再 応答 = requests.get(' https://www.pearvideo.com/ ' ) プリント(response.text) res_list = re.findall("<HREF = "ビデオ_(*。?)" 'response.text、re.S) プリント(res_list) について v_id でres_list: detail_url = ' https://www.pearvideo.com/video " + v_id プリント( detail_url)