Pythonのトレーニング3

アフタースクールの概要「クローラ」は、登山を開始するためにああ理解していない爬虫類の原理インターネットがある何1.? は、    ネットワーク機器、プラットフォームが一緒にそれを呼び出すために、コンピュータのインターネットの束を指しインターネットのため。?2.インターネットの確立を目的と
#の    目的は、インターネットの転送とデータを共有データ確立することです3 ..インターネットの全体のプロセス:
#を     通常のユーザー:
#は     、要求を送信するために標的部位にブラウザを>開きます>応答データをフェッチ- >ブラウザにレンダリング     -クローラ:
#は       ブラウザをシミュレート- >標的部位への送信要求は、>>データ抽出貴重の応答データをフェッチ>データに永続4。インターネットの全体のプロセス:       通常のユーザー:
#は       のリクエストを送信するために標的部位にブラウザA>を開く>応答データa>は、ブラウザにレンダリングフェッチ       -クローラ:
#の       シミュレートブラウザA>標的部位にリクエストを送信しますA>貴重を抽出するために応答データ>データをフェッチ>データに永続ブラウザは何5.要求?送信       HTTPプロトコル要求を。       -クライアント:
#の       ブラウザはソフトウェアである- >クライアントIPおよびポート       サーバー       HTTPS:.. / / JD WWW COM /        www.jd. COM(Jingdongはドメイン名) - > DNSの解析- > JingdongはサーバーのIPとポート
#1        - -クライアントのIPアドレスとポート-サーバに要求を送信する> IPとポートは、対応するデータを取得するためのリンクを確立することができます。6クローラープロセス全体の
#の       送信要求
#は       (限り、サーバへの送信要求として、リクエストがレスポンスデータで返されます)応答データをフェッチ-パースと抽出データ(パースライブラリが必要です、BeautifulSoup4、XPathの再...) - 保存ローカル       (ファイル処理、データベース、MongoDBのリポジトリ)インポート要求の
#のレスポンス= requests.get(URL = 'HTTP://www.baidu.com/') response.encoding = 'UTF-8'
#1 プリント(response.text) Fとしてオープンと( 'baidu.html'、 'W'、エンコード= 'UTF-8'):
#1        f.write(response.text) インポート要求
#1 応答= requests.get ( 'https://video.pearvideo.com/head/20190625/cont-1570107-14056273.mp4') プリント(response.content) :Fとして( 'WB'、 '视频.MP4')オープンと       f.write(response.content)
のインポート要求
 のインポートを再
応答 = requests.get(' https://www.pearvideo.com/ ' プリント(response.text)
res_list = re.findall("<HREF = "ビデオ_(*。?)" 'response.text、re.S)
 プリント(res_list)
 について v_id res_list:
      detail_url = ' https://www.pearvideo.com/video " + v_id
       プリント( detail_url)

 

おすすめ

転載: www.cnblogs.com/ys88/p/11094735.html