爬虫類クロール映画天国(リクエスト)

サイトのコンテンツを取得するには、コードをhttps://www.dytt8.net/サイトを開く必要があります
から urllib.request インポート urlopen #はurlopen取得
輸入
配信 = urlopen(https://www.dytt8.net/ ) .read()。(デコード" GBKの" 最新映画の一部へのリンクを取得正規表現に一致する文字列 
LST = re.findall(最新映画ダウンロードする</a>] <のhrefを=「( 。* ? ')" コンテンツ、re.S)

のための項目LST:
    3.スプライシングURLサブページ 
    one_page_content = urlopen(" https://www.dytt8.net/ アイテム+).read()。デコード(" GBK " 
    one_page_lst = re.findall(
         " <divの上記のid = "ズーム">。*?◎タイトルの\ U3000(。*?)<br /> 。*?< スタイル= TD "ワードラップ:BREAK-Wordの" BGCOLOR = "#1 fdfddf"> <aのhref="(.*?)"> " 
        one_page_content、re.S)
    印刷(one_page_lst) 

4は、映画の名前を取得し、 TXTファイルに保存された動画のリンク 
    MOVIE_NAMEは=再生されている  one_page_lstを[0] [0] 
    DOWNLOAD_URL = one_page_lst [0] [1 ]
     #のファイル操作 
    =オープン(F " movie.txt "、MODE = " W "、エンコード= " UTF-8 "
    F.write(" 作品名:" + MOVIE_NAMEは+再生されている" \ N- " 
    f.write(" ダウンロードリンク:" + DOWNLOAD_URL)
     印刷" 完全" 
    f.close()

 

おすすめ

転載: www.cnblogs.com/tengteng0520/p/11275537.html