放棄するエントリからday02パイソン---- IMDBのTop250をクロール

実験環境python3.7の窓10

ライブラリを使用します

インポート要求を
再インポート

 

ページのソースを取得
DEF GET_DATA(URL):
    レスポンス = requests.get(URL)
     の戻り応答
正则匹配找寻所需数据
デフPrint_Data(RES):
    Data_Temp = re.findall(。?<DIV CLASS = "アイテム"> * <EMクラス= "">(*)</ em>の*。?。? 。?(。*?)。?<a href="(.*?)"> * <スパンクラス= "タイトル"> </ span>を* <Pクラス= ""> *导演:。?(*。 ?)&NBSP *主演:。?。?。?(*)<BR> * <スパンクラス= "rating_num"プロパティ= "V:平均">。?(*)</ span>の" 、RES、re.S )
     を返す Data_Tempを
#の書き込みテキスト出力印刷情報
DEF Save_Data(FILE_NAME、FILE_CONTENT):
    トップ、URL、名前、ディレクター、パフォーマー、コメント = FILE_CONTENT 
    データ = F '' ' 
    =============== ============= 
    映画ランキング:{トップ} 
    ムービーリンク:{URL} 
    映画名:{名前} 
    映画監督:{}ディレクター
    映画主演:{}パフォーマー
    映画のレビュー:コメント{} 
    = =========================== 
    \ N- 
    '' ' 
    印刷(データ)
    オープンと(file_name.replace(' / ' ' _ ")+ " .TXT ""Aエンコード= ' UTF-8 ' Fとして):
        f.write(データ)
        f.close()を
函数测试实现 
Head_Agreement = ' HTTPS ' 
ドメイン = ' movie.douban.com ' 
ポート = ' 443 ' 
FILE_NAME = ' top250 =開始?' 
のためのTmp における範囲(0,226,25 ):
    URL_LINK = Head_Agreement + ' :// ' +ドメイン+ ' ' +ポート+ ' / ' + FILE_NAME + STR(TMP)
    RES = Get_Data(URL_LINK)
    データ =Print_Data(Res.text)
     のための映画ののデータ:
        Save_Data(' 映画' 、映画)
 、印刷' 印刷ムービーが行わワーキング!'

ここでは完全なコードの実装があります

インポート要求が
 インポート

DEF :Get_Data(URL)
    応答 = requests.get(URL)
     の戻り応答

デフPrint_Data(RES):
    Data_Temp = re.findall(。?<DIV CLASS = "アイテム"> * <EMクラス= "" >(。*?)</ em>の。*?<a href="(.*?)">。*?<スパンクラス= "タイトル">(。*?)</ span>を。*?<Pクラス= ""> *导演:。?&NBSP *主演(*。?):。?。?(。*?)<BR> * <スパンクラス= "rating_num"プロパティ= "V:平均">(* ?)</ span>の" 、RES、re.S)
     を返すData_Temp 

デフSave_Data(FILE_NAME、file_content):
    トップ、URL、名前を、ディレクター、パフォーマー、コメント= file_content 
    データ = F'' ' 
    ============================ 
    {トップ}:動画ランキング
    動画リンク:{URL} 
    作品名:{名前} 
    フィルムディレクター:{}ディレクター
    映画主演:{}パフォーマー
    映画のレビュー:コメント} { 
    ============================ 
    \ N- 
    '' ' 
    プリント(データ)
    を開くと(file_name.replace(' / '' _ ')+ " .txtファイル"" A "、エンコード= ' UTF-8 ' )、F AS:
        f.write(データ)
        f.close( )

Head_Agreement = "HTTPS' 
ドメイン = ' movie.douban.com ' 
ポート = ' 443 ' 
FILE_NAME = ' top250 =開始?' 
のためのTmp における範囲(0,226,25 ):
    URL_LINK = Head_Agreement + ' :// ' +ドメイン+ ' ' +ポート+ ' /  + FILE_NAME + STR(TMP)
    RES = Get_Data(URL_LINK)
    データ = Print_Data(Res.text)
     のための映画ののデータ:
        Save_Data(映画、映画)
 、印刷印刷ムービーが行わワーキング!

 

おすすめ

転載: www.cnblogs.com/tankfaledeblog/p/11123331.html