[Pythonの] []クロールの爬虫類は、犬の音楽ネットワーク赤い曲のリストを冷却します

原則:私の最後のブログ記事

インポート要求は
 、インポート時に
 から BS4の輸入BeautifulSoup 


デフget_html(URL):
     '' ' 
    获得HTML 
    ''' 
    ヘッダ = {
         ' ユーザーエージェント'" Mozillaの/ 5.0(Windows NTの10.0; Win64の、x64の)のAppleWebKit / 53 \ 
        7.36( KHTML、ヤモリなど)クローム/ 75.0.3770.142サファリ/ 537.36 " 
    } 
    応答 = requests.get(URL、ヘッダ= ヘッダ)
     場合 response.status_code == 200 リターンはresponse.text
     リターン


DEFのget_infos(HTML):
     '' ' 
    を抽出したデータを
    ' '' 
    HTML = BeautifulSoup(HTML)
     
    にランク= html.select(' #rankWrap> div.pc_temp_songlist> UL>李> span.pc_temp_num ' シンガー+歌の 
    名前html.select =(' #rankWrap> div.pc_temp_songlist> UL>李> A ' 再生時間 
    時間= html.select(' #rankWrap> div.pc_temp_songlist> UL>李> span.pc_temp_tips_r>スパン'

    #の印刷情報
    のための R&LT、N-、T ジップ(ランク、名前、回):
        R = r.get_text()(置き換える。' \ nは''').replace(' \トン''').replace(' \ rを''' 
        n個 = n.get_text()
        T = t.get_text()。置き換える(' N \ ''').replace(' \ T ''').replace(' \ R '''
        データ = {
             'ランキング' :R&LT、
             ' 歌-歌手' :N-、
             ' 再生時間' :Tは
        } 
        印刷(データ)


DEF メイン():
     ' '' 
    マスタインタフェース
    '' ' 
    のURL = [ ' HTTPS://www.kugou。 ?COM / YY /ランク/ホーム/ {} -ランクから23784.html = " 
                .format(STR(I))のための I における範囲(1 ,. 6。])
     のための URL のURL:
        HTML = get_html(URL)
        get_infos( HTML)
        時間。睡眠( 1 


もし __name__ == ' __main__ ' 
    main()の

結果:

おすすめ

転載: www.cnblogs.com/HGNET/p/12083066.html