Pythonの爬虫類:クロールエンドウAPP最初のページデータ情報(クローラトリロジー)

''」
爬取豌豆荚アプリ数据
-请求URL:
          ページ1:
           HTTPS:/ / WWW。wandouj IA。COM / wdjweb / API /カテゴリ/以上?
           CATID = 6001&subCatId = 0&ページ= 2&ctoken = vbw9lj1sRQsRddx0hD-XqCNF 
''」
#1发送请求 
インポート再
インポート要求
BS4インポートBeautifulSoupからは
デフ(URL)をget_page:
    requests.get(URL)
#2.解析数据デフparse_data(テキスト):
    スープ= BeautifulSoup(テキスト、 'lxmlの')
    プリント(スープ)
    li_list = soup.find_all(名= 'リー'、クラス_ = 'カード') プリント(li_list)
    li_list中のLiのために:
        プリント(LI)
        APP_NAME =李。 (名前= 'A'を見つけ、


 
        印刷( 'タンク' * 100) 
        印刷(APP_NAME)
        qpp_url = li.find(名= 'A'、クラス_ = '名前')。attrs.get( 'のhref' )
        印刷(qpp_url)

        download_num = li.find(名= 'スパン'、_ =クラスのインストール-COUNT ')テキスト。
        印刷(download_num)

        APP_SIZE = li.find(名= 'スパン'、attrsには= { "タイトル": 。re._compile( '\ MB + D')})テキスト
        印刷(APP_SIZE)

        App_Dataに= '' ' 
        ゲーム名:{} 
        ゲームアドレス:{} 
        ダウンロード数:{} 
        ゲームサイズ:{} 
        \ N- 
        ' ''。フォーマット(APP_NAME、qpp_url、download_num、app_size) 
        プリント(App_Dataに)
        オープン( 'wandoujia.text'と、 ''、エンコード= 'UTF-8')、Fのように: 
            f.write(App_Dataに)
            f.flush()


IF __name__ ==' __main__「:
    範囲内の行を( 1,31): 
        URL =「HTTPS:?.. / / WWW wandouj IA COM / wdjweb / API /カテゴリ/ CATIDより= 6001 = 0&&subCatId 2ページ= {} =&ctoken vbw9lj1sRQsRddx0hD-XqCNF'.format (ライン)
        印刷(URL)#1.送信要求
        #インターフェイスへの応答データの送信要求をフェッチ         レスポンス= get_page(URL) 印刷(response.text)
        輸入JSON 
        #json.loads(response.text)
        印刷(タイプ(応答.jason())) 印刷(タイプ(response.text)) 印刷( 'タンク' * 1000) は、PythonのJSON辞書にデータ形式を変換し
         たデータ= response.json() 印刷(データ[ '状態' ])
        を印刷(data.get( '国家')。GET( 'コンテンツ'))

        


        



        parse_data(タイプ(response.text))

  

おすすめ

転載: www.cnblogs.com/Auraro997/p/11130417.html