Pythonの爬虫類本当の小さなプロジェクト

中国の化粧品の人民共和国のライセンス生産に関連したデータに基づいて、クロールの国家管理医薬品局(FDA)

インポート要求
fake_useragentインポートユーザーエージェントから
UA =ユーザーエージェント(use_cache_server =偽、verify_ssl =偽).random 
ヘッダー= { 
    :UA 'ユーザーエージェント' 
} 
URL =「http://125.35.6.84:81/xk/itownet/portalAction。 ?「行う方法= getXkzsList 
PAGENUM = 3 
範囲(3,5)内のページのために:
    データ= { 
        'オン': '真'、
        'ページ':STR(ページ)、
        'pageSizeを': '15'、
        '商品名' : ''、
        'ConditionTypeを': '1'、
        'applyname': ''、
        'applysn': '' 
    } 
    json_text = requests.post(URL = URL、データ=データ、ヘッダ=ヘッダ)。JSON() 
    all_id_list = [] 
    json_text [ 'リスト']で辞書用: 
        2つのページデータ取得用ID =辞書[ 'ID']#
        #以下の情報は、2つのページの前に得ることができる
        。#名=辞書[ 'EPS_NAME'] 商品辞書= [ 'PRODUCT_SN'] 
        #= man_name辞書[ 'QF_MANAGER_NAME'] 
        #D1 =辞書[ 'XC_DATE'] 
        #= D2辞書[ 'XK_DATE'] 
        all_id_list.append(ID) ポストリクエストAJAXのURLである
    POST_URL = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById' 
    all_id_listでIDの:
        post_data = { 
            'ID':ID 
        } 
        レスポンス= requests.post(= POST_URL URL、データ= post_data、ヘッダー=ヘッダ) 
            #JSON解決さ
            json_text = response.json() 
        IF Response.Headers [' Content-Typeの'] =='アプリケーション / JSON。文字セット= UTF-8' :
            #print(response.json())
            プリント(json_text [ 'ビジネスマン'])

  

おすすめ

転載: www.cnblogs.com/xuange1/p/12045582.html