淘宝網の商品名と価格をクロールpythonの使用

私は、淘宝網の情報の一部をクロールしたかったので、自宅で開いている店のために、自宅で退屈最近、私の母は、タイトルから商品のための頭痛の種でした。

駅は少ない結果より、通常の方法登りを使用して、抗クローリングメカニズムに参加することが2019年のビデオは2018年に再び発見されて、ビデオを学ぶために小さな休憩を発見し、淘宝網。

しかし、そこにクロール、最初の淘宝網ランディングページのバージョンへの道があり、その後、クッキーとユーザーエージェントを取得し、検索します。

コードは以下の通りであります:

インポート要求が
インポート再


デフgetHTMLText(URL):
    KV = { 'クッキー': 'CNA = 54y8Fm + TyioCATzcP + BwvvDA。THW = CN; LGC =%5Cu58A8%5Cu8FF9%5Cu9519%5Cu54AF%5Cu548C。tracknick =%5Cu58A8%5Cu8FF9%5Cu9519%5Cu54AF%5Cu548C。TG = 0; ENC = p6YWWbSWACqr5t1PcdDiNADVd7zKpnQG9X%2FZ666%2Fl7CM9%2FsOLpiM1WX5QQNnS%2B5ydtOFYKtHlmwg9AgeUX0Rjg%3D%3D。MT = CI = 25_1; HNG = CN%7Czh-CN%の7CCNY%の7C156。_m_h5_tk = 9564049e168909dda591afc00632fed0_1581060181038。_m_h5_tk_enc = 69c0046fffbc1f3750258e3f8fb06eb6。V = 0; トン= a8c0eb2a0d2265808242379d7f81bf64。cookie2 = 1f0913be01a97ec8038fb3c5354c793a。_tb_token_ = ed66e3be155ef。alitrackid = www.taobao.com。_samesite_flag_ =はtrue。sgcookie = Q0iMW4gaGTiQdKuBbG0Q。UNB = 2514996592; UC3 = VT3 = F8dBxdzxpjLCa1%2BSc2Y%3D&ID2 = UU2zVEbkyyO2WQ%3D%3D&NK2 = p2NDIgVDkDZm7A%3D%3D&LG2 = VT5L2FSpMGV7TQ%3D%3D。CSG = 5b7ad9c4。cookie17 = UU2zVEbkyyO2WQ%3D%3D。DNK =%5Cu58A8%5Cu8FF9%5Cu9519%5Cu54AF%5Cu548C。SKT = c0aa8f1a6e59edcd。existShop = MTU4MTU5NTkzOQ%3D%3D。UC4 = NK4 = 0%40pVWU4YQkw8jOJbWHe0nFlK5IE6%2Bq&ID4 = 0%40U2%2F0ltjMwUTM8KkFFqREWIu1Zr5o。_cc_ = VFC%2FuZ9ajQ%3D%3D。_l_g_ =赫旭%3D%3D。SG =%E5%92%8C22。_nk _ =%5Cu58A8%5Cu8FF9%5Cu9519%5Cu54AF%5Cu548C。cookie1 = BxAV4i9dmFVSXeCQYeZRwnecoaXNB46utcHDDLh6ZgY%3D。lastalitrackid = i.taobao.com。UC1 = cookie16 = W5iHLLyFPlMGbLDwA%2BdvAGZqLg%3D%3D&cookie21 = VT5L2FSpccLuJBreK%2BBd&cookie15 = W5iHLLyFOGW7aA%3D%3D&existShop = FALSE&PAS = 0&cookie14 = UoTUO8VjZOZt2g%3D%3D&タグ= 8&LNG = zh_CNに。JSESSIONID = 214606DAA803E833B2D19064DCFFE666。ISG = BFZW9gNpFGQi5iC5GO6s0NHppwxY95oxuW-OAcC_eTnUg_cdPocWQaoxGxdvK5JJ。L = dBLXnIncQINxmF32BOCgC40XkGbTvIRfgukohvEHi_5Kv_8sGz_Oo7aMMEJ6cfWAMjxM4cULng2tieLYJiuKHdGJ4AadZxDDB」、ID4 = 0%40U2%2F0ltjMwUTM8KkFFqREWIu1Zr5o。_cc_ = VFC%2FuZ9ajQ%3D%3D。_l_g_ =赫旭%3D%3D。SG =%E5%92%8C22。_nk _ =%5Cu58A8%5Cu8FF9%5Cu9519%5Cu54AF%5Cu548C。cookie1 = BxAV4i9dmFVSXeCQYeZRwnecoaXNB46utcHDDLh6ZgY%3D。lastalitrackid = i.taobao.com。UC1 = cookie16 = W5iHLLyFPlMGbLDwA%2BdvAGZqLg%3D%3D&cookie21 = VT5L2FSpccLuJBreK%2BBd&cookie15 = W5iHLLyFOGW7aA%3D%3D&existShop = FALSE&PAS = 0&cookie14 = UoTUO8VjZOZt2g%3D%3D&タグ= 8&LNG = zh_CNに。JSESSIONID = 214606DAA803E833B2D19064DCFFE666。ISG = BFZW9gNpFGQi5iC5GO6s0NHppwxY95oxuW-OAcC_eTnUg_cdPocWQaoxGxdvK5JJ。L = dBLXnIncQINxmF32BOCgC40XkGbTvIRfgukohvEHi_5Kv_8sGz_Oo7aMMEJ6cfWAMjxM4cULng2tieLYJiuKHdGJ4AadZxDDB」、ID4 = 0%40U2%2F0ltjMwUTM8KkFFqREWIu1Zr5o。_cc_ = VFC%2FuZ9ajQ%3D%3D。_l_g_ =赫旭%3D%3D。SG =%E5%92%8C22。_nk _ =%5Cu58A8%5Cu8FF9%5Cu9519%5Cu54AF%5Cu548C。cookie1 = BxAV4i9dmFVSXeCQYeZRwnecoaXNB46utcHDDLh6ZgY%3D。lastalitrackid = i.taobao.com。UC1 = cookie16 = W5iHLLyFPlMGbLDwA%2BdvAGZqLg%3D%3D&cookie21 = VT5L2FSpccLuJBreK%2BBd&cookie15 = W5iHLLyFOGW7aA%3D%3D&existShop = FALSE&PAS = 0&cookie14 = UoTUO8VjZOZt2g%3D%3D&タグ= 8&LNG = zh_CNに。JSESSIONID = 214606DAA803E833B2D19064DCFFE666。ISG = BFZW9gNpFGQi5iC5GO6s0NHppwxY95oxuW-OAcC_eTnUg_cdPocWQaoxGxdvK5JJ。L = dBLXnIncQINxmF32BOCgC40XkGbTvIRfgukohvEHi_5Kv_8sGz_Oo7aMMEJ6cfWAMjxM4cULng2tieLYJiuKHdGJ4AadZxDDB」、taobao.com; UC1 = cookie16 = W5iHLLyFPlMGbLDwA%2BdvAGZqLg%3D%3D&cookie21 = VT5L2FSpccLuJBreK%2BBd&cookie15 = W5iHLLyFOGW7aA%3D%3D&existShop = FALSE&PAS = 0&cookie14 = UoTUO8VjZOZt2g%3D%3D&タグ= 8&LNG = zh_CNに。JSESSIONID = 214606DAA803E833B2D19064DCFFE666。ISG = BFZW9gNpFGQi5iC5GO6s0NHppwxY95oxuW-OAcC_eTnUg_cdPocWQaoxGxdvK5JJ。L = dBLXnIncQINxmF32BOCgC40XkGbTvIRfgukohvEHi_5Kv_8sGz_Oo7aMMEJ6cfWAMjxM4cULng2tieLYJiuKHdGJ4AadZxDDB」、taobao.com; UC1 = cookie16 = W5iHLLyFPlMGbLDwA%2BdvAGZqLg%3D%3D&cookie21 = VT5L2FSpccLuJBreK%2BBd&cookie15 = W5iHLLyFOGW7aA%3D%3D&existShop = FALSE&PAS = 0&cookie14 = UoTUO8VjZOZt2g%3D%3D&タグ= 8&LNG = zh_CNに。JSESSIONID = 214606DAA803E833B2D19064DCFFE666。ISG = BFZW9gNpFGQi5iC5GO6s0NHppwxY95oxuW-OAcC_eTnUg_cdPocWQaoxGxdvK5JJ。L = dBLXnIncQINxmF32BOCgC40XkGbTvIRfgukohvEHi_5Kv_8sGz_Oo7aMMEJ6cfWAMjxM4cULng2tieLYJiuKHdGJ4AadZxDDB」、
          'ユーザーエージェント': 'のMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(KHTML、ヤモリ等)クローム/ 77.0.3865.90サファリ/ 537.36'} 
    試みる:
        R = requests.get(URL、ヘッダー= KV、タイムアウト= 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding 
        戻りr.text 
    除く:
        リターン"" 


DEF parsePage(ILT、HTML):
    試してみる:
        PLT = re.findall(R '\ "view_price \" \: \ "[\ D \。] * \" 'HTML)
        TLT = re.findall(R' \ "raw_title \" \ "?* \" \」、HTML)
        iについて範囲内(LEN(PLT) ):
            価格=のeval(PLT [i]の.split( ':')[1])
            タイトル=のeval(TLT [i]の.split( ':「)[1]) 
            ilt.append([価格、タイトル])
    除く:
        "印刷(")


printGoodsList(ILT)DEF:
    TPLT = "{4} \ T {8} \ T {16}" 
    プリント(tplt.format( "序号"、 "价格"、「商品名称「))
    カウント= 0 
    ILTにおけるG用:
        カウント=カウント+ 1枚の
        プリント(tplt.format(カウント、G [0]、G [1]))


DEFメイン():
    商品= '中老年服饰' 
    深さ= 3 
    START_URL = 'https://s.taobao.com/search?q=' +グッズ
    infoList = [] 
    Iの範囲内(深さ)のために:
        試してみる:
            URL = START_URL + '&S =' + STR(44 * I)
            HTML = getHTMLText(URL)
            parsePage(infoList、HTML)
        を除きます:
            継続する 
    printGoodsList(infoList)


メイン()

 以下に示すようにクロールの最終結果:

 

 問題:

クッキー断続的に交換する必要があり、それ以外のデータは数回登る登るません。

おすすめ

転載: www.cnblogs.com/lijiahaoAA/p/12305034.html