Jingdongは製品情報をクロールday03

(A)一次クロール:

インポート時間
 から selenium.webdriver.common.keys インポートキー
 からセレンインポートwebdriverを

ドライバ(R = webdriver.Chrome ' :chromedriver.exe \ \ Pythonの\スクリプトD ' 
NUM = 1
 トライ
    driver.implicitly_wait( 10 往京东发送请求 
    driver.get(' http://www.jd.com/ ' 

    input_tag = driver.find_element_by_id(' キー' 
    input_tag.send_keys(' 墨菲定律'
    input_tag.send_keys(Keys.ENTER)

    time.sleep( 3 

    good_list = driver.find_elements_by_class_name(' GL-項目' のために良いgood_list:
         #1 プリント(良い)
        商品名字 
        good_name = good.find_element_by_css_selector(' .P名EM ' )の.text
         #の印刷(good_name) 

        商品链接详情 
        good_url = good.find_element_by_css_selector(' .P-名A ').get_attribute(' HREF " 印刷(good_url) 

        商品価格 
        good_price = good.find_element_by_class_name(' P-価格' )の.text
         #の印刷(good_price)

        製品レビュー 
        good_commit = good.find_element_by_class_name(' P-コミット' ).textの

        good_content = F '' ' 
        NUM = {NUM} 
        製品名:{} good_name 
        製品リンク:{} good_url 
        商品価格:{} good_price 
        製品レビュー:good_commit} { 
        \ N- 
        '' ' 
        印刷(good_content)
        オープン(と' jd.txt ' 'A 'エンコード= ' UTF-8 ' Fとして):
            f.write(good_content)
        NUM + = 1枚の
     プリント' 商品写入完毕... ' 

    next_tag = driver.find_element_by_class_name(' PN-NEXT 
    next_tag。クリック()

最後に
    driver.close()

(II)の中間体は、クロール

インポート時間
 から selenium.webdriver.common.keys インポートキー
 からセレンインポートwebdriverを

ドライバ(R = webdriver.Chrome ' :chromedriver.exe \ \ Pythonの\スクリプトD ' 
NUM = 1
 トライ
    driver.implicitly_wait( 10 往京东发送请求 
    driver.get(' http://www.jd.com/ ' 

    input_tag = driver.find_element_by_id(' キー' 
    input_tag.send_keys(' 墨菲定律' 
    input_tag.send_keys(Keys.ENTER)

    time.sleep( 5 下拉滑动5000px 
    js_code = '' ' 
    window.scrollToは(0,5000)
    ''' 
    driver.execute_script(js_code)

    time.sleep( 3 

    good_list =ドライバ。 find_elements_by_class_name(' GL-アイテム' のための良い:good_list
         プリント(良い)
        商品名字 
        good_name = good.find_element_by_css_selector(' .P名EM ' )の.text
         プリント(good_name) 

        プロダクトリンクの詳細 
        good_url = good.find_element_by_css_selector(' .P-名のA ').get_attribute(' HREF ' #の印刷(good_url) 

        商品価格 
        good_price = good.find_element_by_class_name(' P--。価格' )の.text
         #の印刷(good_price )

        #の製品レビュー 
        good_commit = good.find_element_by_class_name(' P-コミット' )の.text 

        good_content = F '' ' 
        NUM = NUM} { 
        商品名:{} good_name 
        商品リンク:{} good_url
        製品価格:{good_price} 
        製品レビュー:good_commit} { 
        \ N- 
        '' ' 
        プリント(good_content)
        を開くと(' jd.txt ' ' A 'エンコーディング= ' UTF-8。" F AS):
            f.write(good_content )
        NUM + = 1つの。
     印刷' 財の書き込みが完了している... ' 

    next_tag = driver.find_element_by_class_name(' PN-次' 
    next_tag.click()

最後に
    driver.close()

(C)シニアクロール

インポート時間
 から selenium.webdriver.common.keys インポートキー
 からセレンインポートwebdriverを用

ドライバ = webdriver.Chrome(R ' :\ Pythonの\スクリプト\ chromedriver.exe D ' DEF get_good(ドライバ):
    NUM = 1
     トライ

        time.sleep ( 5 下拉滑动5000px 
        js_code = '' ' 
        window.scrollToは(0,5000)
        ''' 
        driver.execute_script(js_code)

        time.sleep( 5 

        good_listDriver.find_elements_by_class_name =(' GL-項目' のために良いgood_list:
            印刷(グッド)
            #の商品名 
            good_name = good.find_element_by_css_selector(' .P名EM ' )の.text
             #の印刷(good_name) 

            商品の詳細は、リンク 
            good_urlをgood.find_element_by_css_selector =(' .P-名のA ').get_attribute(' HREF ' #の印刷(good_url) 

            商品
            = good.find_element_by_class_name good_price(' P-価格。' )の.text
             #の印刷(good_price) 

            製品レビュー 
            good_commit = good.find_element_by_class_name(' P-コミット' ).textの

            good_content = F '' ' 
            NUM = NUM} { 
            商品名: {} good_name 
            製品リンク:{} good_url 
            商品価格:{} good_price 
            製品レビュー:good_commit} { 
            \ N- 
            '' ' 
            印刷(good_content)
            オープン(と' jd.txt ' 'A'エンコード= ' UTF-8。' :F AS)
                f.write(good_content)
            NUM + = 1つの。印刷' グッズ書き込みが完了している... ' 
        next_tag = driver.find_element_by_class_name(' PN-次" 
        next_tag.click ()
        time.sleep( 5。 )
         自体が関数の再帰呼び出し        get_good(ドライバ)最後に
        driver.close()IF __name__ == ' __main__ ' 
    ドライバ = webdriver.Chrome(R&LT

        




    

 ' D:Pythonの\スクリプト\ chromedriver.exe \ ' の試行
        driver.implicitly_wait( 10 Jingdongの送信要求に 
        driver.get(' http://www.jd.com/ ' 

        input_tag = driver.find_element_by_id(" キー' 
        input_tag.send_keys(' マーフィーの法則" 
        input_tag.send_keys(Keys.ENTER) 
        製品情報取得するための関数を呼び出して
        )ドライバー(get_goodを
     最後に
        driver.close()

 

おすすめ

転載: www.cnblogs.com/changgeyimeng/p/11128262.html
おすすめ