機能をプログラミングする際に、完全に起因する大量のコンテンツを、実現することが可能と金融・経済ニュースをクロールフェニックスのウェブサイトは、あまりにも長い間必要と、サーバーは、防止するためには、禁止されます(time.sleepすることができます)、長い時間ポイントを設定

1つの インポート要求
 2  からセレンインポートwebdriverを
 3  インポート時間
 。4  DEFのGRASP(urlT)
 。5      ドライバ= webdriver.Chrome(R&LT ' C:\プログラムファイル(x86の)Googleの\クローム\アプリケーションの\ chromedriver.exe \ '自動テストローカルプログラミングツールの場所
。6      resAll = []         つのデータを格納する
。7      REST} = {            #は、個々のデータを格納するために使用される
。8つ      のURL = []
 。9つの      RES = requests.get(urlT)
 10      のための I 範囲(0,29 ):
 11          
12          プリント(F ' 第{I + 1}条新闻开始' 13          プリント(res.json()' データ' ] [I] [ ' タイトル' ])
 14          トライ15              プリント(res.json()' データ' ] [I] [ ' newsTime ' ])
 16          を除く17              プリント' なし' 18          プリント(res.json()' データ'] [I] [ ' ソース' ])
 19。          REST [ ' タイトル' ] = res.json()[ ' データ' ] [I] [ ' タイトル' ]
 20は         試してみる21である              REST [ ' newstime ' ] = res.json ()' データ' ] [I] [ ' newstime ' ] いくつかの時間ではない
22である         以外は23である              REST [ ' newstime ' ] = 'なし"
24          残り[ ' ソース' ] = res.json()' データ' ] [I] [ ' ソース' ]
 25          URL = res.json()' データ' ] [I] [ ' URL ' ]
 26          休息[ ' URL ' ] = res.json()' データ' ] [I] [ ' URL ' ]
 27  
28          試み29  
30              driver.get(URL)
 31              time.sleep(4 図32は、              driver.find_element_by_class_name =(競合' テキスト3zQ3cZD4 ' )の.text
 33は              REST [ ' 競合' ] = STR(競合)
 34が             印刷(F ' {I + 1}端ニュースの' 35              time.sleep(6 36          除く37 [              REST [ ' 競合' ] = ' ネスト' 
38である              time.sleep(6。 39              L = driver.find_elements_by_xpath("P // [@クラス= 'テキスト3YbAxaNR'] "#は、接続の数を取得
40              S = driver.find_elements_by_xpath(" // P / A [クラス= 'テキスト3YbAxaNR' @] "すべての現在のページを取得しますリンク
41である             ため J における範囲(0、LEN(L)):
 42である                  SS = S [J] .get_attribute(' のhref ' 43が                 プリント(型(SS))
 44は、                 トライ45                      urls.append(STR(STR(SS ).split())。交換してください(' " ''').replace(" """").Replace(' [ ''').replace(' ] ''' ))リンク文字列に格納されていてもよい
46で                     プリント(URLの)
 47                  除く48                      プリント(driver.find_element_by_class_name(' トピック- 3bY8Hw 9 ')の.text) 出力ヘッダ
49          resAll.append(REST)
 50          を開くと(' ./news.txt '' A + '、エンコーディング= ' UTF-8。')Fとして:
 51                  試み52                      f.write('' .join(resAll [I] .values())+ ' \ n ' 53                  を除く54                      プリント' 写入失败' 55  
56  
57      resAll.clear ()
 58      プリント(URLの)
 59      のための K における範囲(0、LEN(URLの)):
 60          試み61              (URLの[K])driver.get
 62              time.sleep(3)
63              残り[ ' TITLE1' ] = driver.find_element_by_class_name(' トピック3bY8Hw-9 ' )の.text
 64              休息[ ' ソース1 ' ] = driver.find_element_by_class_name(' ソース2pXi2vGIは' )の.text
 65              残り[ ' newsTime1 ' ] = driver.find_element_by_xpath(' // P [クラス@ = "時間hm3v7ddj"] /スパン' ).textの
 66              残り[ ' contend1 ' ] = driver.find_element_by_class_name(' テキスト3zQ3cZD4は" ).textの
 67を             resAll.append(REST)
 68              time.sleep(4。 69              を開くと(' ./news.txt '' A + '、エンコーディング= ' UTF-8。' F AS):
 70                  (5 time.sleep 71である                  F. (書き込み'' .join(resAll [K] .valuesは())+ ' \ N- ' 72          を除いある73              印刷' あまりにも多くのコンテンツ、サーバーが禁止されている' 74  
75  
76 = URL "https://shankapi.ifeng.com/spring/finance/index/newInfoIndex/75219  #の金融API 
77 T = GRASP(URL)
コードの表示

ウェブサイト上でネスティング取得情報を達成しました、

直接使用することができます

おすすめ

転載: www.cnblogs.com/superSmall/p/11528066.html