爬虫類の学習プログラム

項目1:

Sogouのマイクロチャネルキーワードベースの検索の公開数

セレンインポートwebdriverをの
 インポートOS
 から BS4のインポートBeautifulSoup
 から selenium.webdriver.support.ui インポートWebDriverWait
 から selenium.webdriver.supportのインポートECとしてexpected_conditions
 から selenium.webdriver.common.byのインポートにより

DRIVER_PATH = os.path.join(OS。 path.dirname(__FILE__)、' chromedriver.exe ' 
OPT = webdriver.ChromeOptions()
opt.headless = 
opt.add_argument(' ユーザエージェント=のMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(ヤモリのようにKHTML、)' 
                 ' クローム/ 63.0.3239.132サファリ/ 537.36 ' 
webphjs = webdriver.Chrome(executable_path = DRIVER_PATH、オプション= OPT)
webphjs.get(' https://weixin.sogou.com/ ' 
_input = webphjs.find_element_by_id(' クエリ' 
検索 =入力(' 请输入公众号关键字:' 
_input.send_keys(検索)
webphjs.find_element_by_class_name (' swz2 ' ).click()
 一方、 1
    スープ = BeautifulSoup(webphjs.page_source、' lxmlのは' してみてください
        new_list = soup.find(' UL '、{ ' クラス'' ニュース-LIST2 ' })。find_all(' ' のためにnew_list:
            タイトル = i.find(' P '、{ ' クラス'' TIT ' })。(見つける' A ')の.text 
            wxid = i.find(' P '、{ ' クラス'' 情報' })(見つける。' ラベル' )の.text 
            JT = {}
             のための項目 i.find_all(' DL ' ):
                キー = item.find(' DT ' 
                [s.extract()のために S キー(' スクリプト' )] 
                キー= key.text.replace(' \ n '''  = item.find(' A '又は item.find(' DD '  = value.text.replace(' \ n ''' 
                JT [キー] = プリント' - ' * 20 、印刷' 公众号名称:{} ' 。
            形式(タイトル)) 印刷"微信号:{} ' .format(wxid))
             のために K、V jt.items():
                 プリント' {} {} ' .format(K、V))
        ロケータ =(By.ID、' sogou_next ' 試してください
            ELE = WebDriverWait(webphjs、3 ).until(EC.presence_of_element_located(ロケータ))
            webphjs.find_element_by_id(' sogou_next ' ).click()
         を除く休憩
    を除い印刷"このキーワードに関するコンテンツが見つかりません" BREAKの
webphjs.close()
1.000000

ヘッドレスブラウザとしてChromeを設定し、アクセスが異常表示されることがあり、それがウェブテストの自動化ソフトウェアであることが判明し、そのブラウザは、ユーザエージェントの迷彩を追加しました。

 

おすすめ

転載: www.cnblogs.com/lpapython/p/11203372.html
おすすめ