項目1:
Sogouのマイクロチャネルキーワードベースの検索の公開数
セレンインポートwebdriverをの インポートOS から BS4のインポートBeautifulSoup から selenium.webdriver.support.ui インポートWebDriverWait から selenium.webdriver.supportのインポートECとしてexpected_conditions から selenium.webdriver.common.byのインポートにより DRIVER_PATH = os.path.join(OS。 path.dirname(__FILE__)、' chromedriver.exe ' ) OPT = webdriver.ChromeOptions() opt.headless = 真 opt.add_argument(' ユーザエージェント=のMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(ヤモリのようにKHTML、)' ' クローム/ 63.0.3239.132サファリ/ 537.36 ' ) webphjs = webdriver.Chrome(executable_path = DRIVER_PATH、オプション= OPT) webphjs.get(' https://weixin.sogou.com/ ' ) _input = webphjs.find_element_by_id(' クエリ' ) 検索 =入力(' 请输入公众号关键字:' ) _input.send_keys(検索) webphjs.find_element_by_class_name (' swz2 ' ).click() 一方、 1: スープ = BeautifulSoup(webphjs.page_source、' lxmlのは' ) してみてください: new_list = soup.find(' UL '、{ ' クラス':' ニュース-LIST2 ' })。find_all(' 李' ) のために私にnew_list: タイトル = i.find(' P '、{ ' クラス':' TIT ' })。(見つける' A ')の.text wxid = i.find(' P '、{ ' クラス':' 情報' })(見つける。' ラベル' )の.text JT = {} のための項目で i.find_all(' DL ' ): キー = item.find(' DT ' ) [s.extract()のために S にキー(' スクリプト' )] キー= key.text.replace(' \ n '、'' ) 値 = item.find(' A ')又は item.find(' DD ' ) 値 = value.text.replace(' \ n '、'' ) JT [キー] = 値 プリント(' - ' * 20 ) 、印刷(' 公众号名称:{} ' 。 形式(タイトル)) 印刷("微信号:{} ' .format(wxid)) のために K、V でjt.items(): プリント(' {} {} ' .format(K、V)) ロケータ =(By.ID、' sogou_next ' ) 試してください: ELE = WebDriverWait(webphjs、3 ).until(EC.presence_of_element_located(ロケータ)) webphjs.find_element_by_id(' sogou_next ' ).click() を除く: 休憩 を除い: 印刷("このキーワードに関するコンテンツが見つかりません" ) BREAKの webphjs.close()
ヘッドレスブラウザとしてChromeを設定し、アクセスが異常表示されることがあり、それがウェブテストの自動化ソフトウェアであることが判明し、そのブラウザは、ユーザエージェントの迷彩を追加しました。