Pythonのクロール(自動化)クレソンの映画評論家、およびストレージ。

webdriverをセレンをインポート
からインポートActionChains selenium.webdriver
インポート時間

である運転席側オートメーション#紡糸されたローカルアドレス:ドライバ= webdriver.Chrome(\ Googleの\クローム\アプリケーションの\ chromedriver.exe「\プログラムファイル(x86の)はR'C)
オープニングdriver.get( 'https://accounts.douban.com/passport/login?source=movie')#ログインIMDBの
time.sleep(4)

は、イベントオブジェクトの作成
アクションを= ActionChains(ドライバ)

#をターゲット要素を取得
ログインdriver.find_element_by_class_name =( 'アカウント-アカウント-TAB')
操作が行わ
action.click(ログイン).perform()

ユーザー名= driver.find_element_by_name( 'ユーザ名')
パスワード= driver.find_element_by_name( 'パスワード')


username.send_keysを( 「********」)#は、ユーザー名、独自の変更の書き込み
password.send_keys(「*******」を)#パスワードの書く


ログインボタンを取得するために#を
loginbtn = driver.find_element_by_link_text( '登录豆瓣')
运行执行
action.click(loginbtn).perform()
time.sleep(5)

のURL = [ "をhttps://movie.douban.com/subject/26794435/comments?範囲内にiについて=%S&限界= 20&ソート= new_score&ステータス= P "%Iを開始する(0,481,20)]
、インデックス= 0
のURLにURLの:
指数+ = 1
driver.get(URL)
time.sleep(3)
データ=ドライバ。 page_source
開く( "./テンプル/%のs.html "%指標、" W"、エンコーディング= 'UTF-8')、Fとして:
f.write(データ)
time.sleep(3)
開いた状態(」./评论/评论の.text ' ''、符号化= 'UTF-8')Hとして:
() "短い" = driver.find_elements_by_class_nameを読み取る
(読み取り範囲のJ(0、lenのため)):
h.write('」.join(.textの[j]を読んで).strip()。置き換える( '\ n' を、 ''))
印刷は、( ''。の.text).strip()([j]を読んで参加する。(置き換え'\ n'は、 ''))
time.sleepを(3)
driver.close()

おすすめ

転載: www.cnblogs.com/superSmall/p/11520893.html