사진 게으른 로딩
#图片懒加载 에서 lxml이 수입 etree의 가져 오기 요청 헤더 = { ' 사용자 에이전트 ' : ' 모질라 / 5.0 (윈도우 NT 10.0; Win64를; 64) AppleWebKit / 537.36 (KHTML, 도마뱀 붙이 등) 크롬 / 76.0.3809.87 사파리 / 537.36 ' } URL = " http://sc.chinaz.com/tupian/fengjingtupian_%d.html ' FP = 개방 ( ' fengjing.txt ' , ' w ' , 인코딩 = " UTF-8 " ) 에 대한 페이지 의 범위 ( 1 , (5)) 의 경우 페이지 == 1 : NEW_URL = ' http://sc.chinaz.com/tupian/fengjingtupian.html을 ' 다른 : NEW_URL = 형식 (URL의 %의 페이지) page_text = 요청. 수 (URL = NEW_URL, 헤더 = 헤더)는 .text 나무 = etree.HTML (page_text) div_list = tree.xpath ( ' // * / DIV [ID = "용기"@] ' ) 에 대한 DIV 에 div_list : img_title = DIV .xpath ( ' ./p/a/text () ' ) 0] 함수 .encode ( ' ISO-8859-1 ' ) .decode ( " UTF-8 " ) #图片懒加载 img_src = div.xpath ( ' ./ DIV / A / IMG / @의 SRC2 ' ) [ 0 ] 함량 = + img_title ' : ' + img_src + ' \ n ' fp.write (콘텐츠) fp.close ()
QQ 공간 시뮬레이션 로그인
에서 셀레늄 수입 webdriver 에서 시간을 가져 수면 #指定驱动位置 드라이버 = webdriver.Chrome (executable_path = ' chromedriver.exe ' ) URL = ' https://qzone.qq.com/ ' 드라이버. 얻기 (URL) driver.switch_to.frame ( ' login_frame ' ) m = driver.find_element_by_id ( ' switcher_plogin ' ) 인쇄 (m) m.click () driver.find_element_by_id ( ' U ' ) .send_keys ( ' 用户名' ) driver.find_element_by_id ( ' P ' ) .send_keys ( ' 密码' ) driver.find_element_by_id ( ' login_button ' ) .click () 수면 ( 3 ) page_text = driver.page_source 인쇄 (page_text) driver.quit ()
# 약물 사용 셀레늄 크롤링 홈 비즈니스 이름의 약국 ( (1) - 5)
에서 셀레늄 가져 webdriver 에서 시간 가져 슬립 # 브라우저 드라이버 지정 드라이버 = webdriver.Chrome (= R & 중위 executable_path ' chromedriver.exe ' ) GET의 오픈 페이지와 # 드라이버. GET ( ' http://125.35.6.84:81/xk/을 ' ) FP = 열기 ( ' 제약사가 .txt ' , ' W ' , 인코딩 = " UTF-8. ' ) 에 대한 페이지 의 범위 ( 1. , 6. ) : IF == 페이지 . 1 : 경로 = ' pageIto_first ' 밖의 : 경로 = F ' pageIto_first 페이지 {} " #의 WYSIWYG를 driver.find_element_by_id (경로) .click () SLEEP ( . 3 ) a_list = driver.find_elements_by_xpath ( ' // '* @ ID =" gzlist "] / 리 / DL / A ' ) 에 대한 에 a_list : MSG = a.text fp.write (MSG + ' \ N- ' ) 이 전단 (F ' 취득한 페이지 데이터 {} 페이지 완료 ' )
fp.close () driver.close ()