water爬虫

#–author–吴磊@Nick
import datetime
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
import time

browser = webdriver.PhantomJS()
print(“打开网页中。。。”)
browser.get(“http://123.127.175.45:8082/”)
print(“网页响应中。。。”)
wait = WebDriverWait(browser, 20)
wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME,“grid”)))
print(“获取网页数据中。。。”)
time.sleep(10)
soup = BeautifulSoup(browser.page_source,“lxml”)
browser.close()
data_head = soup.select(".panel-heading")[0]
grid_data = soup.select(".grid")[0]
data_colhead = data_head.findAll(“td”)
data_rows = grid_data.findAll(“tr”)
water_df = pd.DataFrame(columns=[c.text for c in data_colhead])
print(“提取网页数据中。。。”)
for i,data_row in enumerate(data_rows):
water_loc = water_df.iloc[:,0].values
water_data = water_df.iloc[:,1].values
row_dat = [r.text for r in data_row]
water_df.loc[i] = row_dat
#系统时间
data_str = datetime.datetime.now().strftime(’%Y_%m_%d’)
#修改保存路径
water_df.to_csv(“C:/Users/Clearer/Desktop/python/selenium/%s_国家地表水水质自动监测系统监测数据.csv”
% (data_str),index=None,encoding=“GB18030”)
print(“数据提取完成！！！”)

Ramenbear

发布了34 篇原创文章 · 获赞 34 · 访问量 1109

私信关注

猜你喜欢