获取知网摘要与PDF文件

进入知网网址:http://www.cnki.net/
搜索知网关键词,例如离在岸人民币
在这里插入图片描述
顺序获取各文章题目和摘要,并优先进行PDF下载,如果没有PDF就进行CAJ下载,信息保存在items列表里。
在这里插入图片描述
下面为实现代码

# -*- coding: utf-8 -*-
"""
Created on Sun May 12 10:28:10 2019

@author: Administrator
"""

from selenium.webdriver.chrome.options import Options
from selenium import webdriver
import time
import sys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

class Item(object):
    title = None    #更:论文名
    value = None   #更:数据内容

def zhi(keyword='quantile',num=10,show=True,url='http://www.cnki.net/',download=False):
	#keyword为关键词,num为爬取页数,show为是否可视
    chrome_options = Options()
    chrome_options.add_argument('--no-sandbox')#解决DevToolsActivePort文件不存在的报错
    chrome_options._arguments = ['disable-infobars']#去掉谷歌浏览器正在被自动测试控制字样
    chrome_options.add_argument('window-size=1920x3000') #指定浏览器分辨率
    chrome_options.add_argument('--disable-gpu') #谷歌文档提到需要加上这个属性来规避bug
    chrome_options.add_argument('--hide-scrollbars') #隐藏滚动条, 应对一些特殊页面
    chrome_options.add_argument('blink-settings=imagesEnabled=false') #不加载图片, 提升速度
# =============================================================================
#     #改变下载路径
#     prefs = {"download.default_directory": r'C:\Users\Administrator\Desktop'}
#     chrome_options.add_experimental_option("prefs", prefs)
# =============================================================================
    ##加载用户信息的谷歌浏览器
    chrome_options.add_argument("--user-data-dir="+r"C:\Users\Administrator\AppData\Local\Google\Chrome\User Data") 
    if not show : chrome_options.add_argument('--headless') #浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
    driver = webdriver.Chrome(chrome_options=chrome_options)  # 调用带参数的谷歌浏览器  
    driver.maximize_window() #窗口最大化
    driver.get(url)
    print('正在加载界面....')
    wait = WebDriverWait(driver, 15)     
    wait.until(EC.presence_of_element_located((By.ID, "txt_SearchText"))).send_keys(keyword)
        #driver.find_element_by_id("txt_SearchText").send_keys('quantile')
    driver.find_element_by_xpath("//input[@class='search-btn' and @type='button']").click()
    
    #等待搜索结果显示
    wait.until(EC.presence_of_element_located((By.ID, "CDMD")))
    driver.switch_to.frame(1)
    
    i=0
    while True:
        for n in range(2,22):
            ye = i*20+n-1
            if ye > num : 
                if download :input('请输入quit,使程序结束')
                driver.quit()
                sys.exit()
            wait.until(EC.presence_of_element_located((By.XPATH,'//tr[{}]//a[@class="fz14"]'.format(n)))).click()  
            #切换到最新窗口
            windows=driver.window_handles  #获得当前浏览器所有窗口
            driver.switch_to.window(windows[-1]) #切换到最新打开窗口(注:也就是全部课程这个窗口)
            try: 
                title = wait.until(EC.presence_of_element_located((By.XPATH, "//h2[contains(@class,'title')]")))
                item = Item()
                if download :
                    try :
                        try : driver.find_element_by_id("pdfDown").click()
                        except :driver.find_element_by_id("cajDown").click()
                        driver.switch_to.window(windows[-1])
                    except :print('警告:第{}页第{}个标题为:{}\n无法下载'.format(i+1,ye,title.text))
                try : 
                    summary = driver.find_element_by_id("ChDivSummary") 
                    item.value = summary.text
                except :print('警告:第{}页第{}个标题为:{}\n不存在摘要'.format(i+1,ye,title.text))
                item.title = title.text
                items.append(item)
            except :   
                print('第%s个未加载成功'%ye)
            #time.sleep(3)
            driver.close()
            #windows=driver.window_handles  #获得当前浏览器所有窗口
            driver.switch_to.window(windows[0])
            driver.switch_to.frame(1)
        #下一页
        #driver.switch_to_default_content()
        wait.until(EC.presence_of_element_located((By.XPATH, '//a[@title="键盘的“← →”可以实现快速翻页"][last()]'))).click()
        print('提示:第{}页第{}个标题为:{}已收录成功'.format(i+1,ye,title.text))
        i += 1
if __name__ == '__main__':    
    #开始计时
    start=time.perf_counter()
    items=[]
    zhi('离在岸人民币',num=1,download=True)
    #结束计时
    end=time.perf_counter()
    total=(end-start)/60
    #计算结束时间
    current=time.time()
    current_time=time.localtime(current)
    h=current_time[3]
    h2=current_time[4]
    if h<10 : h='0'+str(h)
    if h2<10 : h2='0'+str(h2)
    print('-----------------程序已运行结束-----------------')
    print ('注:程序共运行%.2f分钟,结束时间:%s:%s' %(total,h,h2))

原创文章 27 获赞 24 访问量 2万+

猜你喜欢

转载自blog.csdn.net/u013289615/article/details/90171729
今日推荐