pycharm中python爬取知网论文信息并保存在Excel中（1） - 代码天地

pycharm中python爬取知网论文信息并保存在Excel中（1）

其他 2020-02-17 14:42:31 阅读次数: 0

#C:\Users\Dell\PycharmProjects\scratch_one\20200208_paper.xlsx最终输出文件的地址

import requests
from bs4 import BeautifulSoup
from openpyxl import workbook  # 写入Excel表所用
#from openpyxl import load_workbook  # 读取Excel表所用


if __name__=="__main__":
    #  创建Excel表并写入数据
    ws = []  # 全局工作表对象
    wb = workbook.Workbook()  # 创建Excel对象
    ws = wb.active  # 获取当前正在操作的表对象
    ws.append(['标题名', '链接地址', '摘要', '单位—类型—年份—下载次数-被引次数'])     # 往表中写入标题行,以列表形式写入！


    keywords=input("请输入") #查询的主题 ，引号内容根据需要修改
    target='http://search.cnki.net/search.aspx?q='+str(keywords)+'&rank=relevant&cluster=all&val=CJFDTOTAL&p={}'
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
    headers = {'User-Agent':user_agent}
    for i in range(10):
        i=i*15 #每页有15篇论文
        target=target.format(i) #翻页，是在p={}中修改页数链接
        req=requests.get(url=target)
        html=req.text
        html=html.replace('<br>',' ').replace('<br/>',' ').replace('/>','>')
        bf=BeautifulSoup(html,"html.parser")
        texts=bf.find('div',class_='articles')#查看页面对应的审查元素，标签为articles
        texts_div=texts.find_all('div',class_='wz_content')#查看页面对应的审查元素
        for item in texts_div:
            item_name=item.find('a').text #标题
            item_href=item.find('a')['href']#链接网址
            item_abstract = item.find('span', class_='text').text#摘要
            item_refer = item.find('span', class_='year-count').text#发表单位、发表类型、发表年份、下载次数_引用次数

            ws.append([item_name,item_href,item_abstract,item_refer]) #向表格中添加需要的信息

    wb.save('20200208_paper.xlsx')
    print("ok")

发布了233 篇原创文章 · 获赞 20 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_42565135/article/details/104265871

pycharm中python爬取知网论文信息并保存在Excel中（1）

python爬取知网论文信息

爬取楼盘网并将数据保存在excel表中

爬取奇书网各类小说信息并保存到excel中

python-scapy爬取mooc网保存在数据库中并下载图片

【python】爬取知乎热榜Top50保存到Excel文件中【附源码】

Python |（爬虫）爬取当当网书籍信息存到Excel中

python爬虫——爬取知网体育学刊引证论文信息

Python如何爬取数据保存到Excel中？

python爬取知网

使用requests、BeautifulSoup、线程池爬取艺龙酒店信息并保存到Excel中

40行代码，利用爬虫自动爬取CSDN博客排名等信息保存到Excel中

【Python爬虫系列教程 27-100】通过selenium爬取中国知网的中的Python文献信息，小姐姐突然觉得自己变成大神

【python爬虫自学笔记】-----爬取知乎图片并保存在本地

scrapy爬取统计局的城乡代码,以目录文件夹形式生成，同时最后保存在excel中

python爬虫之爬取糗事百科并将爬取内容保存至Excel中

Python爬取豆瓣电影Top250（数据保存到Excel中）

Python爬取知网信息——Python+selenium爬取知网信息（文献名，作者，来源，发表日期，文献类型）

知网爬取

使用jsoup爬取网页信息，保存到txt中

知乎信息爬取（存在bug，望大牛指点）

爬取NMPA化妆品生产许可信息数据，保存到excel中（requests初体验）

python爬取中国知网（中国优秀硕士学位论文数据库）

Python爬取美桌网图片（保存在电脑上）

Python selenium爬取知乎用户信息存入Excel表格

Python爬取竞彩网每场比赛的开奖结果中的详细信息

最新 Python3 爬取前程无忧招聘网 mysql和excel 保存数据

scrapy_redis爬取统计局的城乡代码,以目录文件夹形式生成，同时最后保存在excel和redis数据库中

Python爬虫 | 使用Selenium和BeautifulSoup爬取xxxticket信息并保存到Excel文件

Crawler：Python爬取14年所有的福彩信息，利用requests库和BeautifulSoup模块来抓取中彩网页福彩3D相关的信息，并将其保存到Excel表格中

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)