用python爬取中科院院士简介信息 - 代码天地

用python爬取中科院院士简介信息

其他 2018-07-25 20:43:42 阅读次数: 0

018/07/09 23:43
项目名称：爬取中科院871个院士的简介信息

1.爬取目的：中科院871个院士的简介信息

2.爬取最终结果：

3.具体代码如下：

 1 import re # 不用安装（注意！！）
 2 import os # 文件夹等的操作（注意！！）
 3 import time 
 4 import requests # http urllib2
 5 
 6 url = 'http://www.cae.cn/cae/html/main/col48/column_48_1.html'
 7 html = requests.get(url)
 8 # print(html.status_code) # 状态码200 404 500 502
 9 html.encoding = 'utf-8'
10 # print(html.text) # 以文本形式返回网页
11 
12 # 提取数据
13 # + 一次或多次 大于等于一次
14 # findall返回的是列表（注意！！）
15 number = re.findall(
16 '<a href="/cae/html/main/colys/(\d+).html" target="_blank">', html.text)
17 
18 i = 1 # 这里的i变量是由我创造进行明确区分所抓取的院士的数量的；
19 for m in number[:871]:
20 # for m in number[:4]: # 这里控制要爬取的个数
21 # for m in number[28:88]:
22 nextUrl = 'http://www.cae.cn/cae/html/main/colys/{}.html'.format(m)
23 # 再次请求数据
24 nexthtml = requests.get(nextUrl)
25 nexthtml.encoding = 'utf-8'
26 # 注意正则表达式：
27 # () 提取数据
28 # . 匹配除了换行\n的任意单个字符
29 # * 匹配前面的表达式任意次 {1,5}
30 # ? 如果前面有限定符 非贪婪模式，注意！！！
31 # 尽量可能少的匹配所搜索的字符串
32 text = re.findall('<div class="intro">(.*?)</div>', nexthtml.text, re.S) # re.S匹配换行的 
33 text2 = re.sub(r'<p>|&ensp;|&nbsp;|</p>', '', text[0]).strip() # .strip()清楚空格
34 
35 # 保存数据
36 with open(r'E:\02中科院院士信息爬取结果.txt', mode='a+', encoding="utf-8") as f: # 特别注意这里的要以编码utf-8方式打开
37 f.write('{}. '.format(i) + text2 + '\n')
38 i += 1
39 
40 # 不要下载太快
41 # 限制下载的速度
42 time.sleep(1)
43 # 程序运行到这个地方 暂停1s

猜你喜欢

转载自www.cnblogs.com/520ZXL/p/9368139.html

用python爬取中科院院士简介信息

Python实验二：爬取大学排名和中科院院士信息

【信息可视化】使用D3实现的中科院院士姓氏首字母分布可视化

中科院院士谭铁牛：人工智能发展需要理性务实

这所C9高校，再添中科院院士！

中科院院士林群：微分方程原来这么简单！

中科院院士！“科技大学”，迎来新校长！

中科院生物信息学题目整理

中科院实习（9）

中科院预警名单

中科院院士点赞阿里办数学大赛 AI发展需要更多数学人才

中科院院士怒怼“新型”石墨烯电池：是黑科技还是韭菜收割机？

中科院城环所朱永官院士团队(宁波)招聘全职博士后启事

中科院新规：禁止院士公开发表与自身专业领域无关的学术意见！

用Python爬取大学的信息

中科院分词系统的大致流程

中科院- 生物特征识别概述

ROS中科院软件所

中科院大学模式识别

中科院孙应飞老师

中科院研究所

【科研】JCR分区与中科院分区

如何查看中科院分区

中科院博士，已被解救！

【学术信息】中科院2019年学术期刊分区-综合性期刊

【学术信息】中科院2019年学术期刊分区-工程技术类

【学术信息】中科院2019年学术期刊分区-管理科学

【社招】【中科院信息工程研究所】软件开发工程师

python爬虫，获取中国工程院院士信息

中科院院士张钹：发展第三代AI技术，中美处在同一起跑线上

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)