多线程技术并不能充分利用硬件资源和大幅度提高系统吞吐量,类似需求应使用多进程编程技术满足。
以爬取中国工程院院士简介和照片为例,参考代码如下,请自行分析目标网页结构并与参考代码进行比对。另外需要注意,该程序最好在cmd命令提示符环境执行。
声明:爬虫系列文章仅供技术研究,如果用于恶意目的,引起的后果由使用者自己承担。
爬虫系列文章:
JavaScript获取本机浏览器UA助力Python爬取糗事百科首页
Python爬虫基础:常用HTML标签和Javascript入门
Python+selenium+PhantomJS获取百度搜索结果真实链接地址
手把手教你使用Python+scrapy爬取山东各城市天气预报
Python爬虫系列:使用selenium+Edge查询指定城市天气情况
BeautifulSoup解析库select方法实例——获取企业信息
Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文
多线程与多进程系列文章:
Python使用BoundedSemaphore对象进行线程同步
Python使用pyopencl在GPU上并行处理批量判断素数
Python使用Manager对象实现不同机器上的进程跨网络传输数据
温馨提示
进入公众号,通过菜单“最新资源”==>“历史文章”可以快速查看分专题的文章列表,通过“最新资源”==>“微课专区”可以观看Python微课,通过“最新资源”==>“培训动态”可以查看近期Python培训安排,通过“最新资源”==>“教学资源”可以查看Python教学资源。
--------董付国老师Python系列图书--------
1)《Python程序设计(第2版)》清华大学出版社
2)《Python可以这样学》清华大学出版社
3)《Python程序设计基础(第2版)》清华大学出版社
4)《中学生可以这样学Python》清华大学出版社,配套微课:《中学生可以这样学Python》84节微课免费观看地址
5)《Python程序设计开发宝典》清华大学出版社
6)《玩转Python轻松过二级》清华大学出版社
7)《Python程序设计基础与应用》机械工业出版社
8)《Python程序设计实验指导书》清华大学出版社(预计2019年1月出版)
9)《Python编程基础与案例集锦(中学版)》电子工业出版社(预计2019年2月出版)
“Python小屋”免费资源汇总(截至2018年11月28日)
系列教学PPT:
1900页Python系列PPT分享一:基础知识(106页)
1900页Python系列PPT分享二:Python序列(列表、元组、字典、集合)(154页)
1900页Python系列PPT分享三:选择与循环结构语法及案例(96页)
1900页Python系列PPT分享四:字符串与正则表达式(109页)
1900页Python系列PPT分享五:函数设计与应用(134页)
1900页Python系列PPT分享六:面向对象程序设计(86页)
1900页Python系列PPT分享七:文件操作(132页)
1900页Python系列PPT分享八:异常处理结构与程序调试、测试(70页)
报告PPT(163页):基于Python语言的课程群建设探讨与实践
2000页Python系列PPT分享九:(GUI编程)(122页)
Python实验项目1例:使用进程池统计指定范围内素数的个数
(PPT)Python程序设计课程教学内容组织与教学方法实践