简单网站爬虫30行代码 - 代码天地

简单网站爬虫30行代码

其他 2018-04-30 21:28:01 阅读次数: 5


 1 #encoding=utf8
 2 import urllib.request
 3 import re
 4 import os
 5 
 6 
 7 seed="http://idea.lanyus.com/"   #最开始的种子，爬取的网站
 8 depth=3                          #最多递归depth层，避免递归栈过深
 9 count=5                          #每个网页只抓取count个url作为新的seed
10 href_re=re.compile(r'href\S=\S"(https?:/\S*)"')  #通过正则表达匹配网页源码中的URL
11 http_re=re.compile(r'\w+')         #通过正则表达匹配中文
12 pages=set()

13 path_dir="."                        #保存路径
14 def get_path(url):
15     name='_'.join(href_re.findall(url))[:30]
16     path=os.path.join(path_dir,"%s.txt" %name)
17 def fetch(que=[seed,],dep=0):
18     nxt_que=[]
19     for url in que:
20         print("depth:%d   fetch:%s..." %(dep,url))
21         html=urllib.request.urlopen(url).read()
22         print(html)
23         with open(get_path(url),'w+') as f:
24             f.write(html)                     #保存网页内容
25         cnt=0
26         for new_url in href_re.findall(html):
27             if new_url in pages:continue         #如果已经爬过则跳过
28             pages.add(new_url)
29             cnt+=1
30             nxt_que.append(new_url)
31             if cnt>=count:
32                 break
33     if dep<depth:
34         fetch(nxt_que,dep+1)
35 
36 if __name__=="__main__":
37     fetch()

猜你喜欢

转载自www.cnblogs.com/qdzj/p/8974745.html

简单网站爬虫30行代码

GNE: 4行代码实现新闻类网站通用爬虫

《封号码罗》python爬虫之30行代码破解图片伪装反爬虫（一）

30行代码写出JavaSe爬虫，适合刚学Java的人参考学习

爬虫+正向代理，30+行代码我爬取了[链家]3000+条数据

没啥才艺，30行代码写了个春联数据爬虫

Python|30行代码实现微博热榜爬虫（及可视化进阶）

Python 教你 4 行代码开发新闻网站通用爬虫

python爬虫百行代码爬《励志一生》网站，破解BeautifulSoup乱码办法

简短的爬虫程序，14行Python代码轻松实现爬取网站视频

30行python代码实现“代码雨”

简单30行Python代码让你玩转YOLO目标识别检测！

30 行代码实现一个 GCD 线程池（简单）

简单30行代码，使用LangChain 搭建专属 GPT知识库

30行Python代码实现人脸检测

30行代码实现Javascript中的MVC

每天敲代码2020908 30行

每天敲代码20200908 30行

Python从入门到晋级代码30行

Python爬虫实现爬取糗事百科段子 (26行代码简单实现)

Python写一个简单的爬虫样例（不超过50行代码）

12行简单的Python代码，初窥爬虫的秘境！小白入门必备！

1行Python代码下载图片，爬虫从未如此简单，百度看了都害怕

1行Python代码下载图片，爬虫从未如此简单，某度看了都害怕

爬虫简单基础代码

10分钟教你用python 30行代码搞定简单手写识别！

30行代码就可以实现看图识字！python使用tensorflow.keras搭建简单神经网络

简书30日排行爬虫代码

30套JSP网站源代码合集

Python 3.7 实现一个简单爬虫，简单爬数据，抓取数据，一行行代码教程你，总能教会你

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)