国家地理爬虫 - 代码天地

国家地理爬虫

其他 2019-07-06 13:04:30 阅读次数: 0

原文链接： http://www.cnblogs.com/yxxblog/p/9543333.html

先分析一下网页结构：

可以看到图片都是放在div class=‘imgbox’

　　　　　　　　　　　　div class=‘img’

用requests解析网页，用Beautiful soup将class= ‘img’中的图片链接解析出来，

然后（比较重要的一步）：

再次运用requests将图片的链接解析，然后保存。

文件的的创建，按照链接的名字创建链接，具体代码如下所示，具体讲解无。

纯文本：

#国家地理中一篇文档中图片的爬虫
import os
import requests
from bs4 import BeautifulSoup
def craete_dir(name):
if not os.path.exists(name):
os.makedirs(name)
def getlink(url):
herader = {'User-Agent':'Mozilla/5.0'}
req = requests.get(url,headers=herader)
req.encoding=req.apparent_encoding
soup = BeautifulSoup(req.text,'lxml')
soups= soup.findAll('div',class_='imgbox')
for link in soups:
links =link.find('div',class_='img').find('img')
links_a=links.get('src')
#craete_dir('c:/Users/****/Desktop/haha/{}'.format(links_a.split('/')[-1]))
print(links_a)
jieguo = requests.get(links_a)
print(links_a.split('/')[-1][:-5])
craete_dir('c:/Users/***/Desktop/haha')
with open('c:/Users/***/Desktop/haha/{}'.format(links_a.split('/')[-1])[:-5],'wb')as f:
f.write(jieguo.content)
getlink('http://www.dili360.com/article/p5b57eab97878985.htm')

转载于:https://www.cnblogs.com/yxxblog/p/9543333.html

猜你喜欢

转载自blog.csdn.net/weixin_30481087/article/details/94784342

国家地理爬虫

【Python3爬虫-爬图片】多线程爬取中国国家地理全站美图，多图可以提高你的审美哦

“建宇树人摄影大赛”由嘉德置地与国家地理频道举办

《国家地理信息公共服务平台“天地图”的关键技术与工程实践》摘

美国国家地理 National Geographic 2019年6月高清PDF下载百度云盘下载地址

BBC系列1080p纪录片下载，国家地理1080p纪录片下载，IMAX系列1080p纪录片下载

测绘地理信息标准（国家、行业、地方）大全来了：测绘地理信息标准化服务平台

地理

使用JSOUP爬取国家统计局的地理位置数据

国家基础地理信息中心编制完成新版世界地图

[爬虫] 地理编码|根据名称获取POI的经纬度

python_爬虫爬取高德地理编码

python爬虫（以国家烟草网新闻为例）

Java爬虫之下载全世界国家的国旗图片

Python爬虫-国家企业信用信息公示系统App

Python3爬虫实现批量获取国家区号

国家统计局爬虫样例

国家基础地理信息中心行政边界等矢量数据免费下载保姆级教程--关于地理数据收集与处理的基本工具推荐(7)

德国地学研究中心到国家基础地理信息中心作学术交流

爬虫案例｜从攻克反爬机制到地理信息可视化！

地理空间坐标系统-城市坐标系与国家统一坐标系之间的转换(含四参数转换代码)

c#爬虫爬取国家行政区划代码至村级

我把我用R写的第一个爬虫就献给了国家

python 利用爬虫获取页面上下拉框里的所有国家

爬取国家地表水水质自动监测实时数据发布系统！动态爬虫！

Java爬虫实战-采集完整的五级国家行政区域码数据

利用Python爬虫从百度百科获取全国所有县区的地理信息

温州地理!

地理编码

地理常识

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)