爬取实例分割数据集 - 代码天地

爬取实例分割数据集

其他 2020-02-18 10:41:16 阅读次数: 0

爬取Penn-Fudan的行人检测和分割数据集。Penn-Fudan数据集中有170张图像，包含345个行人的实例。
爬取链接：https://www.cis.upenn.edu/~jshi/ped_html/
方法较笨，后续改善。

import requests
from bs4 import BeautifulSoup

def getHtmlText(url):
    try:
        print("craw html:",url)
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "error"

def getImageList(url):
    html = getHtmlText(url)
    soup = BeautifulSoup(html,'html.parser')
    img_a = soup.find_all('a')
    datas = []
    for img in img_a:
        try:
            href_txt = img.attrs['href']
            hrefs = "https://www.cis.upenn.edu/~jshi/ped_html/" + href_txt
            datas.append(hrefs)
        except:
            continue
    for data in datas:
        try:
            filename = data.split('/')
            print(filename)
            img_data = requests.get(data)
            with open(r'.\images\{}'.format(filename[-1]),"wb")as f:
                f.write(img_data.content)
        except:
            continue
  
if __name__ == "__main__":
    for idx in range(6):
        url = f"https://www.cis.upenn.edu/~jshi/ped_html/pageshow{idx+1}.html"
        getHtmlText(url)
        getImageList(url)

发布了36 篇原创文章 · 获赞 3 · 访问量 1741

私信关注

猜你喜欢

转载自blog.csdn.net/qq_38689395/article/details/103127608

爬取实例分割数据集

实例-水稻分割数据集制作

labelme的安装并制作实例分割数据集

爬取项目数据集

网络数据爬取实例教程

将实例分割数据集转为目标检测数据集

Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集

爬取股票实例

爬取淘宝实例

python爬取实例

使用PointRend实例分割训练自己的coco数据集

Anaconda安装及使用labelme制作实例分割自建数据集

ISAT制作YOLOv5实例分割数据集

借助百度识图爬取数据集

java爬虫爬取网站数据实例

爬虫实例利用Ajax爬取微博数据

网络数据爬取实例教程*（ing）

Java使用Jsoup之爬取博客数据应用实例

实例学习——爬取豆瓣网TOP250数据

实例学习——爬取酷狗TOP500数据

Python 爬取数据（实例实操），并写入excel文件

【实例】--股票数据定向爬取

爬虫：一个简单的数据爬取统计实例

Scrapy实例————爬取链家新房数据

python实例3.0——动态页面：Ajax数据爬取

scrapy实例 ----- 爬取小说

Scrapy 爬取图片实例

Python爬取小说实例

scrapy爬取小说实例

PASCAL VOC数据集制作，基于Mask-RCNN实例分割数据集制作

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)