segment anything原来可以这么玩

Segment Anything能给我们做什么

前言
内容
具体实现
成果

前言

最近，大模型的热度确实是非常非常的高，从chatgpt到segment anything，这些东西整的我这刚入门的小白确实有点懵逼。最近实在是不知道干啥，想想能不能用大模型整点花活。

这时候突然想起来了去年的极乐净土，确实做的有点粗糙，去年就是提取了下边缘加个rgb就完事了，这让我有点不大尽兴，直到我看到了小鸡舞。
在这里插入图片描述
segment anything是干啥的，不就是图像分割吗，那我是不是可以把这位舞者分割出来，然后换到其他背景里，说干就干。

内容

大致的思路其实就是我们用segment anything把图像分割出来，然后把人的掩码单独拿出来，然后再随便整个背景，把我们提取的人物放进去就完事了，整个过程看着还是蛮简单的哈，我们具体看看咋做。

首先第一步就是要配置下segment anything的环境，这里我们不使用segment anything官方提供的服务跑了，因为确实要跑好多张，所以我们自己配一下。其实很简单就是安装一下pytorch gpu版本（显卡稍微差点的话可以用cpu的），然后把项目从github拉下来，在安装下他要求的库就ok了，网上有很多配置segment anything 的博客，这里我就不展开说了。

这时候我们把视频转换成图片，就直接用opencv转换就可以，详细代码在下一节。然后我们使用segment anything对其进行分割，就可以拿到这样的掩码
在这里插入图片描述
我们可以看到，分割的效果非常nice，但是有一个问题，我怎么把人的掩码单独提出来呢？？？

博主找了一下，好像是已经有人在segment anything的基础上进行分类了，但确实有点麻烦，博主本着能坐着就不能站着，能躺着就不坐着的心态思考了下，发现还真有个个省事。

要知道，我们可是有yolo的呀，这目标检测能力嘎嘎的
在这里插入图片描述
那我们就可以直接提取检测框里的最大掩码就可以了，这样我们就拿到了人物的掩码

到此为止，人物就提取出来了，接下来我们就是随便找个背景拼接下就完事了，看看具体实现吧。

具体实现

因为segment anything和yolov5都有现成的代码，我们就不介绍了，我们只介绍这个拼接的部分

拼接代码

# -*- codeing = utf-8 -*-
# @Time : 2023/7/5 19:30
# @Author : xiaow
# @File : test.py
# @Software : PyCharm
import os

import cv2

import numpy as np


def mix():
    # 背景图片存放的位置
    backs = os.listdir('../video2img2')
    # 人物掩码的位置
    masks = os.listdir('mask')
    # 0 1 掩码的位置
    mask2s = os.listdir('mask2')
    # 设置输出视频的帧数
    fps = 15
    videopath = 'test10.avi'  # 图片保存地址及格式
    size = (1000, 666)
    out1 = cv2.VideoWriter(videopath, cv2.VideoWriter_fourcc(*'DIVX'), fps, size)

    for i in range(len(backs)):
        print(masks[i])

        back = cv2.imread('../video2img2/' + backs[i])
        # 修改背景尺寸大小
        back = cv2.resize(back, size, interpolation=cv2.INTER_AREA)
        human = cv2.imread('mask/' + masks[i])
        mask2 = cv2.imread('mask2/' + mask2s[i], 0)


        # 设置mask,human大小和背景相同大小  start
        width = back.shape[0]
        height = back.shape[1]
        width_diff = width - human.shape[0]
        height_diff = height - human.shape[1]
        human = np.pad(human, ((width_diff // 2, width_diff // 2), (height_diff // 2, height_diff // 2), (0, 0)))
        mask2 = np.pad(mask2, ((width_diff // 2, width_diff // 2), (height_diff // 2, height_diff // 2)))
        # 设置mask,human大小和背景相同大小  end

        mask2 = np.expand_dims(mask2, 2)
        out1.write((1 - mask2) * back + human)


if __name__ == '__main__':
    mix()

成果

在这里插入图片描述
这里以gif的形式展示一部分内容，全部视频可以在b站搂一眼

segment anything 碰上小鸡舞

就到这了溜了溜了

如有侵害您的权益请联系我们，侵权必删