一键抠图Portrait Matting人像抠图 (C++和Android源码)

1. 项目介绍：

2. MODNet抠图算法：

3. Matting数据集

抠图算法中（英文中，一般称为Matting），一种是基于辅助信息输入的，加入一些先验信息(如Trimap,背景图,用户交互信息，深度等信息)提供抠图效果，如比较经典的Deep Image Matting和Semantic Image Matting这些算法加入Trimap； Background Matting算法需要提供背景图等；另一种是无需辅助信息，输入RGB图像，直接预测matte的方法，其效果相对第一种方法，会差很多。而对Portrait Matting(人像抠图)，现在有很多方案在无需Trimap条件下，也可以获得不错的抠图效果，比如MODNet，Fast Deep Matting等算法，真正实现健抠图的效果。

本篇博客将介绍MODNet人像抠图算法，一个效果相当不错的Matting算法，可以达到头发细致级别的人像抠图效果，是一健抠图哦，先展示一下Android测试效果：

模型选择	原图	高精度人像抠图	视频抠图

更多抠图算法(Matting)，请参考我的一篇博客《图像抠图Image Matting算法调研》：

图像抠图Image Matting算法调研_pan_jinquan的博客-CSDN博客1.Trimap和StrokesTrimap和Strokes都是一种静态图像抠图算法，现有静态图像抠图算法均需对给定图像添加手工标记以增加抠图问题的额外约束。Trimap，三元图，是对给定图像的一种粗略划分，即将给定图像划分为前景、背景和待求未知区域Strokes则采用涂鸦的方式在图像上随意标记前景和背景区域，剩余未标记部分则为待求的未知区域Trimap是最常用的先验知识，多数抠图算法采用了Trimap作为先验知识，顾名思义Trimap是一个三元图，每个像素取值为{0，128，...https://panjinquan.blog.csdn.net/article/details/119648686

可能，有小伙伴搞不清楚分割(segmentation)和抠图(matting)有什么区别，我这里简单说明一下：

分割(segmentation)：从深度学习的角度来说，分割本质是像素级别的分类任务，其损失函数最简单的莫过于是交叉熵CrossEntropyLoss(当然也可以是Focal Loss，IOU Loss，Dice Loss等)；对于前景和背景分割任务，输出Mask的每个像素要么是0，要么是1。如果拿去直接做图像融合，就很不自然，Mask边界很生硬，这时就需要使用抠图算法了
抠图(matting)：而抠图本质是一种回归任务，其损失函数可以是MSE Loss，L1 Loss,L2 Loss等，对于前景和背景抠图任务，输出Mask的每个像素是0~1之间的连续值，可看作是对图像透明通道（Alpha）的回归预测。可以用公式表示为C = αF + (1-α)B ，其中α（不透明度）、F（前景色）和B（背景色），alpha是[0, 1]之间的连续值，可以理解为像素属于前景的概率。在人像分割任务中，alpha只能取0或1，而抠图任务中，alpha可取[0, 1]之间的连续值，
本质上就是一句话：分割是分类任务，而抠图是回归任务。

1. 项目介绍：

关于《MODNet: Trimap-Free Portrait Matting in Real Time》，请参考：

Paper： https://arxiv.org/pdf/2011.11961.pdf
官方Github: GitHub - ZHKKKe/MODNet: A Trimap-Free Solution for Portrait Matting in Real Time

官方GitHub仅仅放出推理代码，并未提供训练过程和数据处理代码；鄙人参考原论文花了几个星期的时间，总算复现了其基本效果，并做了一些轻量化和优化的工作，主要有：

复现Pytorch版本的MODNet训练过程和数据处理
增加了数据增强方法：如多尺度随机裁剪，Mosaic(拼图)，随机背景融合等方法，提高模型泛化性
对MODNet骨干网络backbone进行轻量化，减少计算量
目前提供三个版本：高精度人像抠图+快速人像抠图+超快人像抠图
转写模型推理过程，实现C++版本人像抠图算法
实现Android版本人像抠图算法，支持CPU和GPU
提供高精度版本人像抠图，可以达到精细到发丝级别的抠图效果（Android GPU 150ms, CPU 500ms左右）
提供轻量化快速版人像抠图，满足基本的人像抠图效果，可以在Android达到实时的抠图效果（Android GPU 60ms, CPU 140ms左右）

最近发现，百度PaddleSeg团队也复现了MODNet算法(基于PaddlePaddle框架，非Pytorch版本)，提供了更丰富的backbone模型选择，如MobileNetV2,ResNet50,HRNet_W18，可适用边缘端、服务端等多种任务场景，有兴趣的可以看看：

PaddlePaddle版本：https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.3/contrib/Matting

2. MODNet抠图算法：

基于深度学习的Matting分为两大类：

一种是基于辅助信息输入。即除了原图和标注图像外，还需要输入其他的信息辅助预测。最常见的辅助信息是Trimap，即将图片划分为前景，背景及过度区域三部分。另外也有以背景或交互点作为辅助信息。
一种是不依赖任何辅助信息，直接对Alpha进行预测。如本博客复现的MODNet

第一种方法，需要加入辅助信息，而辅助信息一般较难获取，这也限制其应用，为了提升Matting的应用性，针对Portrait Matting领域MODNet摒弃了辅助信息，直接实现Alpha预测，实现了实时Matting，极大提升了基于深度学习Matting的应用价值。

MODNet模型学习分为三个部分，分别为：语义部分（S），细节部分（D）和融合部分(F)。

在语义估计中，对high-level的特征结果进行监督学习，标签使用的是下采样及高斯模糊后的GT，损失函数用的L2-Loss，用L2loss应该可以学到更soft的语义特征；
在细节预测中，结合了输入图像的信息和语义部分的输出特征，通过encoder-decoder对人像边缘进行单独地约束学习，用的是交叉熵损失函数。为了减小计算量，encoder-decoder结构较为shallow，同时处理的是原图下采样后的尺度。
在融合部分，把语义输出和细节输出结果拼起来后得到最终的alpha结果，这部分约束用的是L1损失函数。

3. Matting数据集

(1) 开源数据集

数据集	说明
matting_human_datasets	本数据集为目前已知最大的人像matting数据集，包含34427张图像和对应的matting结果图。数据集由北京玩星汇聚科技有限公司高质量标注，使用该数据集所训练的人像软分割模型已商用。数据集中的原始图片来源于Flickr、百度、淘宝。经过人脸检测和区域裁剪后生成了600*800的半身人像。 https://github.com/aisegmentcn/matting_human_datasets PS：Matting比较粗糙，没有达到头发细致抠图；不过数据比较大，可以作为pretrained数据集使用
Deep Image Matting	Adobe Research论文《Deep Image Matting》提供的Matting Dataset。大约有455张图片，论文将MSCOCO和PASCAL VOC当做背景图，与455张图片进行合成后，大概有45500张训练图片和1000张测试图片论文地址：https://sites.google.com/view/deepimagematting 项目地址：https://github.com/Joker316701882/Deep-Image-Matting PS：该数据集发邮箱给作者申请即可，一般作为通用物体Matting数据集，比较精细；如果用于人像抠图，需要自行把含有人的图片挑选出来
PPM-100	PPM-100 是论文 MODNet (Github \| Arxiv) 中提出的一个人像抠图基准，它包含了100张来自Flickr的人像图片，具有以下特点：精细标注 - 所有图像都被仔细标注并检查。丰富多样 - 图像涵盖全身/半身人像和各种姿态。高分辨率 - 图像的分辨率介于1080P和4K之间。自然背景 - 所有图像都包含原始无替换的背景。项目地址：https://github.com/ZHKKKe/PPM PPM-100下载：https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.3/contrib/Matting
RealWorldPortrait-636	real-world portrait dataset 项目地址：https://github.com/yucornetto/MGMatting
Compsition-1k	使用Deep Image Matting合成的数据集项目地址：https://github.com/Yaoyi-Li/GCA-Matting
HAttMatting	项目地址：https://github.com/yuhaoliu7456/CVPR2020-HAttMatting
AM-2k	AM-2k contains 2,000 high-resolution natural animal images from 20 categories along with manually labeled alpha mattes. Some examples are shown as below, more can be viewed in the video demo (YouTube \| bilibili \| Google drive). AM-2k can be accessed from here (Google Drive \| Baidu Wangpan (pw: 29r1)), please make sure that you have read this agreement before accessing the dataset. Please refer to the `readme.txt` in the dataset folder for more details. 项目地址：https://github.com/JizhiziLi/GFM
BG-20k	BG-20k contains 20,000 high-resolution background images excluded salient objects, which can be used to help generate high quality synthetic data. Some examples are shown as below, more can be viewed in the video demo (YouTube \| bilibili \| Google drive). BG-20k can be accessed from here (Google Drive \| Baidu Wangpan (pw: dffp)), please make sure that you have read this agreement before accessing the dataset. Please refer to the `readme.txt` in the dataset folder for more details. 项目地址：https://github.com/JizhiziLi/GFM
VideoMatte240K
PhotoMatte85

其他的：

VideoMatte240K
PhotoMatte85
https://github.com/thuyngch/Human-Segmentation-PyTorch
Automatic Portrait Segmentation for Image Stylization: 1800 images
Supervisely Person: 5711 images

(2) 训练和测试数据说明

关于训练数据如何生成的问题：

原论文MODNet使用了PPM-100数据集+私有的数据集，并合成了大部分训练数据
鄙人复现时，先使用matting_human_datasets数据集训练base-model当作pretrained模型；然后合并多个数据集（PPM-100 + RealWorldPortrait-636 + Deep Image Matting），采用背景图来自VOC+COCO+BG-20k ，一共合成了5W+的训练数据和500+的测试数据
合成的方法有两种：方法1：利用公式：合成图 = 前景*alpha+背景*(1-alpha) ;方法二：前景+mask+背景通过GAN生成；

(3) 合成代码实现

这是Python实现的背景合成，需要提供原始图像image,以及image的前景图像alpha,和需要合成的背景图像bg_img:

    def image_fusion(image: np.ndarray, alpha: np.ndarray, bg_img=(219, 142, 67)):
        """
        图像融合：合成图 = 前景*alpha+背景*(1-alpha)
        :param image: RGB图像(uint8)
        :param alpha: 单通道的alpha图像(uint8)
        :param bg_img: 背景图像,可以是任意的分辨率图像，也可以指定指定纯色的背景
        :return: 返回与背景合成的图像
        """
        if isinstance(bg_img, tuple) or isinstance(bg_img, list):
            bg = np.zeros_like(image, dtype=np.uint8)
            bg_img = np.asarray(bg[:, :, 0:3] + bg_img, dtype=np.uint8)
        if len(alpha.shape) == 2:
            # alpha = cv2.cvtColor(alpha, cv2.COLOR_GRAY2BGR)
            alpha = alpha[:, :, np.newaxis]
        if alpha.dtype == np.uint8:
            alpha = np.asarray(alpha / 255.0, dtype=np.float32)
        sh, sw, d = image.shape
        bh, bw, d = bg_img.shape
        ratio = [sw / bw, sh / bh]
        ratio = max(ratio)
        if ratio > 1:
            bg_img = cv2.resize(bg_img, dsize=(math.ceil(bw * ratio), math.ceil(bh * ratio)))
        bg_img = bg_img[0: sh, 0: sw]
        image = image * alpha + bg_img * (1 - alpha)
        image = np.asarray(np.clip(image, 0, 255), dtype=np.uint8)
        return image

当然，为了方便JNI调用，我这里还实现C++版本图像合成算法，这部分图像处理的基本工具，都放在我的base-utils中

/***
 * 实现图像融合：out = imgBGR * matte + bg * (1 - matte)
 * Fix a Bug: 1-alpha实质上仅有B通道参与计算，多通道时(B,G,R)，需改Scalar(1.0, 1.0, 1.0)-alpha
 * @param imgBGR 输入原始图像
 * @param matte  输入原始图像的Mask,或者alpha,matte
 * @param out    输出融合图像
 * @param bg     输入背景图像Mat(可任意大小)，也可以通过Scalar指定纯色的背景
 */
void image_fusion(cv::Mat &imgBGR, cv::Mat matte, cv::Mat &out, cv::Mat bg) {
    assert(matte.channels() == 1);
    out.create(imgBGR.size(), CV_8UC3);
    vector<float> ratio{(float) imgBGR.cols / bg.cols, (float) imgBGR.rows / bg.rows};
    float max_ratio = *max_element(ratio.begin(), ratio.end());
    if (max_ratio > 1.0) {
        cv::resize(bg, bg, cv::Size(int(bg.cols * max_ratio), int(bg.rows * max_ratio)));
    }
    bg = image_center_crop(bg, imgBGR.cols, imgBGR.rows);
    int n = imgBGR.channels();
    int h = imgBGR.rows;
    int w = imgBGR.cols * n;
    // 循环体外进行乘法和除法运算
    matte.convertTo(matte, CV_32FC1, 1.0 / 255, 0);
    for (int i = 0; i < h; ++i) {
        uchar *sptr = imgBGR.ptr<uchar>(i);
        uchar *dptr = out.ptr<uchar>(i);
        float *mptr = matte.ptr<float>(i);
        uchar *bptr = bg.ptr<uchar>(i);
        for (int j = 0; j < w; j += n) {
            //float alpha = mptr[j] / 255; //循环体尽量减少乘法和除法运算
            float alpha = mptr[j / 3];
            float _alpha = 1.f - alpha;
            dptr[j] = uchar(sptr[j] * alpha + bptr[j] * _alpha);
            dptr[j + 1] = uchar(sptr[j + 1] * alpha + bptr[j + 1] * _alpha);
            dptr[j + 2] = uchar(sptr[j + 2] * alpha + bptr[j + 2] * _alpha);
        }
    }
}

4. Android JNI接口

目前已经实现Android版本人像抠图算法，支持CPU和GPU
提供高精度版本人像抠图，可以达到精细到发丝级别的抠图效果（Android GPU 150ms, CPU 500ms左右）
提供轻量化快速版人像抠图，满足基本的人像抠图效果，可以在Android达到实时的抠图效果（Android GPU 60ms, CPU 140ms左右）

Demo APP下载地址：链接: https://pan.baidu.com/s/1ifYLEgk7SaU3NSeNEtvMQg 提取码: y83n

目前，提供Demo源码提供三个JNI接口,可实现一健抠图效果，当然你可以在我C++基础上修改源码，实现更多功能；

matting接口：实现基本的人像构图Matting功能
fusion接口：实现人像构图Matting，并与背景图进行融合
mattingFusion接口：人像构图Matting，并与背景图进行融合(会返回mask)

package com.cv.tnn.model;

import android.graphics.Bitmap;

public class Detector {

    static {
        System.loadLibrary("tnn_wrapper");
    }


    /***
     * 初始化检测模型
     * @param proto： TNN *.tnnproto文件文件名（含后缀名）
     * @param model： TNN *.tnnmodel文件文件名（含后缀名）
     * @param root：模型文件的根目录，放在assets文件夹下
     * @param model_type：模型类型
     * @param num_thread：开启线程数
     * @param useGPU：是否使用GPU
     */
    public static native void init(String proto, String model, String root, int model_type, int num_thread, boolean useGPU);

    /***
     * 缩放图片
     * @param bitmap
     * @param resize_width
     * @param resize_height
     * @return
     */
    public static Bitmap resizeBitmap(Bitmap bitmap, int resize_width, int resize_height) {
        int width = bitmap.getWidth();
        int height = bitmap.getHeight();
        if (resize_width <= 0 && resize_height <= 0) {
            return bitmap;
        } else if (resize_height <= 0) {
            resize_height = height * resize_width / width;
        } else if (resize_width <= 0) {
            resize_width = width * resize_height / height;
        }
        Bitmap dst = Bitmap.createScaledBitmap(bitmap, resize_width, resize_height, false);
        return dst;
    }


    /***
     * 人像构图Matting
     * @param bitmap 输入图像（bitmap），ARGB_8888格式
     * @param mask   输出Mask图像（bitmap），ARGB_8888格式,调用前需要createBitmap初始化大小，如
     *               Bitmap.createBitmap(Width, Height, Bitmap.Config.ARGB_8888);
     * @return
     */
    public static native void matting(Bitmap bitmap, Bitmap mask);


    /***
     * 人像构图Matting，并与背景图进行融合
     * @param bitmap 输入图像（bitmap），ARGB_8888格式
     * @param bgmap  输入背景图像（bitmap），ARGB_8888格式，可任意大小的图像
     * @param fusion 输出与背景融合后图像，调用前需要createBitmap初始化大小，ARGB_8888格式
     */
    public static native void fusion(Bitmap bitmap, Bitmap bgmap, Bitmap fusion);

    /***
     * 人像构图Matting，并与背景图进行融合
     * @param bitmap 输入图像（bitmap），ARGB_8888格式
     * @param bgmap  输入背景图像（bitmap），ARGB_8888格式，可任意大小的图像
     * @param fusion 输出与背景融合后图像，调用前需要createBitmap初始化大小，ARGB_8888格式
     * @param mask   输出Mask图像（bitmap），调用前需要createBitmap初始化大小，ARGB_8888格式
     * @return
     */
    public static native void mattingFusion(Bitmap bitmap, Bitmap bgmap, Bitmap fusion, Bitmap mask);


}