将视频转为幻灯片图像:利用OpenCV实现视频资料转换的指南

视频成为了传播知识和信息的重要媒介之一。然而,有时我们需要以静态的形式保存视频内容,例如将视频讲座转换为幻灯片或图像,以便于分享、存档或打印。幸运的是,OpenCV这一功能强大的计算机视觉库提供了各种技术和工具,使得将视频资料转换为PDF图像成为可能。

在本文中,我们将探讨如何使用OpenCV的基本帧差异和统计背景减法模型,如KNN(K-Nearest Neighbors)和GMG(Gaussian Mixture-based Background/Foreground Segmentation),将视频资料转换为相应的幻灯片。这些模型能够提取视频中的关键帧,并将其保存为PDF图像,使得每个关键帧都成为幻灯片中的一页。

在这里插入图片描述
在这里插入图片描述

通过阅读本指南,您将了解以下内容:

什么是背景减法

背景减法是一种常用的计算机视觉技术,用于从视频中提取前景对象并去除背景。它通过建立背景模型,将视频帧与该模型进行比较,并检测出与背景不同的像素,从而确定前景区域。背景减法在很多领域都有广泛的应用,如运动检测、目标跟踪、视频分析等。

在这里插入图片描述

背景减法的流程步骤

  1. 建立背景模型:首先,我们需要建立一个背景模型,用于表示视频中的静态背景。这可以通过使用一组初始帧或采用自适应方法来获取。
  2. 帧差异计算:在背景模型建立之后,对于每一帧视频,我们将其与背景模型进行比较,计算像素级的差异。常见的帧差异计算方法有绝对差值、差值平方和差值阈值等。
  3. 前景检测:根据帧差异计算的结果,我们可以进行前景检测。这通常涉及将差异图像进行二值化处理,通过设置适当的阈值来确定前景和背景的区分。
  4. 前景优化:为了进一步优化前景检测结果,可以应用一些图像处理技术,如形态学操作(膨胀、腐蚀)来填充空洞或去除噪声。
  5. 目标提取:在前景检测的基础上,我们可以使用轮廓检测、连通区域分析等方法来提取前景中的目标对象。
  6. 背景更新:为了适应场景中的动态变化,背景模型需要进行更新。可以采用移动平均法、自适应背景建模等技术来不断更新背景模型。

在使用OpenCV进行背景减法时,可以使用KNN(K-Nearest Neighbors)或GMG(Gaussian Mixture-based Background/Foreground Segmentation)等算法来实现背景建模和前景提取的步骤。这些算法在OpenCV库中提供了相应的函数和方法,方便快速实现背景减法的流程。

opencv使用帧差分进行背景减法

背景减法是一种常见的计算机视觉技术,可用于检测视频中的前景对象。OpenCV提供了多种方法来实现背景减法,其中之一是使用帧差分(Frame Difference)的方法。

帧差分方法基于每一帧图像与前一帧图像之间的差异来检测前景。下面是使用OpenCV进行帧差分背景减法的一般步骤:

  1. 读取视频:使用OpenCV加载视频文件,并获取视频的每一帧图像。
  2. 灰度转换:将每一帧图像转换为灰度图像,以简化处理步骤。
  3. 帧差计算:对于当前帧和前一帧,通过减法操作计算它们之间的差异图像。差异图像将突出显示前景对象。
  4. 阈值化:对差异图像进行阈值化处理,将差异较大的像素标记为前景(白色),而差异较小的像素标记为背景(黑色)。
  5. 前景优化:通过应用形态学操作(如膨胀和腐蚀)来填充前景区域或去除噪声,从而优化前景检测结果。
  6. 目标提取:根据前景图像,可以使用轮廓检测、连通区域分析等技术来提取前景中的目标对象。

通过以上步骤,我们可以利用OpenCV的帧差分方法实现背景减法,并从视频中提取出前景对象。

opencv背景减法技术

OpenCV提供了多种背景减法技术,包括KNN、高斯混合(MOG v2)和GMG。这些算法具有不同的原理和计算公式,用于建立背景模型和提取前景。

基于KNN的背景减法

KNN背景减法算法基于最近邻分类的原理,用于确定像素是否属于背景或前景。对于每个像素,计算它与最近邻像素的差异,并根据差异值进行分类。在OpenCV中为KNN背景减法模型创建对象的函数原型是:

cv2.createBackgroundSubtractorKNN([, history[, dist2Threshold[, detectShadows]]])

假设原图像为I,每个像素的位置为(x, y),KNN背景减法的原理可以表示为以下公式:

  1. 计算像素与最近邻像素的差异:

△ I ( x , y ) = ∑ i = 1 N ∣ I ( x , y ) − I i ( x i , y i ) ∣ \triangle I(x,y) = \sum_{i=1}^N|I(x,y)-I_i(x_i,y_i)| I(x,y)=i=1NI(x,y)Ii(xi,yi)

  1. 判断像素是否属于背景或前景:

M ( x , y ) = { 1 , i f △ I ( x , y ) < = T   0 , o t h e r w i s e } M(x,y)=\lbrace1,if \triangle I(x,y)<=T \space 0,otherwise \rbrace M(x,y)={ 1,ifI(x,y)<=T 0,otherwise}

其中,M(x, y)表示像素(x, y)的分类结果,T是阈值。

高斯混合(MOG v2)

高斯混合(MOG v2)是一种基于高斯混合模型的背景减法方法。对于每个像素,利用多个高斯分布来建模其背景值,通过加权和确定像素属于背景或前景。它的功能原型是:

cv2.createBackgroundSubtractorMOG2([, history[, varThreshold[, detectShadows]]])

假设原图像为I,每个像素的位置为(x, y),高斯混合(MOG v2)的原理可以表示为以下公式:

  1. 建立背景模型:

B ( x , y ) = ∑ i = 1 K w i ( x , y ) ⋅ N ( I ( x , y ) ; μ i ( x , y ) , σ i ( x , y ) ) B(x,y)=\sum_{i=1}^Kw_i(x,y) \cdot N(I(x,y);μ_i(x,y),\sigma_i(x,y)) B(x,y)=i=1Kwi(x,y)N(I(x,y);μi(x,y),σi(x,y))

其中, B ( x , y ) B(x, y) B(x,y)表示像素 ( x , y ) (x, y) (x,y)的背景模型,K是高斯分布的数量, w i ( x , y ) w_i(x, y) wi(x,y) μ i ( x , y ) μ_i(x, y) μi(x,y) σ i ( x , y ) σ_i(x, y) σi(x,y)分别表示第i个高斯分布的权重、均值和方差。

  1. 判断像素是否属于背景或前景:

M ( x , y ) = { 1 , i f 1 K ∑ i = 1 K w i ( x , y ) ⋅ N ( I ( x , y ) ; μ i ( x , y ) , , σ i ( x , y ) ) < = T   0 , o t h e r w i s e } M(x,y)=\lbrace1,if \frac{1}{K}\sum_{i=1}^Kw_i(x,y)\cdot N(I(x,y);μ_i(x,y),,\sigma_i(x,y))<= T\space 0,otherwise \rbrace M(x,y)={ 1,ifK1i=1Kwi(x,y)N(I(x,y);μi(x,y),,σi(x,y))<=T 0,otherwise}
其中,M(x, y)表示像素(x, y)的分类结果,T是阈值。

GMG背景减法

GMG(Gaussian Mixture-based Background/Foreground Segmentation)是一种基于高斯混合模型的背景减法算法,用于确定像素是否属于背景或前景。GMG通过对像素值序列进行建模,并利用贝叶斯推断计算像素的背景或前景概率。它的功能原型是:

cv2.bgsegm.createBackgroundSubtractorGMG([, initializationFrames[,  decisionThreshold]])

假设原图像为I,每个像素的位置为(x, y),GMG背景减法的原理可以表示为以下公式:

  1. 建立像素值序列的模型:
    P ( x , y ) ( I t ) = ∑ c = 1 C w c ( x , y ) ⋅ N ( I t ; μ c ( x , y ) , σ c ( x , y ) ) P(x,y)(I_t)=\sum_{c=1}^Cw_c(x,y) \cdot N(I_t;μ_c(x,y),\sigma_c(x,y)) P(x,y)(It)=c=1Cwc(x,y)N(It;μc(x,y),σc(x,y))

其中, P ( x , y ) ( I t ) P(x, y)(I_t) P(x,y)(It)表示像素 ( x , y ) (x, y) (x,y)在时间t的像素值 I t I_t It的模型,C是高斯分布的数量, w c ( x , y w_c(x, y wc(x,y)、 μ c ( x , y ) μ_c(x, y) μc(x,y) σ c ( x , y ) σ_c(x, y) σc(x,y)分别表示第c个高斯分布的权重、均值和方差。

  1. 计算像素属于前景的概率:

P ( x , y ) ( f o r e g r o u n d ) = 1 − P ( x , y ) ( I t ) ( b a c k g r o u n d ) P ( x , y ) ( I t ) ( b a c k g r o u n d ) + P ( x , y ) ( I t ) ( f o r e g r o u n d ) P(x,y)(foreground)=1-\frac{P(x,y)(I_t)(background)}{P(x,y)(I_t)(background)+P(x,y)(I_t)(foreground)} P(x,y)(foreground)=1P(x,y)(It)(background)+P(x,y)(It)(foreground)P(x,y)(It)(background)

其中, P ( x , y ) ( f o r e g r o u n d ) P(x, y)(foreground) P(x,y)(foreground)表示像素 ( x , y ) (x, y) (x,y)属于前景的概率, P ( x , y ) ( b a c k g r o u n d ) P(x, y)(background) P(x,y)(background)表示像素 ( x , y ) (x, y) (x,y)属于背景的概率。

  1. 判断像素是否属于背景或前景:

M ( x , y ) = { 1 , i f P ( x , y ) ( f o r e g r o u n d ) > = T   0 , o t h e r w i s e } M(x,y)=\lbrace1,if P(x,y)(foreground) >=T \space 0,otherwise \rbrace M(x,y)={ 1,ifP(x,y)(foreground)>=T 0,otherwise}
其中,M(x, y)表示像素(x, y)的分类结果,T是阈值。

视频到幻灯片应用工作流程

开始
读取视频帧
应用帧差异方法
前景百分比 > 阈值
保存帧
应用概率背景减法
前景百分比 > 阈值T1
等待运动稳定
前景百分比 < 阈值T2
保存帧
生成幻灯片
保存为PDF图片
结束

流程说明:

  1. 开始
  2. 读取视频帧:使用OpenCV读取视频文件,获取视频的每一帧图像。
  3. 应用帧差异方法:对于每一帧图像,使用帧差异技术进行背景减法,计算前景掩码并计算前景百分比。
  4. 判断前景百分比是否超过阈值:
    • 如果是,保存该帧(代表有显著运动的静态帧)。
    • 如果否,继续下一步。
  5. 应用概率背景减法:对于每一帧图像,使用概率背景减法技术进行背景减法,计算前景掩码并计算前景百分比。
  6. 判断前景百分比是否超过阈值:
    • 如果是,等待运动稳定,回到步骤5。
    • 如果否,保存该帧(代表运动稳定的帧)。
  7. 生成幻灯片:将保存的帧转换为幻灯片形式,包括添加标题、文本等。
  8. 保存为PDF图片:将生成的幻灯片保存为PDF格式的图片。
  9. 结束

实现代码

import cv2
import numpy as np
from PIL import Image
from fpdf import FPDF

# 计算图像的感知哈希值
def calculate_hash(image):
    # 转换为灰度图像并调整大小为8x8像素
    if len(image) ==3:
        image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    image = cv2.resize(image, (8, 8))

    # 计算均值并二值化图像
    mean = np.mean(image)
    _, image = cv2.threshold(image, mean, 255, cv2.THRESH_BINARY)

    # 将图像转换为一维数组
    image = image.flatten()

    return image

# 计算汉明距离
def calculate_hamming_distance(hash1, hash2):
    return np.count_nonzero(hash1 != hash2)

# 判断两个图像是否相似
def is_duplicate(frame1, frame2, threshold):
    hash1 = calculate_hash(frame1)
    hash2 = calculate_hash(frame2)
    distance = calculate_hamming_distance(hash1, hash2)
    print(distance)
    # 如果汉明距离小于阈值,则判定为重复帧
    if distance < threshold:
        return True
    else:
        return False

# 背景减法帧差
def frame_difference(frame, prev_frame):
    # 将帧转换为灰度图像
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
    if len(prev_frame.shape) == 2:
        prev_gray = prev_frame
        pass
    else:
        prev_gray = cv2.cvtColor(prev_frame, cv2.COLOR_BGR2GRAY)

    # 计算帧之间的绝对差异
    diff = cv2.absdiff(gray, prev_gray)

    # 进行形态学操作,去除噪声
    kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5))
    diff = cv2.morphologyEx(diff, cv2.MORPH_OPEN, kernel)

    # 计算前景掩码
    _, thresh = cv2.threshold(diff, 30, 255, cv2.THRESH_BINARY)

    return thresh


# 使用OpenCV对背景像素进行统计建模
def background_subtraction(frame, bg_model):
    # 使用背景减法模型传递帧
    fg_mask = bg_model.apply(frame, learningRate=-1)

    # 计算前景百分比
    height, width = fg_mask.shape[:2]
    foreground_pixels = cv2.countNonZero(fg_mask)
    foreground_percent = (foreground_pixels / (width * height)) * 100

    return fg_mask, foreground_percent


# 视频到幻灯片转换处理(包括重复帧检测与删除)
def video_to_slides(video_path, output_path, frame_difference_threshold, bg_subtraction_threshold, duplicate_threshold):
    # 打开视频
    video = cv2.VideoCapture(video_path)

    # 读取第一帧
    _, prev_frame = video.read()
    prev_frame_gray = cv2.cvtColor(prev_frame, cv2.COLOR_BGR2GRAY)

    # 创建概率背景减法模型
    bg_model = cv2.createBackgroundSubtractorMOG2()

    # 幻灯片计数器
    slide_counter = 0

    # 保存非重复帧的列表
    unique_frames = [prev_frame_gray]

    while True:
        # 读取当前帧
        ret, frame = video.read()
        if not ret:
            break

        # 背景减法帧差
        diff_frame = frame_difference(frame, prev_frame)

        # 判断是否保存帧
        if cv2.countNonZero(diff_frame) > frame_difference_threshold:
            cv2.imwrite(f"slide_{
      
      slide_counter}.jpg", frame)
            slide_counter += 1

        # 使用概率背景减法
        fg_mask, foreground_percent = background_subtraction(frame, bg_model)

        # 判断是否保存帧
        if foreground_percent > bg_subtraction_threshold:
            cv2.imwrite(f"slide_{
      
      slide_counter}.jpg", frame)
            slide_counter += 1

        # 更新前一帧
        prev_frame = frame.copy()
        prev_frame_gray = cv2.cvtColor(prev_frame, cv2.COLOR_BGR2GRAY)

        # 判断是否为重复帧并进行删除
        is_duplicate_frame = False
        for unique_frame in unique_frames:
            if is_duplicate(prev_frame_gray, unique_frame, duplicate_threshold):
                is_duplicate_frame = True
                break

        if not is_duplicate_frame:
            unique_frames.append(prev_frame_gray)

    # 生成幻灯片和保存为PDF图片(请使用适当的库实现)
        # 生成幻灯片和保存为PDF图片
    pdf = FPDF()

    # 设置页面尺寸为A4
    pdf.set_auto_page_break(auto=True, margin=15)

    for i in range(slide_counter):
        pdf.add_page()
        pdf.image(f"slide_{
      
      i}.jpg", x=15, y=15, w=pdf.w,h=pdf.h - 100)

        # 保存PDF文件
    pdf.output(output_path)

    # 关闭视频
    video.release()

# 调用函数进行视频到幻灯片转换处理
video_to_slides("input_video.mp4", "output_slides.pdf", 5000, 5000, 7)

猜你喜欢

转载自blog.csdn.net/weixin_42010722/article/details/131378121