音视频方案，音视频扩展内容 2（笔记）

视频方案，雷霄骅的专栏- http://blog.csdn.net/leixiaohua1020

短视频的特效处理，每秒钟要处理几十张甚至更多的视频画面，所以简单的 C 语言处理算法并不能满足性能上的要求，我们需要使用手机的硬件加速能力，目前除了常见的 OpenGL 等 API 之外，还有如 Vulkan, DirectX, Metal 等可选方案。就目前而言，OpenGL 在各平台上通用性最好

IP网络测量模型。测量网络模型应该包括如下三种情况，它们都是由供应商提供的，用于保证不同端点之间的交付服务:
*边到边(Edge-Edge)：扩展到供应商网络的边缘；
*站点到站点(Site-Site)：扩展到客户端的边缘（也被称作端到端）；
*终端到终端(TE-TE)：扩展到客户终端。

IP服务性能模型.基于IP的平台通信服务通常以两种方式进行：垂直和水平方式。分层（垂直）模型.
通用（水平）模型，服务性能的通用模型处理的是IP网络的水平配置，并且主要由两部分组成：交换链接和网段。每个性能参数都可用于在一个网段或一组串联的网段上单向转移的IP数据包

对多媒体应用中视频质量的主观评估方法。数字广播系统允许提供多媒体和数据广播应用，包括视频、音频、静态图像、文本和图表。

IPTV性能监测点。IPTV的体验质量(QoE)要求。代表电信市场所有各方（即用户、服务提供商、制造商和监管机构）的利益。

rtmpdump 是一个可以通过RTMP协议下载流媒体的工具.

OpenCV 实现颜色直方图。颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是不同色彩在整幅图像中所占的比例，而并不关心每种色彩所处的空间位置，即无法描述图像中的对象或物体。颜色直方图特别适于描述那些难以进行自动分割的图像。OpenCV 可以使用光流法检测物体运动。使用OpenCV可以对图像的轮廓进行检测。

纯音频，不包含视频的那种。SDL播放音频，一般情况下不会有问题。

Holly French等人在论文《Real Time Video QoE Analysis of RTMP Streams》中，研究了基于RTMP的实时视频的QoE。码率（bitrate）与帧率或者带宽结合，可以相对准确的反映RTMP视频流的QoE。
对于高清晰度的视频，使用带宽+码率（BW+BR）预测QoE的精确度能达到80%。
对于标准清晰度的视频，使用码率+帧率（BR+FR）或者单独使用码率预测QoE的精确度能达到70%。

ffdshow封装了多个视音频解码器，比如libmpeg2，libavcodec，xvid等等。其中最重要的是libavcodec，这个是ffmpeg提供的解码器，在ffdshow中起到了“挑大梁”的作用。

Hans Hoffmann等人在论文《Studies on the Bit Rate Requirements for a HDTV Format With 1920 x 1080 pixel Resolution, Progressive Scanning at 50 Hz Frame Rate Targeting Large Flat Panel Displays》即《基于大型平板显示器的HDTV格式视频（分辨率为1920x1080，逐行扫描，帧率为50Hz）的码率的要求的研究》中，研究了HDTV的码率和视频质量之间的关系。HDTV（1920x1080）码率和视频质量关系的研究。
T. Hossfeld等人在论文《INITIAL DELAY VS. INTERRUPTIONS: BETWEEN THE DEVIL AND THE DEEP BLUE SEA》中，研究了网络中延迟对主观感受的影响。延迟分为两种类型initial delays（初始化时延），stalling（暂停）。第一种是视频加载时候的延迟，第二种是视频播放时候的延迟。
Youtube视频加载分为Laboratory，Crowdsourcing两种类型。UMTS connection setup 指的是3G网络建立连接的时间。authentication in social networks指的应该是社交网络的登录验证时间。

-- 图像检索
有四种基于内容的图像分类方法，即颜色、纹理、形状和空间关系。
目前，提取颜色特征己经成为几乎所有基于内容图像分类技术的重要手段。由于颜色是物体必备的视觉特性，同一类物体一般会有相似的色彩特征，所以人们就根据这一点用色彩来对图像内容进行区分。颜色直方图在很多图像分类和检索系统中被广泛使用，得到了研究人员的普遍关注。
颜色矩(ColorMoments)是由Strieker等人提出的。它的主要思想就是用矩来表示图像中各种颜色的分布，再使用不同颜色分量的统计参数作为参量。低阶矩集中了颜色分布的主要信息，因而图像颜色分布的情况可以釆用颜色一阶矩、二阶矩、三阶矩表示出，更高阶的矩中几乎不会含有颜色信息。其中，一阶矩能够表示出图像的整体概况，即均值信息；二阶矩能够表示出图像细节变化，即方差信息；三阶矩能够表示出该幅图像的斜度信息。

纹理特征也是图像特征提取中一个非常重要的技术，它能够描绘出物体表面所具有的内在规律与结构。其基本的研究方法就是利用像素点的灰度值来找出图像中像素分布的规律。最早的提取纹理特征的方法就是Haralick等的灰度共生矩阵。EHD也是MPEG-7标准纹理描述符的一种。EHD提供了5种纹理边缘类型：垂直边缘的纹理，水平边缘的纹理、45度边缘的纹理、135度边缘的纹理、无方向边缘的纹理。

在图像特征提取中，研究者普遍认为形状是一个描绘轮廓的封闭曲线所包围的区域。根据学者们多年来的研究与实践，目前，主要有两大类描述形状特征的方法：基于边界特征方法和基于区域特征方法。基于边界的形状特征提取方法主要有傅里叶描述符、边界矩和边界方向直方图，基于区域的形状特征提取方法主要是不变矩。形状特征与颜色和纹理特征不同，必须先对图像中对象的边缘和区域进行分割和提取，在其实现方法上有一定的困难。

> 图像检索：几种基于纹理特征的图像检索算法
灰度共生矩阵是分析纹理特征的一种有效方法，该方法研究了图像纹理中灰度级的空间依赖关系。它对灰度的分布特性是通过对灰度值不同的像素的分布来表示的，同时这些像素对空间位置关系和分布特性也得到了体现。主要过程是，以像素对的方向和距离为变化量建立共生矩阵，再从此矩阵中提取可以表征图像内容的统计量(能量、熵、惯性矩、相关量)作为纹理特征。这样的过程满足检索准确度的情况下，降低了计算量。

基于共生矩阵的图像检索过程为：
(1)将图像库中的所有图像进行灰度量化，由原来的256级变化到16级；
(2)构造四个方向上的灰度共生矩阵，这四个方向分别是水平、垂直、对角线、反对角线，用数学式表示为0 °, 45 °, 90 °, 135°；
(3)构造出特征向量。将特征向量存在特征矩阵中，特征矩阵的每一列为一幅图像的特征向量，表示的是一幅图像。特征向量是由每幅图像的四个共生矩阵的四个特征参数的均值和方差所构成的；
(4)对特征矩阵进行高斯归一化；
(5)使用步骤(1)-(4)计算归一化后的待查询图像的特征向量；
(6)利用欧氏距离来进行相似度测量，将示例图与特征矩阵中所有的特征向量进行匹配。

因为由灰度共生矩阵的统计特性得到的纹理特征与人类的视觉感知没有建立对应关系，Tamura等人提出了纹理特征的6种属性，分别为对比度、粗糙度、方向度、规整度、线性度和粗略度，其中前三者作用较大。

1946年 Gabor 博士提出了最早的通过高斯函数加上频移后产生的 Gabor 函数。Gabor 滤波器组在多分辨率方面比小波优点突出，并已经证明 Gabor 变换在 2D 测不准(时间分辨率和频率分辨率是一对矛盾的量)的情况下，对信号的频率域和空间域能够最优描述。Gabor 特征已经应用在很多图像分析中。

小波分析是 1980 年发展起来的一门新的数学分析工具，由于其良好的多尺度分析特性，包括正交性、紧支撑性、消失矩和对称性，近年来取得了巨大的发展，在医学成像、信号分析方面起了推动作用被广泛应用在图像检索领域中,例如可以用于图像压缩，图像融合，图像增强等。

傅里叶变换已经广泛的使用在图像处理研究中，它的优点之一是强调了图像所包含的主要频域和主要方向；另一个优点是，频域特征比空域特征有更好的抗噪性。如果可以充分利用傅里叶的这些优点，会节约资源，同时提高运算速度。
将频域分割为扇形区域的优点是能在频域获得对能量谱更加准确的描述。每个扇形都描述了纹理的大量方向度和粗糙度，它可以综合环形与楔形区域的优点，这样在图像的检索过程中有大量的信息可以使用，同时提高检索的效率。第二个优点就是利用傅里叶变换的对称性的特性可以只计算傅里叶空间的一半，这样可以减少总的计算时间。大家都知道，提高检索的效率对于用户来说比较重要，如果可以快速准确的得到用户所需要的图像，这就是图像检索的最终目标。

MPEG-7 标准中视觉描述工具包括基本结构和描述符。MPEG-7 主要定义了七种颜色描述符：颜色空间、主颜色、颜色的量化、颜色直方图、颜色布局、GOF/GOP 颜色、颜色结构、对颜色的特征和结构进行描述。
①颜色空间，该描述符主要用于其它基于颜色的描述。当前描述所支持的颜色空间有：RGB、YCbCr、HSV、HMMD、关于 RGB 的线性变换矩阵、单色。
②颜色量化，该描述符定义了颜色空间的均匀量化。量化产生的维（bin）的数目是可配置的，这样使得各种应用具有更大的灵活性。要使这个描述符在 MPEG-7 背景下有应用意义，例如表示主颜色值的含义，必须结合其它颜色描述符。
③主颜色，该描述符最适用于表示局部（对象或图像区域）特征，几种颜色就足以表达我们感兴趣区域的颜色信息。当然，它也可以用于整个图像，例如旗帜图像或彩色商标图像。颜色量化用于提取每个区域/图像的少数代表颜色，并相应的计算出区域中的每种量化颜色所占的百分比。同时还定义了整个描述符的空间相关性，用于相似性检索。
④颜色布局，该描述符以一种紧凑的形式，有效的表达了颜色的空间分布。这种紧凑性以很小的计算代价，带来高速的浏览和检索。它提供图像与图像的匹配和超高速的片断与片断的匹配，这些匹配要求大量相似性计算的重复。由于该描述符表达了颜色特征的布局信息，因此它可以提供相当友好的用户接口，例如使用其它颜色描述符中均不支持的手绘草图查询。
⑤可伸缩颜色，该描述符是 HSV 颜色空间的颜色直方图（用 Haar 变换编码）。根据维的数目和比特表示的精度，它的二进制表示在一定数据速率范围内是可伸缩的。这个描述符主要用于图像与图像的匹配和基于颜色特征的检索，检索的精度随着描述中使用的比特数目的增加而增加。
⑥颜色结构，该描述符是一个颜色特征描述符，它既包括颜色内容信息（类似于颜色直方图），又包括内容的结构信息。它的主要功能是图像与图像的匹配，主要用于静态图像检索，在这里一幅图像可能由一个单一矩形或者任意形状、可能是非连通的区域组成。提取的方法是：通过考虑一个 8×8 像素的结构化元素中的所有颜色，将颜色结构信息加入该描述符中，而不是单独考虑每个像素。
⑦帧组/图组颜色，该描述符将用于静态图像的可伸缩颜色描述符扩展到对视频片段或静态图像集合的颜色描述。在 Haar 变换之前，用附加的两个比特定义如何计算颜色直方图，是均值、中值还是相交。

MPEG-7 推荐了三种纹理描述符，同质纹理描述符（HomogenousTexture Descriptors）、纹理浏览描述符（Texture Browsing Descriptors）和边缘直方图描述符（Edge HistogramDescriptors）。

MPEG-7 定义了三种形状描述符：基于区域的形状（RegionShape）、基于轮廓的形状（Contour Shape）和三维形状（Shape 3D）
考虑到多媒体技术、虚拟世界和增强现实技术的持续发展，三维内容也成为当今多媒体信息系统的普遍特征。大多数情况下，三维信息是用多边形网格来表示的。MPEG-4的 SNHC 组研究这个问题并开发了有效的三维网格模型编码技术。在 MPEG-7 标准的框架中，要求对三维信息实现智能的基于内容的提取，用以查找、检索和浏览三维模型库。三维形状特征描述符对三维网格模型进行本质的形状描述，它善于挖掘三维表面的局部特征。

LIRe提供的图像检索算法的速度.LIRe的作者Mathias Lux发表的论文《LIRe: Lucene Image Retrieval - An Extensible Java CBIR Library》。主要介绍了LIRe的功能。
在LIRe中主要实现的图像特征有：
1.RGB和HSV空间的颜色直方图；
2.MPEG-7的颜色特征，包括Scalable color，Color layout和Edge Histogram；
3.Tamura纹理特征，包括粗糙度（Coarseness），对比度（Contrast）和方向度（Directionality）；
4.颜色和边缘的方向性描述符（Color and edge directivity descriptor, CEDD）；
5.模糊颜色和纹理直方图（Fuzzy color and texture histogram, FCTH）；
6.颜色关联图（Auto color correlation）；
7.尺度不变特征变换（Scale-invariant feature transform , SIFT）。

图像检索：CEDD（Color and Edge Directivity Descriptor）算法，颜色和边缘的方向性描述符（Color and Edge Directivity Descriptor，CEDD）。CEDD具有抽取特征速度较快，特征描述符占用空间较小的优势。CEDD特征结合了颜色和纹理两方面信息。

图像检索：CEDD（Color and Edge Directivity Descriptor）算法- https://blog.csdn.net/leixiaohua1020/article/details/16883379
RGB颜色模型的设计是根据色彩发光原理而来的，且与硬件相关，一般情况下，计算机都会釆用这种空间模型在屏幕上显示某种颜色的定义，即人们所熟悉的三色组合。所以，当从一幅图像中提取像素点时首先提取的一般也是像素点的RGB信息。
HSV模型中，H （Hue）代表色调，指通过物体传播或从物体射出的颜色，一般在使用中是由颜色名称来标识的。S （Saturation）代表饱和度，表示色调中灰色成分的比例，指颜色的纯度或强度。V （Value）代表亮度，指颜色相对的明暗程度。HSV模型能够较好地反应人对颜色的感知和鉴别能力，所以非常适合于比较基于颜色的图像相似性，在图像分类中也得到了广泛应用。在提取颜色信息前就需要对图像像素进行RGB-HSV的模型转换。

10-bins模糊过滤器是基于模糊理论的。10-bins模糊过滤器的工作过程是通过三个通道输入HSV信息，然后输出10个模糊的直方图信息值。10个直方图信息值的含义如下：（0）黒色（Black），（1）灰色（Gray），（2）白色（White），（3）红色（Red）, （4）橙色（Orange），（5）黄色（Yellow），（6）绿色（Green），（7）青色（Cyan），（8）蓝色（Blue），（9）品红色（Magenta）。
24-bins模糊过滤器就是将10-bins模糊过滤器输出的每种色区再分为3个H值区域，输入一个10维向量和S、V通道值，输出的是一个24维向量，其系统模型如图3-7所示。它输出的每一维所代表的信息分别是：（0）黑色（Black），（1）灰色（Grey），（2）白色（White），（3）暗红色（Dark Red），（4）红色（Red），（5）浅红（Light Red）,（6）暗橙色（DarkOrange），（7）橙色（Orange），（8）浅橙色（Light Orange），（9）暗黄色（Dark Yellow），（10）黄色（Yellow）, （11）浅黄色（LightYellow），（12）深绿色（Dark Green），（13）绿色（Green），（14）浅绿色（Light Green），（15）暗青色（Dark Cyan），（16）青色（Cyan），（17）浅青色（Light Cyan），（18）深蓝色（Dark Blue）,（19）蓝色（Blue），（20）淡蓝色（LightBlue），（21）暗品红色（DarkMagenta），（22）品红色（Magenta），（23）浅品红色（Light Magenta）。

YIQ色彩空间属于NTSC （国际电视标准委员会）系统。Y（Luminace）代表了颜色的明视度，直观点说就是图像的灰度值。I和Q （Chrominace）代表了色调信息，它们分别描述图像色彩以及饱和度的属性。在YIQ色彩空间模型中，Y分量表示图像的亮度信息，I和Q分量表示颜色信息，I分量是指从橙色到青色，Q分量则是指从紫色到黄绿色。

图像检索：图像相似性度量
图像检索的性能不仅依赖于所抽取的图像特征，在颜色、纹理和形状等图像特征被提取出并建立起索引后，图像检索的关键就在于所采用的相似度量(或距离度量)函数。它直接关系到图像检索的结果和检索效率。
基于文本的检索方法采用的是文本的精确匹配，而基于内容的图像检索系统是一种非精确的匹配，通过计算查询示例图像和候选图像之间视觉特征的相似度来完成。在颜色、纹理和形状等图像特征被提取出来后，形成特征向量，就可以用这个特征向量来表征对应的图像。在图像检索中，判断图像之间是否相似是通过比较这些特征向量是否相似来进行的。即把图像特征向量之间的比较就看成是图像相似度比较。显然，一个好的特征向量比较算法对图像检索结果影响很大的。
常用的图像相似度度量方法都是基于向量空间的模型，即将图像特征看作是向量空间中的点，通过计算两个点之间的距离接近程度来衡量图像特征间的相似性。特征的相似度匹配算法是跟特征值提取方法紧密相关的，颜色、纹理、形状的特征提取都有相对比较合适的相似度量算法。
常见的基于颜色特征的相似度量计算方法主要有绝对值距离、欧式距离、直方图相交法、x平方的距离、参考颜色表、中心矩等。
直方图相交法(histogram intersection)是由 Swain 等人于 1991 年首次提出的，直方图相交法计算简单快速并且能较好地抑制背景的影响。常见的基于纹理特征的相似度量计算方法主要有欧式距离和马氏距离等。其中欧式距离与颜色特征检索的欧式距离度量方法相同。

图像检索：FCTH（Fuzzy Color and Texture Histogram）算法，模糊颜色和纹理直方图（Fuzzy Color and Texture Histogram，FCTH）。
图像检索：基于形状特征的算法。形状通常与图像中的特定目标对象有关，是人们的视觉系统对目标的最初认识，有一定的语义信息，被认为是比颜色特征和纹理特征更高一层的特征。形状描述的准确与否是决定图像检索算法优劣的重要因素，一个好的形状描述符应具备独特性、完备性、几何不变性、灵活性以及抽象性。形状的描述符大体可以分为两大类：第一类是描述形状目标区域边界轮廓的像素集合，称为基于轮廓的形状描述符；第二类称为基于区域的形状描述符，是对形状目标区域内所有像素集合的描述。

镜头分割：像素域方法综述。基于像素的镜头分割主要是对视频帧的图像底层处理过程，包括亮度、灰度或者色彩值，其计算简单，原理是计算两帧之间的每个对应的像素的灰度(亮度)的变化。
基于直方图的算法是最普遍的分割方法，它实现简单方便，而且对于大多数视频能得到较好的效果。基于直方图的算法是在基于像素的比较上发展来的，基于直方图的算法通常是将相邻帧之间的各个像素的灰度、亮度等分为N 个等级，再针对每个等级统计像素数做成直方图比较，给出两个图像的直方图。

开源视频会议系统OpenMeetings是一个多语言可定制的视频会议和协作系统。说到OpenMeetings就应该提一下red5因为OpenMeetings 的视频服务是加载red5上面的。Red5是一款基于JAVA的免费的开源的Flash流媒体server.是当前最好的替代Adobe提供的FMS的开源软件。而且在可扩展性上有FMS不可比拟的优势。OpenMeetings是一款基于Flex开发的开源视频软件，通过RTMP和HTTP协议传送视频数据。支持在线聊天，视频，文件共享，桌面共享。支持多语言。

Flash Media Live Encoder包含两个工具：
1.Flash Media Live Encoder GUI（图像化界面）；
2.Flash Media Live Encoder command-line（命令行）。

iSpy是一个开源的视频监控软件，目前已经支持中文。iSpy是世界上功能最丰富的监控软件！一些关键的特点是：数量不限的摄像头和麦克风（包括网络摄像头和USB摄像头），运动检测（3种），运动处理（4种），检测后记录，按计划记录，包含音频的记录，远程访问，网络音频广播（通过iSpy服务器），密码保护，桌面记录，YouTube上传，短信，Twitter和电子邮件警报… http://www.ispyconnect.com/

开源视频平台：MediaCore（MediaDrop），MediaCore 是一个多媒体的建站系统，主要的功能包括视频、音频、YouTube集成、播客和 iTunes RSS 生成，用户可以提交各种多媒体内容。《开源中国》网站上说它是一个开源系统，但是在官方网站上没有找到源代码下载。后来发现它有商业版本和开源版本两种，开源版本原名叫MediaCore Community Edition，现在已经改名为MediaDrop。。 https://github.com/mediadrop/mediadrop/

Kaltura是一个很优秀的开源视频平台。提供了视频的管理系统，视频的在线编辑系统等等一整套完整的系统，功能甚是强大。Kaltura不同于其他诸如Brightcove，Ooyala这样的网络视频平台，主要区别表现在：一方面，它的代码是开源的，可以免费部署到企业；另一方面，它拥有一个模块化结构，可以让用户根据自己的需要购买平台的部分服务，而不是像其他公司那样采取一刀切的购买模式；最后它允许客户连接到Kaltura自己的托管平台，在后台部署自己的防火墙，为用户提供最大的安全保障。

网络视频平台。ViMP是一个开源的视频平台，可以用于建立自己的视频门户。可以用于VoD系统，网络学习系统，企业内部视频系统的搭建。

开源摄影机：Axiom Camera。摄影机有两种：Axiom 全功能摄影机和Alpha Prototype 可证明概念的原型。从理论的角度学习摄像机的结构。自由拼接的摄像机。

OpenNMS是一个开源的企业级基于Java/XML的分布式网络和系统监控管理平台。OpenNMS是管理网络的绝好工具，它能够显示网络中各中终端和服务器的状态和配置，为方便地管理网络提供有效的信息。

Magnolia 是一个开源基于Java的Web内容管理系统(CMS)，构建在Java内容知识库标准(JSR-170)。

Razuna以一个使用Java语言编写的开源的数字媒体资产管理（Digital Asset Management）系统。https://github.com/razuna/razuna
Razuna功能很强大，可以用于管理各种格式的数字媒体资源。

ProjectForge是一个Java编写的开源的基于Web的项目管理解决方案。包括：工时表(Timesheet)、费用管理、项目甘特图，控制和管理工程分解结构。集成JiRA做为问题管理系统。 https://github.com/micromata/projectforge-webapp

OFBiz是一个电子商务平台，是一个非常著名的开源项目，提供了创建基于最新J2EE/XML规范和技术标准，构建大中型企业级、跨平台、跨数据库、跨应用服务器的多层、分布式电子商务类WEB应用系统的框架。 OFBiz最主要的特点是OFBiz提供了一整套的开发基于Java的web应用程序的组件和工具。包括实体引擎, 服务引擎, 消息引擎, 工作流引擎, 规则引擎等。

开源图像检索工具：Caliph&Emir。Caliph&Emir是基于MPEG7的软件。它是用Java编写的开源软件。采用了lucene完成索引和检索功能。是研究MPEG7标准，图像检索等等方面不可多得的好工具。Caliph是一个软件，Emir也是一个软件。

XWiki是一个由Java编写的基于LGPL协议发布的开源wiki和应用平台。之前只接触过MediaWiki，但是MediaWiki是用PHP写的，一直想找找看有没有熟悉的JAVA语言的Wiki系统。于是乎就找到了XWiki。（http://www.xwiki.org/）

XBMC（全称是XBOX Media Center）是一个开源的媒体中心软件。XBMC最初为Xbox而开发，可以运行在Linux、OSX、Windows、Android4.0系统。 XBMC（全称是XBOX Media Center）是一个开源的媒体中心软件。Git地址：git://github.com/xbmc/xbmc.git

基于HEVC（H.265）的的应用级别的编码器发展的速度很快。所说的应用级别，就是指速度比较快的，有实际应用价值的编码器。目前可以直接使用的有两个：x265，DivX265。DivX265是DivX发布的HEVC编码器，不开源，但是免费，是基于控制台的。

Dan Grois等人在论文《Performance Comparison of H.265/MPEG-HEVC, VP9, andH.264/MPEG-AVC Encoders》中，比较了下一代编码标准HEVC，VP9的以及当前主流编码标准H.264之间的性能。
选用的编码器如下：HEVC：HM；VP9：libvpx；H.264：x264。

ImageMagik处理图片的功能很强大 vs PhotoShop。ImageMagick是一套功能强大、稳定而且开源的工具集和开发包，可以用来读、写和处理超过89种基本格式的图片文件，包括流行的TIFF、JPEG、GIF、PNG等格式。利用ImageMagick，你可以根据web应用程序的需要动态生成图片, 还可以对一个（或一组）图片进行改变大小、旋转、锐化、减色或增加特效等操作，并将操作的结果以相同格式或其它格式保存，对图片的操作，即可以通过命令行进行，也可以用C/C++、Perl、Java、PHP、Python或Ruby编程来完成。

视频压缩编码和音频压缩编码的基本原理- https://blog.csdn.net/leixiaohua1020/article/details/28114081
1.视频编码基本原理
（1）视频信号的冗余信息
（2）压缩编码的方法：（a）变换编码（b）熵编码（c）运动估计和运动补偿（d）混合编码
2.音频编码基本原理
（1）音频信号的冗余信息：（a）频谱掩蔽效应（b）时域掩蔽效应
（2）压缩编码方法

FFMPEG+SDL的简单播放器，FFMPEG用于编解码，SDL用于视频渲染。Github：https://github.com/leixiaohua1020/simplest_ffmpeg_player

常用编码软件简单使用记录 2 : 非自主编码器- https://blog.csdn.net/leixiaohua1020/article/details/39510759

音视频方案，音视频扩展内容 2（笔记）

猜你喜欢