音视频方案，音视频扩展内容（笔记）

视频方案，雷霄骅的专栏- http://blog.csdn.net/leixiaohua1020

> SI, TI

ITU-R BT.1788建议使用时间信息（TI，Temporal perceptual Information，也可以称时间复杂度）和空间信息（SI，Spatial perceptual Information，也可以称空间复杂度）来衡量视频的特性。
SI表征一帧图像的空间细节量。空间上越复杂的场景，SI值越高。TI表征视频序列的时间变化量。运动程度较高的序列通常会有更高的TI值。
SI计算方法：对第n帧视频进行Sobel滤波，然后对滤波后图像计算标准差。选这些帧中的最大值为SI。TI计算方法：求n与n-1帧图像的帧差，然后对帧差图像计算标准差。选这些帧中的最大值为TI。

> RTMP

RTMP协议是一个互联网TCP/IP五层体系结构中应用层的协议。RTMP协议中基本的数据单元称为消息（Message）。当RTMP协议在互联网中传输数据的时候，消息会被拆分成更小的单元，称为消息块（Chunk）。
RTMP协议中一共规定了十多种消息类型，分别发挥着不同的作用。例如，Message Type ID在1-7的消息用于协议控制，这些消息一般是RTMP协议自身管理要使用的消息，用户一般情况下无需操作其中的数据。Message Type ID为8，9的消息分别用于传输音频和视频数据。Message Type ID为15-20的消息用于发送AMF编码的命令，负责用户与服务器之间的交互，比如播放，暂停等等。消息首部（Message Header）有四部分组成：标志消息类型的Message Type ID，标志消息长度的Payload Length，标识时间戳的Timestamp，标识消息所属媒体流的Stream ID。
RTMP协议中规定，消息在网络上传输时被拆分成消息块（Chunk）。消息块首部（Chunk Header）有三部分组成：用于标识本块的Chunk Basic Header，用于标识本块负载所属消息的Chunk Message Header，以及当时间戳溢出时才出现的Extended Timestamp。

RTMP传输媒体数据的过程中，发送端首先把媒体数据封装成消息，然后把消息分割成消息块，最后将分割后的消息块通过TCP协议发送出去。接收端在通过TCP协议收到数据后，首先把消息块重新组合成消息，然后通过对消息进行解封装处理就可以恢复出媒体数据。

RTMP流媒体到视音频数据开始播放的全过程。
RTMP协议规定，播放一个流媒体有两个前提步骤：第一步，建立一个网络连接（NetConnection）；第二步，建立一个网络流（NetStream）。其中，网络连接代表服务器端应用程序和客户端之间基础的连通关系。网络流代表了发送多媒体数据的通道。服务器和客户端之间只能建立一个网络连接，但是基于该连接可以创建很多网络流。

rtmpdump 是一个用来处理 RTMP 流媒体的开源工具包，支持 rtmp://, rtmpt://, rtmpe://, rtmpte://, and rtmps://.也提供 Android 版本。

> RTMPDump（libRTMP），RTMPdump源代码分析- https://blog.csdn.net/leixiaohua1020/article/list/17

rtmpdump 是一个用来处理 RTMP 流媒体的工具包，支持 rtmp://, rtmpt://, rtmpe://, rtmpte://, and rtmps:// 等。AMF编码广泛用于Adobe公司的Flash以及Flex系统中。由于RTMP协议也是Adobe公司的，所以它也使用AMF进行通信。/*AMF数据采用 Big-Endian（大端模式），主机采用Little-Endian（小端模式） */ 。因为消息（Message）在网络上传播的时候，实际上要分割成块（Chunk）。

> MPEG-7
MPEG-7的正式名称是“多媒体内容描述接口”(Multimedia Content Description Interface)，是由运动图像专家组(MPEG, Moving Picture Experts Group)提出的一个用于描述多媒体内容的ISO/IEC标准。
简单而言，MPEG-7其实就是一个规定如何来描述多媒体内容的特征的标准。MPEG-2、MPEG-4关注的是多媒体本身的编码压缩，而MPEG-7关注的是多媒体内容特征的描述。MPEG-7标准仅仅规定了如何描述，组织特征。特征的提取、特征的使用不属于MPEG-7标准的范围。

MPEG-7比不针对特定的应用领域。就目前来看，适合应用MPEG-7的领域包括：
<1> 基于内容的多媒体搜索（包括图像搜索、哼唱搜索、语音搜索等）
<2> 图像理解

<3> 其他需要使用大量多媒体特征的应用

MPEG-7(Multimedia Content Description Interface，多媒体内容描述接口)，MPEG-7是为互联网视频检索制定的压缩标准。。

视频工作者应该知道的几个网站- https://blog.csdn.net/leixiaohua1020/article/details/11729929
EvalVid - http://www2.tkn.tu-berlin.de/research/evalvid/
压缩编码DOOM9论坛- http://forum.doom9.org/
压缩编码中华视频网- http://www.chinavideo.org/portal.php

AAC的音频文件格式有以下两种：（开源AAC解码器faad）
1.ADIF：Audio Data Interchange Format 音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始，不需进行在音频数据流中间开始的解码，即它的解码必须在明确定义的开始处进行。故这种格式常用在磁盘文件中。
2.ADTS：Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流，解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。这种格式可以用于广播电视。
简言之。ADIF只有一个文件头，ADTS每个包前面有一个文件头。

杜比数字AC-3（DolbyDigital AC-3）是杜比公司开发的新一代家庭影院多声道数字音频系统。杜比定向逻辑系统是一个模拟系统。杜比数字AC-3提供的环绕声系统由五个全频域声道加一个超低音声道组成，所以被称作5.1个声道。五个声道包括前置的“左声道”、“中置声道”、“右声道”、后置的“左环绕声道”和“右环绕声道”，它不仅具有很好的兼容性，它除了可执行自身的解码外，还可以为杜比定向逻辑解码服务，另外，原理上是它将每一声道的音频根据人耳听觉特性划分为许多最优的狭窄频段，利用音响心理学“听觉掩蔽效应”，删除人耳所听不到或可忽略的部分，并采用数字信号压缩编码。

视频参数（流媒体系统对比，封装格式对比，视频编码对比，音频编码对比，播放器对比）https://blog.csdn.net/leixiaohua1020/article/details/11842919

电视机产业也需要一个更新换代的由头才能维持自身的生存，从前些年的 1080p、加密模块卡一体化、LED 背光到现在的智能电视、立体呈像，电视机行业每年都必须拿出点新东西来作为卖点推销给消费者，而超高清电视带来的产业链变革可以让几乎整个电视（电视机、机顶盒、编解码芯片等）、IT 产业（例如 4K 相关的软件、存储产品、互联网商等）都能获益。 7680*4320（UHDTV 8K）分辨率。UHDTV 规范 ITU-R Rec.2020 是视频方面的规格。机顶盒实质上是一个网页浏览器，每次开机之后会访问固定的网页，而该网页就是机顶盒的开机界面。
传统而言，色彩的可视范围取决于系统本身的基色（primaries，或者说原色）特性，但是色彩的准确度（accuracy）却取决于编码系统。到目前为止，人们都是把某一型号或者某种类型的显示设备基色定义为系统基色。

在数字视频应用产业链的快速发展中，面对视频应用不断向高清晰度、高帧率、高压缩率方向发展的趋势，当前主流的视频压缩标准协议H.264(AVC)的局限性不断凸显。同时，面向更高清晰度、更高帧率、更高压缩率视频应用的HEVC(H.265)协议标准应运而生。
H.264的一些关键算法例如采用CAVLC和CABAC两种基于上下文的熵编码方法、deblock滤波等都要求串行编码，并行度比较低。针对GPU/DSP/FPGA/ASIC等并行化程度非常高的CPU，H.264的这种串行化处理越来越成为制约运算性能的瓶颈。

> AAC专利,H.264的版权
H.264的版权由美国MPEG-LA公司；Via Licensing 管理的专利池为您提供高效、成本效益好的方式，以便从多个授权人获取使用 AAC 核心专利的权利。该授权计划常称为“联合”AAC 授权。
AAC（高级音频编码）是音频压缩方案，并于 1997 年首次在 MPEG 内实现标准化。设计 AAC 的目的是，以低于以前 MPEG 音频压缩格式的比特率提供高品质音频。AAC 通过 MPEG-4 标准化流程实现了进一步完善，并最终利用带宽扩展技术进行了增强，由此产生 High Efficiency AAC；利用新增的参数化立体声产生 High Efficiency AAC version 2 (HE AAC v2)。

LAV Filter 是一款开源的DirectShow视频分离和解码软件，他的分离器LAVSplitter封装了FFMPEG中的libavformat，解码器LAVAudio和LAVVideo则封装了FFMPEG中的libavcodec。它支持十分广泛的视音频格式。
LAV Filter- https://github.com/Nevcairiel/LAVFilters http://code.google.com/p/lavfilters/
LAV Filter支持状况：
封装格式：MKV/WebM, AVI, MP4/MOV, MPEG-TS/PS (including basic EVO support), FLV, OGG, 以及其他ffmpeg支持的格式！
视频编码：H264, VC-1, MPEG-2, MPEG4-ASP (Divx/Xvid), VP8, MJPEG 等。
音频编码：AAC, AC3, DTS(-HD), TrueHD, MP3/MP2, Vorbis, LPCM 等。
字幕：VOB, DVB Subs, PGS, SRT, SSA/ASS, Text

IPTV监测设备主要用于设备和系统部署完成后对系统进行监视，测试设备主要用于在系统部署之前对系统和系统中用到的设备进行测试和验证。

QoS（Qualityof Service）服务质量，是网络的一种安全机制, 是用来解决网络延迟和阻塞等问题的一种技术。当网络过载或拥塞时，QoS 能确保重要业务量不受延迟或丢弃，同时保证网络的高效运行。

流媒体数据传输中的时延和抖动是可以通过缓存的办法减少影响，所以流媒体业务可以允许在一定范围内的时延和抖动。但丢包会对流媒体数，据播放质量造成极其重大的影响。丢包率会造成视频和音频质量严重恶化，小的丢包率会造成图像的失真和语音的间歇中断，过高的丢包率甚至可以导致业务的中断。网络设计的目标是丢包率为零，但显然不存在这样的理想网络。所以丢包的大小将直接决定流媒体业务质量的好坏。

> MediaInfo

-- MediaInfo 用来分析视频和音频文件的编码和内容信息,是一款是自由软件 (免费使用、免费获得源代码）。
MediaInfo 用来分析视频和音频文件的编码和内容信息,是一款是自由软件 (免费使用、免费获得源代码）。他除了提供DLL之外，本身也提供GUI工具用于查看视频信息。新版本的MediaInfo支持HEVC。

使用MediaInfo可以获得多媒体文件的哪些信息?
内容信息：标题，作者，专辑名，音轨号，日期，总时间……
视频：编码器，长宽比，帧频率，比特率……
音频：编码器，采样率，声道数，语言，比特率……
文本：语言和字幕
段落：段落数，列表

MediaInfo支持哪些文件格式?
视频：MKV, OGM, AVI, DivX, WMV, QuickTime, Real, MPEG-1, MPEG-2, MPEG-4, DVD (VOB)...
(编码器：DivX, XviD, MSMPEG4, ASP, H.264, AVC...)
音频：OGG, MP3, WAV, RA, AC3, DTS, AAC, M4A, AU, AIFF...
字幕：SRT, SSA, ASS, SAMI...

MediaInfo的主要功能特点：
支持众多视频和音频文件格式
多种查看方式：文本，表格，树形图，网页……
自定义查看方式
信息导出：文本，CSV，HTML……
三种发布版本：图形界面，命令行，DLL(动态链接库)
与Windows资源管理器整合：拖放，右键菜单

国际化：有多种界面语言供选择.

MediaInfo 用来分析视频和音频文件的编码和内容信息，是一款是自由软件 (免费使用、免费获得源代码）。

SDL库的作用是封装了复杂的视音频底层操作，简化了视音频处理的难度。SDL（Simple DirectMedia Layer）是一套开放源代码的跨平台多媒体开发库，使用C语言写成。SDL提供了数种控制图像、声音、输出入的函数，让开发者只要用相同或是相似的代码就可以开发出跨多个平台（Linux、Windows、Mac OS X等）的应用软件。目前SDL多用于开发游戏、模拟器、媒体播放器等多媒体应用领域。

3D视觉原理之深度暗示（即立体感）主要有两种：心理深度暗示和生理深度暗示。心理深度暗示主要由平时的经验积累获得。即使用单眼观看也会使人有3D效果。生理深度暗示包括单眼立体视觉暗示和双眼立体视觉暗示。单眼立体视觉暗示包括有两种：焦点调节和单眼移动视差。双眼立体视觉暗示主要利用的是人的两眼在观察同一物体的时候成像的不同来获得物体的前后关系。由于左眼看到物体的左边多一点，右眼看到的物体右边多一点，因而形成了视觉上的差异，即双目视差（如图所示）。双目视差是获得深度信息的生理基础。当前的3D系统基本上采用的都是该原理进行成像。换句话说，就是分别让左眼和右眼在同一时间看到不同的图像。
3D显示技术：分别让左眼和右眼在同一时间看到不同的图像。红蓝3D。偏振光3D。快门3D。

> MPEG4

ISO/IEC 14496是MPEG专家组制定的MPEG-4标准于1998年10月公布第1版，1999年1月成为国际标准，1999年12月公布了第2版，2000年初成为国际标准。MPEG4分为21个部分：
（1）ISO/IEC 14496-1系统部分，描述了组成一个场景的音频和视频成分之间的关系
（2、3）ISO/IEC 14496-2视频部分和ISO/IEC 14496-3音频部分，分别规定自然的和合成的视频对象、音频对象的编码表示。（MPEG4编码方式）
（4）ISO/IEC 14496-4一致性测试部分，定义了比特流和设备的一致性条件，用来测试MPEG-4的实现。
（5）ISO/IEC 14496-5参考软件，包括与MPEG-4的主要部分相对应的软件。
（6）ISO/IEC 14496-6多媒体传送整体框架DMIF，这是MPEG-4应用层与传输网络的接口，定义了通信协议，使MPEG-4系统的数据流能进入各种传输网络。还包含一个存储格式MP4，用于存储编码的场景。
(7) ISO/IEC 14496-7为MPEG-4工具优化软件，提供了对实现进行优化的例子(这里的实现指的是第五部分)。
（8）ISO/IEC 14496-8，定义了在IP网络上传输MPEG-4内容的方式。
（9）ISO/IEC 14496-9为参考硬件描述，提供了用于演示怎样在硬件上实现本标准其他部分功能的硬件设计方案。
（10）ISO/IEC 14496-10高级视频编码AVC，定义了一个被称为AVC的视频编解码器。（就是H.264）
（11）ISO/IEC 14496-11，场景描述和应用引擎。
（12）ISO/IEC 14496-12，ISO媒体文件格式，定义了一个存储媒体内容的文件格式。
（13）ISO/IEC 14496-13知识产权管理和保护（IPMP）扩展。
（14）ISO/IEC 14496-14，MP4文件格式，定义了基于第十二部分的用于存储MPEG-4内容的容器文件格式。（.mp4封装格式）
（15）ISO/IEC 14496-15，AVC文件格式，定义了基于第十二部分的用于存储第十部分的视频内容的文件格式。
（16）ISO/IEC 14496-16动画框架扩展AFX（Animation Framework eXtension）。
（17）ISO/IEC 14496-17，同步文本字幕格式(尚未完成，2005年1月达成"最终委员会草案"。
（18）ISO/IEC 14496-18，字体压缩和流式传输(针对公开字体格式)。
（19）ISO/IEC 14496-19，综合材质流(Synthesized Texture Stream)。
（20）ISO/IEC 14496-20，简单场景表示(尚未完成，2005年1月达成"最终委员会草案"。
（21）ISO/IEC 14496-21，用于描绘(Rendering)的MPEG-J拓展(尚未完成，2005年1月达成"委员会草案"。

RTSP(Real-TimeStream Protocol )是一种基于文本的应用层协议。RTSP被用于建立的控制媒体流的传输，它为多媒体服务扮演“网络远程控制”的角色。尽管有时可以把RTSP控制信息和媒体数据流交织在一起传送，但一般情况RTSP本身并不用于转送媒体流数据。媒体数据的传送可通过RTP/RTCP等协议来完成。
AAC规格有三种：LC-AAC（最基本的），HE-AAC（AACPlus v1），HE-AAC v2（AACPlus v2）。
HE：“High Efficiency”（高效性）。HE-AAC v1（又称AACPlusV1，SBR)，用容器的方法实现了AAC（LC）和SBR技术。SBR其实代表的是Spectral Band Replication(频段复制)。简要叙述一下，音乐的主要频谱集中在低频段，高频段幅度很小，但很重要，决定了音质。如果对整个频段编码，若是为了保护高频就会造成低频段编码过细以致文件巨大；若是保存了低频的主要成分而失去高频成分就会丧失音质。SBR把频谱切割开来，低频单独编码保存主要成分，高频单独放大编码保存音质，“统筹兼顾”了，在减少文件大小的情况下还保存了音质，完美的化解这一矛盾。
HEv2：用容器的方法包含了HE-AAC v1和PS技术。PS指“parametric stereo”（参数立体声）。原来的立体声文件文件大小是一个声道的两倍。但是两个声道的声音存在某种相似性，根据香农信息熵编码定理，相关性应该被去掉才能减小文件大小。所以PS技术存储了一个声道的全部信息，然后，花很少的字节用参数描述另一个声道和它不同的地方。
LC-AAC，HE-AAC，HE-AAC v2比特率和主观质量之间的关系。由图可见，在低码率的情况下，HE-AAC，HE-AAC v2编码后的音质要明显好于LC-AAC.

OTT TV一般情况下使用HTTP传输视音频内容，而IPTV一般情况下使用RTP传输视音频内容。HTTP是基于TCP的，因此不会出现丢包情况。而RTP是基于UDP的，因而会出现丢包状况。正是因为这点不同导致IPTV 质量评价方法已经不适用于 OTT TV 质量评价。传统的网络视频IPTV业务主要是基于UDP承载视频流的，UDP承载的特点是实时性好，但出现丢包则不会重传，抖动和时延过大的包会被丢弃，对视频流而言是一种有损传输。
HTTP视频业务是基于TCP承载视频流的，TCP承载的特点是可靠连接，无损传输。丢包后会进行重传，抖动和延时会被客户端的下载缓冲所消化，一般情况下客户不会感知。只有缓冲区的视频播放完又没有及时下载到新的视频片段时，才会出现画面等待并缓冲
视频传输质量测量目的是以仪表模拟大量用户访问，衡量网络在大流量情况下的服务质量。而编码质量则取决于编码算法，与用户量或网络状态是无关的。例如VOD业务，它是编码软件离线编码后，把文件以非实时的方式送入网络存储（如CDN），再由网络向用户提供服务的。
　传统的视频质量分析是基于有损传输的，MOS等指标本意是进行初步的综合的视频质量指示，以便做服务质量对比，再进一步做深入的指标分析，例如分析媒体流损伤情况、网络层丢包、抖动、延时等问题，最终找到影响用户体验的原因，并予以解决。
但由于HTTP视频的特殊性，不存在图像损伤，网络丢包、抖动、延时等网络问题都无法影响到MOS指标，而HTTP视频业务中，由于网络损伤而真正影响用户体验的主要问题，缓冲等待时间、等待次数、视频码率降低等都无法反应出来。

电子产品测评类网站——Zealer。http://www.zealer.com/。RTP/RTCP QoS 测量：丢包、抖动、乱序和延迟。

Dolphin播放器(Dolphin Player)是一款开源的音频和视频播放器，它支持大多数的音频和视频文件模式，也支持大部分的字幕文件格式。它是基于ffmpeg的。http://code.google.com/p/dolphin-player/。live555是使用十分广泛的开源流媒体服务器。

> MPEG-21
MPEG-21 Multimedia Framework，MPEG-21标准其实就是一些关键技术的集成，通过这种集成环境就对全球数字媒体资源进行透明和增强管理，实现内容描述、创建、发布、使用、识别、收费管理、产权保护、用户隐私权保护、终端和网络资源抽取、事件报告等功能。
MPEG－21 Multimedia Framework是致力于在大范围的网络上实现透明的传输和对多媒体资源的充分利用。MPEG－21致力于为多媒体传输和使用定义一个标准化的开放框架。这种框架将在开放的市场中为内容提供商和业务提供商创造同等的机会。同时，这将在一种互操作的模式下为用户提供更丰富的信息，用户将因此而受益。
MPEG－21景象可以总结如下：一个多媒体框架，它可以在广阔的范围里，为不同的网络用户提供透明的和可不断扩展的多媒体资源。 MPEG－21基于两个基本概念：分布和处理基本单元DI（the Digital Item）以及DI与用户间的互操作。 MPEG－21也可表述为：以一种高效、透明和可互操作的方式支持用户交换、接入、使用甚至操作DI的技术。

Tcl(最早称为“工具命令语言”"Tool CommandLanguage")是一种脚本语言。由John Ousterhout创建。Tcl很好学，功能很强大。Tcl经常被用于快速原型开发,脚本编程，GUI和测试等方面。

QoE最初被理解为用户对提供给OSI模型不同层次的QoS机制整体感知的度量．服务层面的影响因素又包括网络(或者传输)层、应用层及服务层的参数．传输层的参数反映网络传输的状况，如延迟、带宽、丢包率、误码率、抖动等．应用层的参数反映没有经过传输的服务的性能，包含了OSI模型中会话层、表示层、应用层对服务的影响，如IPTV服务中的内容分辨率、编解码类型等．服务层的参数确定了通信的语义、内容、优先级、重要性以及定价，如服务层的配置(内容类型、服务的应用级别)及质量保证．环境层面的影响因素包括自然环境(如光照条件、噪声的大小、环境的固定或移动)，人文与社会环境(如社会观念、文化规范)以及服务运行环境(包括软硬件环境)等．用户层面的因素包括用户的期望、体验经历、用户体验时所处的身心状态和自身背景(如年龄、性别、受教育程度、价值观念等)．

DirectShow Filter，字幕叠加（FilterTitleOverlay）。

MediaInfo 用来分析视频和音频文件的编码和内容信息,是一款是自由软件 (免费使用、免费获得源代码）。MediaInfo中解码JPEG信息。

在各种计算机体系结构中，对于字节、字等的存储机制有所不同，因而引发了计算机通信领域中一个很重要的问题，即通信双方交流的信息单元（比特、字节、字、双字等等）应该以什么样的顺序进行传送。目前在各种体系的计算机中通常采用的字节存储机制主要有两种：big-edian和little-endian。
现代的计算机系统一般采用字节(Octet, 8 bit Byte)作为逻辑寻址单位。当物理单位的长度大于1个字节时，就要区分字节顺序(Byte Order, orEndianness)。常见的字节顺序有两种：Big Endian(High-byte first)和Little Endian(Low-byte first)。Intel X86平台采用Little Endian，而PowerPC处理器则采用了Big Endian。
大端Big-Endian：低地址存放最高有效位（MSB），既高位字节排放在内存的低地址端，低位字节排放在内存的高地址端。
计算机体系结构中一种描述多字节存储顺序的术语，在这种机制中最高有效位（MSB）存放在最低端的地址上。采用这种机制的处理器有IBM3700系列、PDP-10、Mortolora微处理器系列和绝大多数的RISC处理器。
小端Little-Endian：低地址存放最低有效位（LSB），既低位字节排放在内存的低地址端，高位字节排放在内存的高地址端。计算机体系结构中一种描述多字节存储顺序的术语，在这种机制中最不重要字节（LSB）存放在最低端的地址上。采用这种机制的处理器有PDP-11、VAX、Intel系列微处理器和一些网络通信设备。该术语除了描述多字节存储顺序外还常常用来描述一个字节中各个比特的排放次序。
网络字节序 Network Order：
TCP/IP各层协议将字节序定义为Big-Endian，因此TCP/IP协议中使用的字节序通常称之为网络字节序。
Java使用的是Big-Endian。

开源流媒体系统：OBS ( Open Broadcaster Software ) - http://sourceforge.net/projects/obsproject/
使用了以下开源库：
x264 - H.264编码库
libmp3lame - MP3编码库
libfaac - AAC编码库
librtmp - RTMP协议工具库
libsamplerate -音频重采样库

LAV Filter 是一款视频分离和解码软件，他的分离器封装了FFMPEG中的libavformat，解码器则封装了FFMPEG中的libavcodec。它支持十分广泛的视音频格式。LAV Filter 中最著名的就是 LAV Splitter，支持Matroska /WebM，MPEG-TS/PS，MP4/MOV，FLV，OGM / OGG，AVI等其他格式，广泛存在于各种视频播放器（暴风影音这类的）之中。
源代码位于GitHub或Google Code：https://github.com/Nevcairiel/LAVFilters http://code.google.com/p/lavfilters/
LAV Filter整个解决方案由8个工程组成，以下为一部分：
baseclasses：DirectShow基类，在DirectShow的SDK中也有，是微软为了简化DirectShow开发而提供的。
Demuxers：解封装的基类，LAVSplitter需要调用其中的方法完成解封装操作。
LAVAudio：音频解码Filter。封装了libavcodec。
LAVSplitter：解封装Filter。封装了libavformat。
LAVVideo：视频解码Filter。封装了libavcodec。
libbluray：蓝光的支持。

x264是一个 H.264/MPEG4 AVC 编码器，如何创建高质量的H.264视频。码率控制
对于普通用户通常有两种码率控制模式：crf（Constant Rate Factor)和Two pass ABR。码率控制是一种决定为每一个视频帧分配多少比特数的方法，它将决定文件的大小和质量的分配。

Google VP8/Vorbis/WebM （统称为 WebM）.

> 图像检索LIRe

Rui Gan等人在论文《Using LIRe to Implement Image Retrieval System Based on Multi-Feature Descriptor》中，测试了开源基于内容的图像检索类库LIRe的各种图像特征的性能。LIRE（Lucene Image REtrieval）提供一种的简单方式来创建基于图像特性的Lucene索引。利用该索引就能够构建一个基于内容的图像检索(content- based image retrieval，CBIR)系统，来搜索相似的图像。LIRE使用的特性都取自MPEG-7标准： ScalableColor、ColorLayout、EdgeHistogram，目前已经支持其他更多的特性。此外该类库还提供一个搜索该索引的方法。

fdshow支持很多种滤镜，可以支持多种视频和音频的后期效果。例如OSD滤镜支持在视频的左上角显示视频相关的信息。而可视化滤镜则支持显示视频每一帧的运动矢量以及量化参数。位图覆盖（Bitmap）滤镜（Filter）。

LAV Video 是使用很广泛的DirectShow Filter。它封装了FFMPEG中的libavcodec，支持十分广泛的视频格式的解码。

Media Player Classic - Home Cinema (mpc-hc)播放器一个经典的影音播放器，可播放CD、VCD、DVD、及MP3、MP4、AVI、AAC等多种影音格式。

QoS：服务质量（QoS）这个术语被广泛地应用，并且随着新的通信环境的不断出现，其本身的应用范围也越来越广，比如有关于宽带网、无线网以及新兴的各种多媒体服务的内容。
QoE：此外，体验质量（QoE）这个术语也被广泛用于描述用户对于所交付服务的满意度。
QoS的作用是支持特定应用的特点和属性，然而的不同的应用可能有着差别很大的要求。例如，对于远程医疗，交付的准确性就比整体延迟或分组时延偏差（也就是抖动）更加重要，但是对于IP电话而言，抖动和延迟就是关键问题，而且必须进行最小化处理。QoS支持的体系结构框架的重点是网络内的某些机制提供所需的网络性能。

ITU-T Technical Paper： QoS的构建模块与机制- https://blog.csdn.net/leixiaohua1020/article/details/13508319
通过应用通信的通用参考架构模型，QoS的构建模块可以组织成三个平面内：
控制平面: 包括了与用户流量通过路径相关的处理机制（例如接入控制、QoS路由和资源预留）；
数据平面: 包括了与用户流量的直接处理有关的机制（例如缓冲管理、拥塞避免,数据包标记、排队和调度、流量分类、流量监管和流量整形）；
管理平面: 包括了与网络的操作和管理方面有关的处理机制（例如SLA、流量恢复、计量和记录,和相关策略）。控制平面机制的关键作用是控制网络服务的响应和流量。

音视频方案，音视频扩展内容（笔记）

猜你喜欢