精选58道——Android 音视频面试题

前言

音视频开发是一项具有挑战性和创新性的工作，在当今的科技领域中具有极其重要的地位。随着数字化娱乐和在线视频的广泛普及，音视频开发的相关技术和领域也变得越来越重要。作为音视频开发领域的一份子，我们需要掌握各种技术，理解基础理论以及熟练掌握各种工具。此外，我们还需要保持学术精神，不断尝试新的技术和方法，以满足不断变化和发展的需求。

本文旨在为那些正在寻找音视频开发工作的朋友和那些对音视频开发感兴趣的读者提供一些面试准备和指导。我们将介绍一些常见的音视频开发面试问题，总结一些常用的工具和技术，以及提供一些学术资源和学习建议。我们希望本文可以帮助读者增加对音视频开发的了解和认识，为未来的面试做好准备，并提高在音视频开发领域的技术水平和竞争力。

由于篇幅限制，有些面试题中的内容记录过多，文章版面放不下，中间有些只能用图片方式进展示部分，如需参考完整版的可以参考《Android 音视频面试整理篇》：https://qr18.cn/AcV6Ap

进入正题

1.为什么巨大的原始视频可以编码成很小的视频呢?这其中的技术是什么呢?

参考答案

1）空间冗余：图像相邻像素之间有较强的相关性
2）时间冗余：视频序列的相邻图像之间内容相似
3）编码冗余：不同像素值出现的概率不同
4）视觉冗余：人的视觉系统对某些细节不敏感
5）知识冗余：规律性的结构可由先验知识和背景知识得到

2.怎么做到直播秒开优化？

参考答案

DNS 解析慢
为了有效降低 DNS 解析对首开的影响，我们可以提前完成播放域名->IP 地址的解析，
并缓存起来，播放的时候，直接传入带 IP 地址的播放地址，从而省去了 DNS 解析的耗时。
如果要支持用 IP 地址播放，是需要修改底层 ffmpeg 源码的。
播放策略
很多侧重点播的播放器，为了减少卡顿，会有一些缓冲策略，当缓冲足够多的数据之后，再送入解码播放。

而为了加快首开效果，需要对播放的缓冲策略做一些调整，如果第一帧还没有渲染出来的情况下，
不要做任何缓冲，直接送入解码器解码播放，这样就可以保证没有任何因为「主动」缓冲带来的首开延时。

播放参数设置
所有基于 ffmpeg 的播放器，都会遇到avformat_find_stream_info这个函数耗时比较久，
从而增大了首开时间，该函数主要作用是通过读取一定字节的码流数据，
来分析码流的基本信息，如编码信息、时长、码率、帧率等等，它由两个参数来控制其读取的数据量大小和时长，
一个是 probesize，一个是 analyzeduration。

减少 probesize 和 analyzeduration 可以有效地减少avformat_find_stream_info的函数耗时，
从而加快首开，但是需要注意的是，设置地太小可能会导致读取的数据量不足，从而无法解析出码流信息，导致播放失败，
或者出现只有音频没有视频，只有视频没有音频的问题。

服务端优化
服务器关键帧缓冲
CDN最近策略

3.直方图在图像处理里面最重要的作用是什么？

参考答案

灰度直方图的定义：灰度级的函数，描述图像中该灰度级的像素个数或该灰度级像素出现的频率。反映了图像灰度分布的情况。
灰度直方图只能反映图像的灰度分布情况，不能反映图像像素的位置，即所有的空间信息全部丢失。

直方图的应用：
a.数字化参数：判断一幅图像是否合理的利用了全部被允许的灰度级范围。一般一幅图应该利用全部或几乎全部可能的灰度级，否则等于增加了量化间隔，丢失的信息将不能恢复。
b.边界阈值选取（确定图像二值化的阈值）：假定某图像的灰度直方图具有二峰性，则表明这个图像的较亮区域和较暗区域可以很好地分离，以这一点为阈值点，可以得到很好地2值处理效果（区分物体与背景）。
c.当物体部分的灰度值比其他部分的灰度值大时，可利用直方图统计图像中物体的面积。
d.计算图像的信息量H。

4.数字图像滤波有哪些方法？

参考答案

均值滤波（邻域平均法）、中值滤波（消除独立的噪声点）、高斯滤波（线性平滑滤波，消除高斯噪声，对整幅图像进行加权平均，每一个像素点的值都由其本身和邻域内的其他像素值经过加权平均后得到）、KNN滤波、高通滤波、低通滤波等。

5.图像可以提取的特征有哪些？

参考答案

颜色、纹理（粗糙度、方向度、对比度）、形状（曲率、离心率、主轴方向）、色彩等。

6.衡量图像重建好坏的标准有哪些？怎样计算？

参考答案

SNR（信噪比）
PSNR=10*log10((2^n-1)2/MSE)
（MSE是原图像与处理图像之间均方误差，所以计算PSNR需要2幅图像的数据！）
SSIM
（结构相似性分别从亮度对比度、对比度、结构3方面度量图像的相似性）

7.AAC和PCM的区别？

参考答案

AAC在数据开始时候加了一些参数：采样率、声道、采样大小

8.H264存储的两个形态？

参考答案

a. Annex B :

StartCode ：NALU单元，开头一般是0001或者001

防竞争字节：为了区分 0 0 0 1，它采用0 0 0 0x3 1作为区分

多用于网络流媒体中：rtmp、rtp格式

b. AVCC :

表示NALU长度的前缀，不定长用4、2、1来存储这个NALU的长度

防竞争字节

多用于文件存储中mp4的格式

9.FFMPEG:图片如何合成视频

参考答案

编码流程：

av_register_all
为AVFormatContext 分配内存
打开文件
创建输出码流AVSream
找到编码器
打开编码器
写文件头，没有的就不写入
循环编码视频像素数据->视频压缩数据

循环编码音频采样数据->音频压缩数据 ———>AVFrame转化为AVPacket

将编码后的视频码流写入文件 ——>AVPacket转化为AVFormat函数

关闭编码器
写文件尾
关闭资源文件

解码流程：

av_register_all
创建AVFormatContext的对象上下文
打开文件
avformat_find_stream_info
找到解码器
打开解码器
创建AVCodecContext上下文
av_read_frame ：将avPacket数据转换为avFrame数据

glUniform1i() ——>这个可以设置对应纹理的第几层
glTexSubImage2D() 和glTexImage2D区别————>替换纹理的内容

10.常见的音视频格式有哪些？

参考答案

MPEG（运动图像专家组）是Motion Picture Experts Group 的缩写。这类格式包括了MPEG-1,MPEG-2和MPEG-4在内的多种视频格式。
AVI，音频视频交错(Audio Video Interleaved)的英文缩写。AVI这个由微软公司发布的视频格式，在视频领域可以说是最悠久的格式之一。
MOV，使用过Mac机的朋友应该多少接触过QuickTime。QuickTime原本是Apple公司用于Mac计算机上的一种图像视频处理软件。
ASF(Advanced Streaming format高级流格式)。ASF 是MICROSOFT 为了和的Real player 竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式。
WMV，一种独立于编码方式的在Internet上实时传播多媒体的技术标准，Microsoft公司希望用其取代QuickTime之类的技术标准以及WAV、AVI之类的文件扩展名。
NAVI，如果发现原来的播放软件突然打不开此类格式的AVI文件，那你就要考虑是不是碰到了n AVI。n AVI是New AVI 的缩写，是一个名为Shadow Realm 的地下组织发展起来的一种新视频格式。
3GP是一种3G流媒体的视频编码格式，主要是为了配合3G网络的高传输速度而开发的，也是目前手机中最为常见的一种视频格式。
REAL VIDEO（RA、RAM）格式由一开始就是定位在视频流应用方面的，也可以说是视频流技术的始创者。
MKV，一种后缀为MKV的视频文件频频出现在网络上，它可在一个文件中集成多条不同类型的音轨和字幕轨，而且其视频编码的自由度也非常大，可以是常见的DivX、XviD、3IVX，甚至可以是RealVideo、QuickTime、WMV 这类流式视频。
FLV是FLASH VIDEO的简称，FLV流媒体格式是一种新的视频格式。由于它形成的文件极小、加载速度极快，使得网络观看视频文件成为可能，它的出现有效地解决了视频文件导入Flash后，使导出的SWF文件体积庞大，不能在网络上很好的使用等缺点。
F4V，作为一种更小更清晰，更利于在网络传播的格式，F4V已经逐渐取代了传统FLV，也已经被大多数主流播放器兼容播放，而不需要通过转换等复杂的方式。

11.请指出“1080p”的意义？

12.请解释颜色的本质及其数字记录原理，并说出几个你所知道的色域。

13.请解释“矢量图”和“位图”的区别？

14.请从“光圈”“快门速度”“感光度”“白平衡”“景深”中任选2个进行叙述？

15.视频分量YUV的意义及数字化格式？

16.在MPEG标准中图像类型有哪些？

17.列举一些音频编解码常用的实现方案？

18.请叙述MPEG视频基本码流结构？

19.sps和pps的区别？

20.请叙述AMR基本码流结构？

由于篇幅限制，有些面试题中的内容记录过多，文章版面放不下，暂且只能用图片方式进展示部分，如需参考完整版的可以参考《Android 音视频面试整理篇》：https://qr18.cn/AcV6Ap

21.说一说ffmpeg的数据结构？

参考答案

ffmpeg的数据结构可以分为以下几类：

(1)解协议（http,rtsp,rtmp,mms） AVIOContext，URLProtocol，URLContext主要存储视音频使用的协议的类型以及状态。 URLProtocol存储输入音视频使用的封装格式。每种协议都对应一个URLProtocol结构。（注意：FFMPEG中文件也被当做一种协议“file”）
(2)解封装（flv,avi,rmvb,mp4） AVFormatContext主要存储视音频封装格式中包含的信息 ffmpeg支持各种各样的音视频输入和输出文件格式（例如FLV, MKV, MP4, AVI），而 AVInputFormat和AVOutputFormat 结构体则保存了这些格式的信息和一些常规设置。
(3)解码（h264,mpeg2,aac,mp3） AVStream是存储每一个视频/音频流信息的结构体。 AVCodecContext: 编解码器上下文结构体，存储该视频/音频流使用解码方式的相关数据。 AVCodec: 每种视频（音频）编解码器(例如H.264解码器)对应一个该结构体。三者的关系如下图:
(4)存数据对于视频，每个结构一般是存一帧；音频可能有好几帧
- 解码前数据：AVPacket
- 解码后数据：AVFrame

22.说一说AVFormatContext 和 AVInputFormat之间的关系？

参考答案

AVInputFormat被封装在AVFormatContext里
AVFormatContext 作为API被外界调用
AVInputFormat 主要是FFmpeg内部调用
AVFormatContext里保存了视频文件封装格式相关信息，它是负责储存数据的结构体。而AVInputFormat代表了各个封装格式，属于方法，这是一种面向对象的封装。

通过 int avformat_open_input(AVFormatContext **ps, const char filename,AVInputFormat fmt, AVDictionary options)函数装载解封装器. AVFormatContext 和 AVInputFormat之间的关系

23.说一说AVFormatContext, AVStream和AVCodecContext之间的关系？

参考答案

AVStream和AVpacket中都有index字段用于区分不同的码流（视频、音频、字幕等），AVFormatContext中包含输入的AVStream数组用于记录各个码流，nb_streams记录输入码流的数量。AVCodecContext记录着AVStream需要用那种解码器来进行解码。

24.说一说视频拼接处理步骤？（细节处理，比如分辨率大小不一，时间处理等等）

参考答案

解封装、解码、决定分辨率大小、编码、时间处理、封装。

25.NV21如何转换成I420？

参考答案

首先需要明白为什么需要将NV21转换成I420，这是因为x264只支持编码I420的数据。
实际上就是YUV420p与YUV420sp之间的转换。
YUV420p与YUV420sp的相关知识请参考：《音视频基础知识-YUV图像》

26.DTS与PTS共同点？

27.影响视频清晰度的指标有哪些？

28.编解码处理时遇到什么困难？

29.如何秒开视频？什么是秒开视频？

30.如何降低延迟？如何保证流畅性？如何解决卡顿？解决网络抖动？

31.预测编码的基本原理是什么？

32.需要把网络上一段视频存储下来（比如作为mp4 ), 请实现并说出方法（第一个视频需要翻墙才能进）？

33.需要把网络上一段语音存储下来（比如作为mp3 ), 请实现并说出方法？

34.为什么要有YUV这种数据出来？（YUV相比RGB来说的优点）

35.H264/H265有什么区别？

36.视频或者音频传输，你会选择TCP协议还是UDP协议？为什么？

37.平时说的软解和硬解，具体是什么？

38.何为直播？何为点播？

39.简述推流、拉流的工作流程？

由于篇幅限制，有些面试题中的内容记录过多，文章版面放不下，暂且只能用图片方式进展示部分，如需参考完整版的可以参考《Android 音视频面试整理篇》：https://qr18.cn/AcV6Ap

40.如何在直播中I帧间隔设置、与帧率分辨率选定？

41.直播推流中推I帧与推非I帧区别是什么？

42.常见的直播协议有哪些？之间有什么区别？

43.点播中常见的数据传输协议主要有哪些？

44.RTMP、HLS协议各自的默认端口号是？

45.简述RTMP协议，如何封装RTMP包？

46.m3u8构成是？直播中m3u8、ts如何实时更新？

47.何为音视频同步，音视频同步是什么标准？

48.播放器暂停、快进快退、seek、逐帧、变速怎么实现？

49.说说你平时在播放过程中做的优化工作？

50.你研究过哪些具体的流媒体服务器，是否做过二次开发？

51.什么是GOP?

52.音频测试的测试点,音频时延如何测试?

53.美颜的实现原理，具体实现步骤?

54.如何直播APP抓包过来的文件，如何过滤上行，下行，总码率？

55.如何测试一个美颜挂件？

56.为什么要用FLV？

57.平常的视频格式？

58.何为homebrew？你用它安装过什么？常用命令有哪些？

由于篇幅限制，有些面试题中的内容记录过多，文章版面放不下，暂且只能用图片方式进展示部分，如需参考完整版的可以参考《Android 音视频面试整理篇》：https://qr18.cn/AcV6Ap