Android音视频开发，详说PCM音频重采样、PCM编码

直播伴音，两种数据能否合在一起？不能叠加在一起会有噪音合并以后再去编码推流直播的例子

客户端播放器，可以开启多个播放器

对于我们重采样很多时候就是为了统一格式，就是为了要合并这个流，去推送，他最终要转成同样pcm格式，

合并码流可以通过ffmpeg amix 做混音，支持多音源合并做混音，再做二次编码

振幅越大声音越大，观察喇叭开车音乐比较大手比较振振幅

波形模拟时间一秒钟我采集多少数据可以1秒钟采集100万次，对于这个硬件成本能不能搞定

硬件采样速度越快就需要他硬件资源就越多，那需要的成本就越多采集这么频繁的频率有没有用？对于我们现实世界可以采集回来的一个频率除以2 2倍去采集的话，

现实世界 500khz这个频率，我通过1000khz 我就可以采集回来人的耳朵能否听到500khz的声音呢？高频率的人的耳朵大概能听到20khz 超过就听不到了，

计算机采集大于40khz 就可以采集就可以还原出现实世界的声音，这就是我们常见的采样率 44.1khz 48khz 怎么来的，就是根据人的耳朵的极限，有一点冗余后面就开始定义44.1khz 48khz最经典的，看到无损这一些格式，96khz 192khz 这些采样率这些是不是我的采样率越高他越能还原出现实世界，就是有些人可以听的频率高一点，这个采样率越高音质就会更好一些，

每个采样点用多少个字节去表示？

2通道

4通道

5.1通道

某个通道某个样本，并不是多个通道的占多少个字节等等，

为什么16bit对这个现实世界还原度比较高呢？我们这个声音刚才这个幅值也是无线的，这个声音

大到小，大有多大，这个有多小？这个模拟世界他就是一个无限，模拟无限

用2bit去表示样本点，

用2bit组合成 0 1 2 3 这4个值，我去描述一个声音，比如机顶盒声音调到最小，静音和最小的时候，他这个力度就非常的大，往下调就静音了，往上调声音听起来有点大，就是因为他能表示的音的阶次不够多，如果你的声音只有只有4个值，你肯定没办法表示这个音量，大小，经过使用得出来，大概是16bit能够对现实世界这种声音能够做到比较好的采集还原，表示某个声音他当前幅值用16bit 他是比较好还原的，还有一些比较差的音质，比如8bit 对于这个8bit 他这个声音音质是比较一般的，可能我们不一定能听得出来，我可以先去提取pcm数据

通过ffmpeg去提取的，

48k产生处理 2通道，先用16bit这种格式，这边我们先提取出来，

这边就提取出来huiguniang.MP3 pcm数据

用8bit 提取出来pcm数据可能会小一点，

通过u8 u8提不出来了

这边我们播放16le

f32通过这个大家讲浮点数的

f32和s16 同一个文件提取出来，这个浮点数他是比我们s16大了一倍，

浮点数这个f32的一个样本，他是有4个字节，所以大家一定要注意一下，

这个是我们讲的采样率为什么我们经常看到44.1khz 还有48khz 就是因为这个人的耳朵，大概是20khz左右吧，是一个上线我们根据产生定理我们大于2倍的一个频率去做采集，才能去再次还原，所以我们20khz*2就是40khz 那这边我们就采用的是44.1khz 还有48khz这两种比较多

肯定很多朋友问为什么是44.1khz 还有48khz 而不是40 早期这个频率就已经定好的就是为了冗余就是给大家讲就是一般人他是大于20khz但是有些人他会上一点点，

整数和浮点数他是不一样的，与我们格式搞混了，让你会播放，或者你再去做编码他是有噪音的，打比方我们去试一把，像刚才我们播放这个声音，是不是我刚才提取的f32 还有s16 那么这边我去播放就是我们以s16这种格式，去播放f32的就是播放浮点数的，那么我们可以看看，

声音很辣耳朵，以后如果你编码的时候出现，那就是你这个格式，你输入的给你的编码要求不一样，

还有码率还有比特率不是特别关键的，

这个pcm排列格式的问题

对于我们提取8bit这个采样点，也有，

8bit 已经称为s8了，并不是s8l1了，因为单个字节没有所谓的大小端，你只有这一个字节，

pcm数据排列格式的问题

音频的帧没有视频中那么清晰，视频他就是一张图像，但是对于我们这个音频来说这个概念，什么才是一帧数据呢？不同的编码格式他是有区别的，比如说我们最常见的编码格式，acc

多少个样本数作为一帧数据做编码呢？他通常是1024个样本，作为一帧数据，不同编码格式是不一样的，

比如对于mp3来讲，他是1152个样本

不同的格式他是不同的

acc编码支持我是用默认是 ffmpeg自带的acc编码

给大家强调了这一块里面，这个acc编码168 跟libfdk_aac编码167他们有什么区别？

就是说ffmpeg自带aac 需要的格式是采样格式

设置要给参数，比如说我把这个pcm读进来，这个编码层通过aac.aac

aac这个后缀是什么意思？我是使用了ffmpeg自带的aac编码器，

我们可以debug一下，

通过avcodec find encoder by_name方式去查找编码器，

这就是我们对应我们的编码编成什么样的格式，这边都有一些讲解，

找一下我们怎么去打开我们的编码器，

264 avcodecopen2 把我们编码器找出打开它，要编码成什么样的格式，

我们通过AVCodec 发一个avcodec_find_encodel by name 212 我再强调一下对于这个ffmpeg来讲，我还是回到刚才的问题，对于aac 编码器，那么我们到底有多少个aac编码器？能否有不同的aac编码器？他是可以有的，

把源码打开看看，多扩展一些知识，对ffmpeg有多深的理解，并不是说我单独的讲某个知识点，

查fdk aac

对aac封装，为什么知道他是 aac编码器呢？他主要是这个id 比如说我们不同的aac编码器，他的id 是一样的，不一样主要是他的名字不一样，这个name他是唯一的，

ffmpeg自带的aac

这一块的id ac 名字 aac 这里还有一个问题这边有一个sample fmts 我们对这个aac编码器他需要什么样的格式，那这个时候呢，那你需要跟我们fdk aac去对比一下，两者是有区别的，就是我们在使用的时候我们用不同的格式，比如说你是用浮点数，

还是整数，这边支持他是不太一样的，蓝线部分

就是我们最终要用什么样的编码用什么样的pcm格式，那你要根据不同的编码器去选择，

这个id的acc是一样的这个name是不一样的，我们样本数用浮点数的方式还是整数的方式，整数方式和浮点数方式有什么区别呢？比如给大家讲这个s16 他是有负有正，s16他这个范围有多少，这边我们给出来了

s16 -32768~32767

flt -1~1

这个浮点数并不是无限大，成一个-1~1这样的一个逻辑，这样我们可以引申一下，比如

用

工具可以把我们pcm数据导进来，看看这个格式，

把一个数值导进来看看，先导入s16的吧？我们在导数据到我们这个工具里，刚才我们选的是s16个格式，

这边就可以看到这个波形就可以转成-1 到1.0实际上是一个整数来的，样本对于我们在计算机表示的时候，

我把间隔拉大后，我们每个样本之间他是有一个时间间隔的，但是我们把他放小一点，我们这样子看的时候，看起来有一点像是连续的，但实际上它是离散的，这边我们可以把这边浮点数把他导进来，

浮点数导进来的时候要选对了，这边选32位float

这边做规划统一，-1~1

我们s16跟浮点的规划统一后，这些值

这边是左通道的了，左通道要跟左通道做对比，右通道要跟右通道波形做对比，基本上是对起来的

到时候你可以把他导进来去播一播听听它的声音，都是可以看一下的，可以对比一下

格式里面这个帧样本数是多少的？就是作为一帧数据做编码，那你一定要看具体这个编码器

在调用if (avcodec_open2的时候，这里有codec_ctx上下文，那codec_ctx上下文里面有一个frame_size这样一个参数，这个参数是非常重要的，这里给出来到底有多少样本数，作为一帧数据做编码，现在他这个值是空值，刚才这个值是空值，现在这个值变成1024 这个时候我们每次要送多少数据送多少个样本给编码器，那么我们就知道了，就是我们每个通道都是送1024个样本数给到对应的编码器作为一帧数据进行编码，
268逻辑稍微改一改，