Android音视频开发：录制视频 + 语音识别 + 人脸识别 - 代码天地

Android音视频开发：录制视频 + 语音识别 + 人脸识别

其他 2020-02-20 10:33:48 阅读次数: 0

最近两个月在搞 Android 音视频相关方面的需求，下面是记录一次音视频开发的实操记录；

最下面有demo；

移动端具体的需求是这个样子的：

录制视频 + 同时语音识别 + 同时人脸识别 + 同时语音合成；视频时长大概是一个小时，不能压缩处理。

OK，需求出来我是崩溃的，Android 原生不支持录制视频的同时去实现语音识别，而 iOS 原生支持，这就加长了 Android 开发周期；其次 Android 麦克风不支持同时两个音频源同时输入音频，也就是说要使用 MediaCodec (编解码器) 和 MediaFormat ；这对于九窍已通八窍的我着实有点难度；

认真分析之后给出了下面几种方案：

方案一：

开一个线程使用 AudioRecord 录制音频流，将音频流拿去解析实现语音识别同时使用 MediaCodec 编码成 AAC 音频格式文件；

另一个线程使用 Camera 录制视频流，拿到视频流去实现人脸识别同时使用 MediaCodec 编码成 H264 格式视频流文件；

最后将 AAC 与 H264 合成为 MP4 格式视频文件；

方案二：

开一个线程使用 AudioRecord 录制音频流，将音频流拿去解析实现语音识别同时使用 MediaCodec 编码成 AAC 音频格式文件；

另一个线程使用 Camera 录制视频流，拿到视频流去实现人脸识别同时使用 MediaCodec 编码成 H264 格式视频流文件；

第三个线程为混合线程，将音视频流分别添加音视频轨道，实时合成 MP4 格式文件；

方案确定就开始实现，我在写语音识别用的是百度AI的SDK，因为测试阶段需要用到免费SDK，确定后才能购买SDK；我对比了两种语音识别的SDK：

科大讯飞，语音识别SDK价格最贵，成功率最高，95%左右；

百度AI，语音识别模块部分不收费，成功率稍低，90%左右；

所以选择了百度AI，毕竟不要钱；

将 SDK 集成之后，发现了一个不可思议的地方：

百度AI支持识别音频流，但是只要使用百度AI，就要给它麦克风权限，但是我传入的是音频流啊！积极联系百度AI人员之后，他们也发现了这个问题；

既然如此，那直接用百度AI进行语音识别，然后 SDK 会返回音频流，我拿着音频流保存到 AAC 文件，最后进行音视频合成；

当代码写完才发现，音视频合成会出现不同步的现象，查阅资料发现可能是因为时间戳的问题；认真检查代码后发现，时间戳明明是正确的。

研究了几天后恕我无能，最终还是使用了第二种方案，为音视频分包添加轨道，并实时的合成，这种方案是成功没有问题的；

录制没有问题，语音识别也没有问题，就开始研究视频流人脸识别，人脸识别就更加花哨了：

虹软人脸识别、OpenCV、face++ 等等；

好在人脸识别都是免费的，进行了一番筛选，上面的都需要添加各种 jar 包，会增加apk包的体积，并且要按照它们要使用 CameraSurfaceView 和 CameraGLSurfaceView ，这也就意味着要替换调我封装好的代码；

这样我是绝望的，奔着不修改原有代码的原则，我选择了 Google 自带的 FaceDetectionListener ，这样保证代码量修改最少，并且我只需要自定义 view，将人脸框画出来就可以了。

其实选择 Google 自带的 FaceDetectionListener 还有一个很重要的原因：

现在已经除了主线程之外，已经有三个线程同时工作：音频线程、视频线程、音视频流合成线程；如果使用第三方SDK，SDK消耗内存是非常大的，还需要再开启一个线程；不要忘记后面的语音合成还需要一个线程单独工作；

这个需求就是这样实现的，具体还是非常的麻烦的，因为线程过多，写的时候要注意内存泄漏的问题。

下面是具体的实现代码，以及完整的 demo，demo 包括录制视频 + 语音识别 + 人脸识别：

GitHub：https://github.com/wuqingsen/RecordVideoWu

这个 demo 是音视频流文件录制编码以及合成为mp4格式文件，可以作为参考：

GitHub：https://github.com/wuqingsen/ToMp4Wu

这是实现的效果图，（左侧是语音识别结果，中间白框为人脸画框）：

后面会整理出，详细的代码模块和基础的音视频编码等；

吴庆森

发布了322 篇原创文章 · 获赞 450 · 访问量 32万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/wuqingsen1/article/details/103799520

Android音视频开发：录制视频 + 语音识别 + 人脸识别

FastASR+FFmpeg(音视频开发+语音识别)

Qt音视频开发39-人脸识别在线版

识别视频人脸

Android 人脸识别，相机识别

android 语音识别

ANDROID语音识别示例

Android 语音识别示例

opencv人脸识别，识别视频中的库里

android人脸识别技术

Android人脸识别

Android之人脸识别

Python视频人脸检测识别

视频中的人脸识别

OpenCv之视频人脸识别

视频人脸识别和图片人脸识别的关系

IOS音视频（五）AVFoundation 资源和元数据及人脸识别实现

人脸识别、语音识别系统

Android语音转文字一识别语音

Android 自带语音识别功能

Android语音识别编程初步

PocketSphinx For Android离线语音识别

Android原生SpeechRecognizer(语音识别)

二、Python开发语音识别

人脸识别Android SDK集成

Android Arcface人脸识别App

android人脸识别技术浅析

Android人脸识别——眼睛是窗口

人脸识别demo开发经验

C# 视频多人脸识别

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)