FFmpeg从视频中提取音频

参考博客

流文件基本信息

查看

使用FFprobe

ffprobe 是一个多媒体流分析工具。它从多媒体流中收集信息，并且以人类和机器可读的形式打印出来。它可以用来检测多媒体流的容器类型，以及每一个多媒体流的格式和类型。它可以作为一个独立的应用来使用，也可以结合文本过滤器执行更复杂的处理。—— FFmpeg最全教程

ffprobe -i .\TMElive.mp4

ffprobe -i .\MUTE.mp3

音频采样率、采样深度和比特率

采样率/采样频率

采样率是指每秒钟记录的音频样本数。模拟信号采样为数字信号，一个音频样本只是一个数字，代表在一个特定时间点的测量声波值。

音频采样率和视频帧率是相似的，但在每一个中保证可用性的通常的最低数字是非常不同的。对于视频来说，为了保证运动的准确描述，每秒至少需要24帧。对于音频来说，要明确地表示英语语音，每秒的最小采样数是8000赫兹。

8,000 Hz是电话所用采样率, 对于人的说话已经足够

11,025 Hz是AM调幅广播所用采样率

22,050 Hz和24,000 Hz 是FM调频广播所用采样率

32,000 Hz是miniDV 数码视频 camcorder、DAT (LP mode)所用采样率

44,100 Hz是音频 CD, 也常用于 MPEG-1 音频（VCD, SVCD, MP3）所用采样率（超过该采样率，人耳很难分辨）

47,250 Hz是商用 PCM 录音机所用采样率

48,000 Hz是miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率

50,000 Hz是商用数字录音机所用采样率

96,000 或者 192,000 Hz 是DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率

2.8224 MHz是Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率

采样深度/采样精度/采样大小

用多大bit(多少位0/1)来表示每个采样点处的振幅。越大把振幅分得越精细，录音听起来越接近原声。电话音频最常见的采样深度是16比特和32比特。—— 《通信原理》信源编码

3.比特率

比特率指每秒传输信息的比特数。1B=8b, B=byte(字节), b=bit(位)

音频的比特率公式：比特率 = 采样率 * 单个的周期音频数据长度。

如16bit 双声道 48KHz音频的比特率

48KHz * (16 * 2) = 1536kbps = 192 kBps

从视频中提取音频

FFmpeg使用方法

ffmpeg [全局选项] {[输入文件选项] -i ‘输入文件’} … {[输出文件选项] ‘输出文件’} —— FFmpeg最全教程

ffmpeg -i .\TMElive.mp4 -ss 01:00:31 -t 00:02:52.0 -vn -b:a 192k -ar 44100 -ac 2 -acodec libmp3lame -y .\Mute_1.mp3

ffmpeg -i .\TMElive.mp4 -ss 01:00:31 -t 00:02:52.0 -q:a 0 -map a .\Mute.mp3—— FFmpeg 提取视频的音频

主要选项

‘-f fmt (input/output)’ 
	强制输入或输出文件格式。通常，输入文件的格式是自动检测的，
	输出文件的格式是通过文件扩展名来进行猜测的，所有该选项大
	多数时候不需要。
‘-i filename (input)’ 
	输入文件名
‘-y (global)’ 
	覆盖输出文件而不询问
‘-n (global)’ 
	不覆盖输出文件，如果一个给定的输出文件已经存在，则立即
	退出
‘-t duration (output)’ 
	当到达 duration 时，停止写输出。
	duration 可以是一个数字(秒)，或者使用hh:mm:ss[.xxx]形式。
	-to 和 -t 是互斥的，-t 优先级更高。
‘-to position (output)’ 
	在 position 处停止写输出。
	duration 可以是一个数字(秒)，或者使用hh:mm:ss[.xxx]形式。
	-to 和 -t 是互斥的，-t 优先级更高。
‘-ss position (input/output)’
	当作为输入选项时(在 -i 之前)，在输入文件中跳转到 position。
	需要注意的是，在大多数格式中，不太可能精确的跳转，因此，
	ffmpeg 将跳转到 position 之前最接近的位置。当进行转码
	并且 ‘-accurate_seek’ 打开时(默认)，位于跳转点和 position 
	之间的额外部分将被解码并且丢弃。当做流拷贝或者当使用
	‘-noaccurate_seek’时，它将被保留下来。
	当作为输出选项时(在输出文件名前)，解码但是丢弃输入，直到
	时间戳到达 position。
	position 可以是秒或者 hh:mm:ss[.xxx] 形式

音频选项

‘-ar[:stream_specifier] freq (input/output,per-stream)’
	设置音频采样率。
‘-aq q (output)’
	设置音频质量。这是 -q:a 的别名
‘-ac[:stream_specifier] channels (input/output,per-stream)’
	设置音频通道数。
‘-vn (output)’
	禁止视频录制
‘-an (output)’
	禁止音频录制
‘-acodec codec (input/output)’
	设置音频codec。这是-codec:a的别名
‘-sample_fmt[:stream_specifier] sample_fmt (output,per-stream)’
	设置音频采样格式

高级选项

‘-map [-]input_file_id[:stream_specifier][,sync_file_id[:stream_specifier]] | [linklabel] (output)’
	指定一个或多个流作为输出文件的源。
	命令行中的第一个 -map 选项，指定输出流0的源，
	第二个 -map 选项，指定输出流1的源，等等。

添加歌曲信息和封面

软件 mp3tag

歌曲信息

右键 — 属性 — 详细信息 可以添加、更改歌曲信息

使用-metadata创建ID3 tags 【参考博客】

ffmpeg -i .\MUTE.mp3 -metadata data="2022-07-29" .\MUTE_1.mp3

清除音频文件所有tag信息 ffmpeg -i .\MUTE.mp3 -map_metadata -1 .\mute.mp3

把value置空删除某个标签 ffmpeg -i .\MUTE.mp3 -metadata genre="" .\mute.mp3

创建元数据文本文件 ffmpeg -i .\TMElive\MUTE.mp3 -f ffmetadata mute.txt

把.txt写入元数据中 ffmpeg -i .\TMElive\MUTE.mp3 -i mute.txt -map_metadata 1 -c:a copy -id3v2_version 3 -write_id3v1 1 .\mute.mp3

-map_metadata 1代表使用输入顺序为1的文件作为metadata，也就是 metadata.txt。c:a代表codec audio的意思，这里用的是 copy。id3v2_version 3和-write_id3v1 1是为了对Windows兼容加上的。

;FFMETADATA1
=major_brand
date=2022
title=MUTE
album=TME live 夏日岐遇
album_artist=孟美岐
genre=Pop
artist=孟美岐
encoder=Lavf58.76.100

封面

ffmpeg -i .\TMElive\在他乡.mp3 -i .\TMElive\pic\在他乡.jpg -c copy -map 0:a -map 1:v -metadata:s:v title="Album cover" -metadata:s:v comment="Cover (Front)" .\TMElive\在他乡_cover.mp3 —— 参考官网

拓展

提高音量 ffmpeg -i .\TMElive\一生有你_fin.mp3 -filter:a “volume=5dB” 一生有你.mp3 但是不能损失质量
怎么给音频文件添加歌词信息，并时间上同步起来
实现音乐播放软件中的所有完整的歌曲信息

python + ffmpeg

video_path = 'D:/Users/Admin/Desktop/TMElive/MMQ_TMElive.mp4'
audio_path = 'D:/Users/Admin/Desktop/TMElive/audio/'
pic_path = 'D:/Users/Admin/Desktop/TMElive/pic/'
mdata = 'D:/Users/Admin/Desktop/TMElive/mdata.txt'
music = ["醒", "Miss", "If", "Alone", "重塑", "一生有你"]
start_time = ["00:02:03", "00:05:56", "00:10:06", " 00:33:41", "00:51:18", "01:02:51"]
duration = ["00:03:16.0", "00:04:00.0", "00:02:49.0", "00:03:25.0", "00:03:29.0", "00:02:33.0"]
    
for i,m in enumerate(music):
	ss = start_time[i]
	d = duration[i]
	pic = pic_path + m +".jpg"
	song = audio_path + m + "_1.mp3"
	out = audio_path + m + "_fin.mp3"
	# subprocess.run("ffmpeg -i %s -ss %s -t %s -vn -b:a 192k -ar 44100 -ac 2 -acodec libmp3lame -y %s" %(video_path, ss, d, song))
	# subprocess.run("ffmpeg -i %s -map_metadata -1 -c copy -y %s" %(song, out))
	# subprocess.run("ffmpeg -i %s -i %s -map_metadata 1 -c:a copy -id3v2_version 3 -write_id3v1 1 %s" %(song, mdata, out))
	subprocess.run("ffmpeg -i %s -i %s -c copy -map 0:a -map 1:v -metadata:s:v title=\"Album cover\" -metadata:s:v comment=\"Cover (Front)\" %s" %(song, pic, out))

原文 FFmpeg从视频中提取音频_ffmpeg 提取音频_Linrra的博客-CSDN博客

★文末名片可以免费领取音视频开发学习资料，内容包括（FFmpeg ，webRTC ，rtmp ，hls ，rtsp ，ffplay ，srs）以及音视频学习路线图等等。

见下方!↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓