音频的本质
在进入参数之前,先建立直觉:声音本质上是一根波动的曲线,而数字音频要做的,就是在电脑里描述这条曲线的形状。
怎么描述?你小时候画过函数图像——描点、连线。数字音频也是这个思路:用足够密集的点来近似表示连续的声音波形。而这其中,「点有多密」「每个点精度有多高」「数据量有多大」,就对应了下面要讲的三大参数。
1. 采样率(Sample Rate)—— 每秒取多少个点
采样率指每秒从声音波形上取样的次数,单位是 Hz(或 kHz)。
| 采样率 | 常见用途 | 能还原的最高频率 |
|---|---|---|
| 22.05 kHz | 网络通话、低质量语音 | ~11 kHz |
| 44.1 kHz | CD 音质标准 | ~22 kHz |
| 48 kHz | 视频音频、专业设备 | ~24 kHz |
| 96 kHz | 录音棚、后期混音 | ~48 kHz |
44.1kHz 为什么是 44.1?
背后有一个奈奎斯特-香农采样定理:要完整还原一个频率为 f 的声音,采样率至少要是 2f。人耳能听到的最高频率大约是 20 kHz,所以采样率至少需要 40 kHz。44.1 kHz 就是一个保险值——有足够的余量覆盖人耳听觉范围。至于为什么不是整数 44 而是 44.1,那是历史原因(配合当时视频制式的场频),这里不展开。
一般建议
- 日常听歌:44.1 kHz 完全够用
- 做视频音频:48 kHz(与视频标准兼容更好)
- 专业混音:96 kHz 或更高(后期处理有更多余量)
普通用户不用追求高采样率,44.1kHz 和 96kHz 在盲听测试中绝大多数人听不出区别。
2. 位深度(Bit Depth)—— 每个点有多精确
采样率决定了”点有多密”,位深度决定了每个点能记录多精确的振幅值。
| 位深度 | 动态范围 | 典型用途 |
|---|---|---|
| 16 bit | ~96 dB | CD 音质,日常听歌 |
| 24 bit | ~144 dB | 录音、混音 |
| 32 bit | ~1928 dB | 专业音频工作站 |
16 bit 意味着每个采样点有 2^16 = 65536 个可能的音量级别。24 bit 则有 2^24 ≈ 1678 万个级别——精度提升巨大。
关键理解
位深度主要影响动态范围(最响和最轻声音之间的差距),而不是普通意义上的”音质”。16 bit 的动态范围足以覆盖交响乐从极弱到极强的所有变化,对于听歌场景绰绰有余。24 bit 的价值在于录音和混音阶段——当你需要反复调节音量、叠加效果时,更高的精度能避免产生底噪和失真。
3. 比特率(Bitrate)—— 每秒用多少数据
比特率 = 采样率 × 位深度 × 声道数(未压缩时)。但实际我们谈论的比特率通常指压缩后的码率,单位是 kbps。
简单关系:
比特率 = (采样率) × (位深度) × (声道数)
无损 CD 音质: 44.1 kHz × 16 bit × 2 声道 = 1411 kbps
常见 MP3/AAC 比特率:
| 比特率 | 感知质量 | 适用场景 |
|---|---|---|
| 128 kbps | 及格,细节有损失 | 普通流媒体 |
| 192 kbps | 不错,大多数人满意 | 在线音乐 |
| 320 kbps | 很好,接近无损 | 高品质 MP3 |
| 1411+ kbps | 无损,原始数据 | FLAC/WAV/ALAC |
误区提醒
更高的比特率不代表无限好——超过原始文件的比特率没有任何意义。比如把 128kbps 的 MP3 转成 320kbps,转换后的文件质量并不会提升,只是在拿更多空间存已经丢失的信息罢了。
总结速查
| 参数 | 决定 | 日常推荐值 |
|---|---|---|
| 采样率 | 频率还原能力 | 44.1 kHz |
| 位深度 | 动态范围/精度 | 16 bit(听歌)/ 24 bit(录音) |
| 比特率 | 整体数据量 | AAC 256kbps / MP3 320kbps |
简单口诀:听歌 16/44.1 不纠结,录音上 24 bit,混音选 96k。