声音的表示（1）：作为音视频开发，你真的了解声音吗？

vx 搜索『gjzkeyframe』关注『关键帧Keyframe』来及时获得最新的音视频技术文章。

（本文基本逻辑：声音的定义是什么 → 声音有哪些特征 → 怎样对声音进行数学描述 → 怎样对声音进行数字化 → 数字音频数据是什么）

『声音』是我们司空见惯再熟悉不过的一种物理现象。我们唱歌发出声音，用耳朵听到声音，用手机记录并分享声音；如果作为音视频开发人员，我们还会在工作中处理众多声音数据。但是，你真的了解『声音』吗？

如果你自信满满，心想『当然了』，那可以试试回答这个问题：从我们耳朵听见的『声音』，到我们用手机、电脑所处理的『音频数据』，其中经历了什么？ 如果你细思起来，感觉还有疑问，不妨继续读下去，和我们一起略略探讨一下：日常开发工作中处理的音频数据，是如何从一种物理现象转变而来。这个探讨也许无用，但可能会有趣。

探讨这个问题，至少包含了两个大的认知过程：1）用科学研究的方法对一个日常现象进行物理定义、特征探索、规律发现、数学描述的过程；2）用信息处理手段对物理现象进行数字化的过程。

当我们用这样的视角回头去看这个问题时，也许可以把它细分成下面几个子问题：

声音的定义是什么？ 我们需要通过下定义来界定一种物理现象的范围，才好继续研究下去。
声音有哪些特征？ 寻找特征可以帮助我们准确的描述它，针对性的研究它。
怎样对声音进行数学描述？ 数学是描述物理现象、探索物理规律最好的语言。对物理现象的数学描述也是将其进一步数字信息化的基础。
怎样对声音进行数字化？ 数字化是物理世界通向信息世界的手段。
数字音频数据是什么？ 声音经过数字化处理后即可获得数字音频数据进行处理、存储或传输。

1、声音的定义是什么？

『声音』是振动产生的声波，通过介质（气体、固体、液体）传播并能被人或动物听觉器官所感知的波动现象。

以上便是声音的定义，它将声音界定为一种波动现象，这样就可以针对性的在『波』这个物理概念的范畴里去研究它。当然，如果我们在研究中有新的发现，能颠覆原有的认知，从而重新定义它，也不是没有可能。

2、声音有哪些特征？

要提取声音的特征，首先要感知到它，人类的听觉感知系统是一个复杂的系统，如下图所示。它是怎么感知声音的呢？简单来讲，声音作为一种机械波，通过空气传播到人耳，在人耳中转变为神经动作电位，神经脉冲到达大脑，人从而感知到声音。至于具体细节，我们就不在这里做过多探讨了。

声音的特征是我们在感知声音并不断对其现象进行研究的过程中逐步识别和提取出来的。 比如，我们很容易就能感知到声音有大有小；有尖锐有浑厚；不同的人说话，即使声音大小差不多，我们也能识别他们。我们对这些感知进行总结便提取出了声音的特征。

现在我们都知道，声音的特征就是大家熟知的『声音三要素』：

响度：表示声音的大小。
音调：表示声音的高低。
音色：表示声音的特色。

基于声音的特征继续研究下去，我们还可以发现与之相关的规律和因果关系，并通过一些手段来形象化的展示它们。

比如，我们通常听见的声音，是由于物体振动导致空气分子按照一定的频率产生疏密相间的排列而传播。

当我们取一个单点，来测量这个点的气压随时间的变化，用横轴表示时间，纵轴表示气压，我们可以得到类似下面这张波形图：

气压距离标准值偏差越大，说明振动越剧烈，所以振幅越大的波形表示声音越大，即响度越大。波形越紧密说明单位时间内振动的次数越多，频率越高，即音调越高。

对于上图这样单频率的振动，通过波形图来看声音的相关信息是很简单明了的。而实际情况中，我们听到的声音往往是复杂振动的叠加，比如下图这样：

通过这个波形图，我们很难看出声音的有效信息，因为各个频率的波形都叠加在一起了。这时候我们就需要借助频谱图来帮忙了。

频谱图是怎么来的呢？我们可以看看下图：

波形可以由多个频率、不同振幅和相位的简单正弦波复合叠加得到的。波形图的横坐标是时间，纵坐标是振幅，表示的是所有频率叠加的正弦波振幅的总大小随时间的变化规律。

将该复合波形进行傅里叶变换，拆解还原成每个频率上单一的正弦波构成，相当于把二维的波形图往纸面方向拉伸，变成了三维的立体模型，而拉伸方向上的那根轴叫频率，现在从小到大每个频率点上都对应着一条不同幅值和相位的正弦波。

频谱图则是在这个立体模型的时间轴上进行切片，形成的以横坐标为频率，纵坐标为幅值的图形。它表示的是一个静态的时间点上，各频率正弦波的幅值大小的分布状况。

波形图可以帮助我们检查音乐整体音量的大小，在混音中常常可以看出动态和响度等问题，可以用来辅助调节压缩器和限制器。频谱图则可以帮助我们定位音乐细节在各频段上的分布问题，在混音中可以用来辅助调节滤波器和均衡器。

下图是一个声音的波形图（上部分）和频谱图（下部分）的示例：

其中，波形图比较简单，横轴是时间，纵轴是响度，并区分了左右声道。

但频谱图相对我们上面讲的定义要更复杂一些了，这里的频谱图是一个三维图，其中横轴是时间，纵轴是频率（这里用了音调表示，比如 A5(880) 对应的频率是 880Hz），颜色亮度表示响度。所以频谱图相对于波形图，是包含有更多信息的，唯一的缺点就是无法表示整体音量的大小，所以一般和波形配合使用来辨别声音特征。

（通过上文的探讨，我们知道了声音是一种波动现象，了解了声音有响度、音调、音色几个特征，还初步接触了研究声音时的辅助工具：波形图和频谱图。对于声音的数学描述的问题，我们将在后面继续探讨，敬请期待）