音视频学习-音频相关知识

wuchangjian2021-10-28 16:57:38编程学习

一.声音的本质:声音是由物体的振动产生的,这种振动引起了周围空气压强的振荡,我们称这种振荡的函数表现形式为波形.

 声音有振幅,振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最大偏移量。【这些物理知识,大家了解一下就行了】

二.声音的物理性质:声音的频率是周期的倒数,它表示的是声音在1秒钟内的周期数,单位是赫兹(Hz)。千赫(kHz),即1000Hz,表示每秒振动1000次。声音按频率可作如下划分:

                      1.  次声                                         0~20Hz        

                        2. 人耳能听见的声音               20Hz~20KHz

                        3. 超声                                         20KHz~1GHz

                        4. 特超声                    ​​​​​​​        ​​​​​​​        1GHz~10THz 

三.数字音频:计算机不直接使用圆滑的波形来表示声音,它是在每隔固定时间对波形相应的值进行采样【采样是在离散的时间上进行的,而采样值本身在计算机中也有离散的】,如图。

根据Nyguist采样定律,要从采样中完全恢复原始信号波形,采样频率【每秒钟采样个数】必须至少是信号中最高频率的两倍。前面提到人耳能听到的频率范围是[20H~20kHz],所以采样频率一般为44.1Khz,这样就能保证声音到达20Khz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。一般的采样频率有如下几种:

1) 22000(22kHz):  无线广播。

2)44100(44.1kHz):  CD音质。

3)48000(48kHz):  数字电视,DVD。

4)96000(96kHz):  蓝光,高清DVD。

5)192000(192kHz):  蓝光,高清DVD。

然后第二步:把采样的数据进行量化,采样值的精度取决于它用多少位来表示,这就是量化。例如8位可以量化256个不同的值,而CD质量的16位量化可以表示65 536个值,范围为[-32768, 32767]

下图是一个3位量化的示意图,下图是一个3位量化的示意图,可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和  ─1,因而量化位数越少,波形就越难辨认,还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)

第三部编码【后续细讲】:PCM脉冲编码调制,人耳听到的是模拟信号, PCM是把声音从模拟信号转化为数字信号的技术。 

四.音频常见名词:

1)采样频率:每秒钟采样点的个数。

2)  采样精度:每个 "样本点" 的大小,常用的大小为8bit, 16bit, 24bit.

3)通道:单声道,双声道,四声道,5.1声道。

4)比特率:每秒传输的bit数,单位为bps(Bit Per Second), 间接衡量音质的一个标准。

      没有压缩的音频数据的比特率 = 采样频率 * 采样精度 * 通道数。

5)码率压缩后音频数据的比特率【码率越大,压缩效率越低,音质越好,压缩后数据越大  ,码率 = 音频文件大小 / 时长,常见的码率:

      96kbps --- FM质量

      128-160kbps --- 音频质量音频

      192kbps --- CD质量

      256-320kbps ---- 高质量音频 

6)【注意这里是音频的帧】:每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。

7)帧长:可以指每帧持续播放的时间:每帧持续时间(秒) =  每帧采样点数 / 采样频率(HZ)比如:mp3 48k, 1152个采样点,每帧则是1152/4800=24毫秒,也可以指压缩后每帧的数据长度,所以讲到帧的时候要注意它适用的场景

8)交错模式:数据音频信号存储的方式,数据已连续帧的方式存放,即帧1的左声道样本和右声道样本,然后在存储帧2的。这里1024个L和1024个R交错如图:

 9)非交错模式首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。

 

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。