此处所讲的音频(Audio) 是指自然界的声音,包括人声等,通过技术手段在计算机中存储或表现的一种形式

自然界的声音都是模拟信号,是一种波,计算机通过采样器(一般是麦克风等设备)捕获到声音的特征并用计算机能识别的数字信号来表示

音频PCM编码

一般音频采集是采用PCM(Pulse Code Modulation)脉冲编码调制进行模拟信号到数字信号的转换。是将模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值。

音频参数

采样率

采样率指的是采样的次数,指的是每秒钟采样的次数,比如采样率为8000,则表示在1秒钟内采集声音的特征8000次,这样算来平均每次采样间隔为1/8000=0.000125,即125微秒采样一次(采集一次音频的特征信息)

采样大小(采样位数/位深)

采样大小,指的是单次采样的数据量,一般是8bits(一个字节),16bits(两个字节) 等,采样位数越大,则说明表示的范围越大,范围越大就越能表现声音的细节变化,就像用100分制来表示学生的分数比10分制更能体现个体差异

声道数

声道数是指声音的线路/通道数(可以理解为多个麦克风),每个线路都是用一样的采样率和采样位数进行声音采集

比特率(码率)

比特率指的是音频数据每秒产生的比特位数据量

比如:8000采样率 采样位数16位 单声道

则采集的裸流比特率为 8000x16x1=128000bps

音频编码

计算机系统中编码的目的主要是为了降低数据量,是一种压缩方式,音频编码也是如此,音频编码有无损压缩和有损压缩,无损压缩对声音的音质不会损坏,有损压缩是以损失部分质量,尽可能大的减小数据量的一种压缩方式,一般有损压缩的压缩率要比无损压缩的大,意味着有损压缩占用的带宽和存储空间更小,在一些网络带宽小(比如2G/3G网络)的环境中能发挥一定的作用