【Audio音频开发】音频基础知识及PCM技术详解_audio pcm-程序员宅基地

技术标签：音视频 Audio Develop Audio音频开发服务器音频 Linux驱动开发

个人主页：董哥聊技术我是董哥，嵌入式领域新星创作者 创作理念：专注分享高质量嵌入式文章，让大家读有所得！

文章目录

1、前言

现实生活中，我们听到的声音都是时间连续的，我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

目前我们在计算机上进行音频播放都需要依赖于音频文件。那么音频文件如何生成的呢？

音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程，我们人耳所能听到的声音频率范围为（20Hz~20KHz），因此音频文件格式的最大带宽是20KHZ。

根据奈奎斯特的理论，音频文件的采样率一般在40~50KHZ之间。

奈奎斯特采样定律，又称香农采样定律，即：为了不失真地恢复模拟信号，采样频率应该大于等于模拟信号频谱中最高频率的2倍。

2、概念

声音的本质是一种能量波，由振动而产生的能量波，通过传输介质传输出去。

声音有三个属性：

音调：声音频率的高低，表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定，同时也与声音强度有关。
音量：由“振幅”（amplitude）和人离声源的距离决定，振幅越大响度越大。
音色：又称声音的品质，波形决定了声音的音色。

波长是决定音调高低；振幅是决定音量高低；波纹是决定音色。

3、 PCM介绍

PCM（Pulse Code Modulation），即脉冲编码调制技术。

由于我们人耳听到的声音均为模拟信号，那么我们如何将听到的信息存储起来呢？这就涉及到了PCM技术。

PCM技术就是把声音从模拟信号转化为数字信号的技术，即对声音进行采样、量化的过程，经过PCM处理后的数据，是最原始的音频数据，即未对音频数据进行任何的编码和压缩处理。

4、 PCM原理

脉冲编码调制就是把一个时间连续，取值连续的模拟信号变换成时间离散，取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样，再对样值幅度量化，编码的过程。

简化来说：PCM脉冲编码调制，以一个固定的频率对模拟信号进行采样，并将采样的信号按照一定精度进行量化，最终量化后的值被输出，记录到存储介质中。

如下图所示：

原始模拟音频数据如下：

按照固定频率进行采样，得到：

最后，对采样后的数据选择合适精度进行量化：

5、PCM相关概念

5.1 采样频率

采样频率：单位时间内对模拟信号的采样次数，它用赫兹（Hz）来表示。采样频率越高，声音的还原就越真实越自然，当然数据量就越大。采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。

Tip：

5kHz的采样率仅能达到人们讲话的声音质量。

11kHz的采样率是播放小段声音的最低标准，是CD音质的四分之一。

22kHz采样率的声音可以达到CD音质的一半，目前大多数网站都选用这样的采样率。

44kHz的采样率是标准的CD音质，可以达到很好的听觉效果。

48KHz：miniDV、数字电视、DVD、电影和专业音频。

5.2 采样位数

采样位数（Sample Bits）：又称为采样精度，量化级，也相当于每个采样点所能被表示的数据范围。

采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。

8bits为低品质，16bits为高品质，16bits最为常见。

5.3 声道数

声道数（Channels）：又称为通道数，指的是：能支持不同发声的音响个数，它是衡量音响设备的重要指标之一。

Tip：

单声道的声道数为1个声道；

双声道的声道数为2个声道；

立体声道的声道数默认为2个声道；

立体声道（4声道）的声道数为4个声道。

5.4 音频数据大小计算

知道上面三个概念，我们就能够计算出来一个原始的音频文件所占用空间大小了。
$空间大小 (B y t e) = 采样频率 (h z) * 时长 (s) * 采样位数 (bi t) * 声道数 /8$

5.5 量化

量化： 量化就是通过四舍五入的方法将采样后的模拟信号转换成一种数字信号的过程。

对于采样来说，就是在时间轴上对信号数字化；

对于量化来说，就是在幅度轴上对信号数字化

通过采样时测的的模拟电压值，要进行分级量化，按整个电压变化的最大幅度划分成几个区段，把落在某区段的采样到的样品值归成一类，并给出相应的量化值。

5.6 其他参数相关

帧（Frame）：一个声音的基本数据单元，其长度为采样位数和通道数的乘积。
周期（Period Size）：音频设备一次处理所需要的帧数，对于音频设备的数据访问以及音频数据的存储，都是以此为单位。硬件缓冲传输单位，即完成这么多采样帧的传输，就会回馈一个中断。

在这里插入图片描述

Buffer Bytes： 一个应用Buffer有多少个字节，DMA缓冲区大小。

因为Buffer Size由应用设置，其可大可小，若其太大，则传输的延时太大，所以对此进行分片，提出Period的概念。overrun，录制时，数据都满了，应用来不及取走；underrun，需要数据来播放，应用来不及写入数据

Sign ：表示样本数据是否是有符号位
Byte Ordering：字节序，表明数据是小端（little-endian）存储还是大端（big-endian）存储，通常均为little-endian。
nteger Or Floating Point ：整形或者浮点型，大多数格式的PCM样本数据使用整形表示。
**交错模式：**数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录第一帧的左声道样本和右声道样本，再开始第2帧的记录…
非交错模式： 首先记录的是一个周期内所有帧的左声道样本，再记录所有右声道样本。

以FFmpeg中常见的PCM数据格式s16le为例：它描述的是有符号16位小端PCM数据。

s表示有符号，16表示位深，le表示小端存储。

6、PCM数据流

对于PCM数据都是一些文本化的描述，那么一段PCM格式的数据流怎么表示的呢？

以8-bit有符号为例，长得像这样：

+---------+-----------+-----------+----
 binary 	| 0010 0000 | 1010 0000 | ...
 decimal	| 32        | -96       | ...
+---------+-----------+-----------+----

每个分割符"|"分割字节。因为是 8-bit 有符号表示的采样数据，所以采样的范围为-128～128。

OK，对于PCM数据流的存储而言，上面仅仅只是单声道。对于多声道的PCM数据而言，通常会交错排列，就像这样：

+---------+-----------+-----------+-----------+-----------+----
     FL 	|     FR    |     FL 	  |     FR    |     FL 	  |    
+---------+-----------+-----------+-----------+-----------+----

对于8-bit有符号的PCM数据而言，上图表示第一个字节存放第一个左声道数据（FL），第二个字节放第一个右声道数据（FR），第三个字节放第二个左声道数据（FL）…

7、编码

一个完整的音频，经过采样和量化后的信号，需要将它转化为数字编码脉冲，这一过程称为编码。

编码简单来说，就是按一定格式记录采样和量化后的数字数据。

PCM技术仅仅包含采样和量化，并不包含编码部分，这里仅简单介绍。

7.1 音频编码协议ACC

AAC（Advanced Audio Coding） 高级音频编码，是一种声音数据的文件压缩格式。AAC分为ADIF和ADTS两种文件格式。

ADIF（Audio Data Interchange Format）：音频数据交换格式。这种格式的特征是只有音频数据最前面具有头字节，音频数据流中间没有头字节。因此它的解码只能在头字节处开始进行。故这种格式常用在磁盘文件中。
ADTS（Audio Data Transport Stream）：音频数据传输流。这种格式的特征是它每一单元音频数据都有一个header字节，解码可以在这个流中任何位置开始。

7.2 压缩

PCM数据是最原始的音频数据，完全无损，所以PCM数据虽然音质优秀但体积庞大，为了解决这个问题先后诞生了一系列的音频格式，这些音频格式运用不同的方法对音频数据进行压缩，其中有无损压缩和有损压缩两种。

无损压缩：将数据压缩之后，通过解码还能还原成与原始数据一模一样的数据为无损压缩。
- ALAC、APE、FLAC
有损压缩：消除冗余信息，如人耳能听到的声音为20Hz - 20000Hz 以内，所以可以将此范围外的声音去除掉。
- MP3、AAC、OGG、WMA

7.3 其他概念

码率：(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量，代表了压缩质量。

比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等，越高代表着声音音质越好。

MP3中的数据有ID3和音频数据组成，ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。

$码率 = 采样率 * 采样位数 * 声道数$

例如：

如果是CD音质，采样率44.1KHz，采样位数16bit，立体声(双声道)，码率 = 44.1 * 1000 * 16 * 2 = 1411200bps = 176400Bps，那么录制一分钟的音乐，大概176400 * 1 * 60 / 1024 / 1024 =10.09MB。

音频帧： 音频数据是流式的，本身没有明确的一帧帧的概念，在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。

8、参考文章

[1]：https://blog.csdn.net/weixin_41910694/article/details/107644742

[2]：https://blog.csdn.net/qq_22310551/article/details/123905051

本文链接：https://blog.csdn.net/dong__ge/article/details/126128225

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

使用nginx解决浏览器跨域问题_nginx不停的xhr-程序员宅基地

文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的，浏览器出于安全考虑是禁止的。警告信息如下：不过jQuery对跨域问题也有解决方案，使用jsonp的方式解决，方法如下：$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr

在 Oracle 中配置 extproc 以访问 ST_Geometry-程序员宅基地

文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry，也就是我们所说的使用空间SQL 的方法，官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下，主要就分为以下几个步骤。..._extproc

Linux C++ gbk转为utf-8_linux c++ gbk->utf8-程序员宅基地

文章浏览阅读1.5w次。linux下没有上面的两个函数，需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数，转换过程中受到系统编码类型的影响，需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8

IMP-00009: 导出文件异常结束-程序员宅基地

文章浏览阅读750次。今天准备从生产库向测试库进行数据导入，结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误，google一下，发现可能有如下原因导致imp的数据太大，没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件，向高版本imp导出的dmp文件出错传输dmp文件时，文件损坏解决办法：imp时指定..._imp-00009导出文件异常结束

python程序员需要深入掌握的技能_Python用数据说明程序员需要掌握的技能-程序员宅基地

文章浏览阅读143次。当下是一个大数据的时代，各个行业都离不开数据的支持。因此，网络爬虫就应运而生。网络爬虫当下最为火热的是Python，Python开发爬虫相对简单，而且功能库相当完善，力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页，按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息，通过分析请求信息可以了解请..._初级python程序员能力要求

Spring @Service生成bean名称的规则（当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致）_@service beanname-程序员宅基地

文章浏览阅读7.6k次，点赞2次，收藏6次。@Service标注的bean，类名：ABDemoService查看源码后发现，原来是经过一个特殊处理：当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname

随便推点

二叉树的各种创建方法_二叉树的建立-程序员宅基地

文章浏览阅读6.9w次，点赞73次，收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立

解决asp.net导出excel时中文文件名乱码_asp.net utf8 导出中文字符乱码-程序员宅基地

文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能，如果文件名出现中文，便会以乱码视之。解决方法： fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码

笔记-编译原理-实验一-词法分析器设计_对pl/0作以下修改扩充。增加单词-程序员宅基地

文章浏览阅读2.1k次，点赞4次，收藏23次。第一次实验词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别，找出文件中所有的合法的单词，并给出一定的信息作为最后的结果，用于后续语法分析程序的使用；本实验针对 PL/0 语言的文法、词汇表编写一个词法分析程序，对于每个单词根据词汇表输出： (单词种类, 单词的值) 二元对。词汇表：种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词

android adb shell 权限,android adb shell权限被拒绝-程序员宅基地

文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限

投影仪-相机标定_相机-投影仪标定-程序员宅基地

文章浏览阅读6.8k次，点赞12次，收藏125次。1. 单目相机标定引言相机标定已经研究多年，标定的算法可以分为基于摄影测量的标定和自标定。其中，应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统，在标定过程中，相机拍摄多个角度下（至少两个角度，推荐10~20个角度）的标定板图像（相机和标定板都可以移动），即可对相机的内外参数进行标定。下面介绍张氏标定法（以下也这么称呼）的原理。原理相机模型和单应矩阵相机标定，就是对相机的内外参数进行计算的过程，从而得到物体到图像的投影_相机-投影仪标定

Wayland架构、渲染、硬件支持-程序员宅基地

文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的硬件支持简述：　翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构；一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。内核是从一个输入设备中获取一个事件，并通过 evdev 输入_wayland