眼部整形

首页 » 常识 » 常识 » 精品高级音响师速成实用教程第3版
TUhjnbcbe - 2024/6/14 17:29:00

第二章数字声频技术基础

本章将简要介绍有关数字声频技术的基础知识,主要阐述那些在数字声频中影响声音质量的有关问题,并对声频数字信号处理作一个简要的介绍。

数字声频系统的基本结构如图1-1所示。模拟声频信号在A/D转换中被转换成二进制值。这些二进制值经各种方式的DSP后,被编码并且存储起来,或者被传送出去。存储或者传送的信号仍可进行进一步的处理,然后转换回模拟域。

1.1A/D转换

A/D转换是决定数字声频信号最终质量优劣的最重要的一环。事实上,一个声频信号在进行了转换处理之后,其声音质量只有变坏的可能,而绝无转好的希望。许多声频处理纯粹是在数字域中进行的,在这种情况下,A/D转换并非关键所在,但是大多数的操作仍然不时地需要从模拟域上获得声音素材。工作站的价格各不相同,因此这些数字声频工作站及其周边转换器的质量也有优劣之分。许多分立的专业转换器的价格都相当于一个台式计算机的全部数字声频硬件和软件的价格。如今,在许多多媒体台式计算机中都能见到16bit的转换器,然而与最有效的那些设备相比,这些设备的表现很不理想。正如在下面所要看到的,采样率以及每个采样的比特数是决定一个数字声频信号质量优劣的主要因素,而转换器的质量却表明在这些限制之下,是否能更接近极限。

除此之外,必须承认的一点是:对于很多人来说,一个16bit的转换器听起来与别的并没有什么不同,很多时候价格与质量并不是成正比的。

1.1.1采样

模拟的声频信号是在时间上连续的电信号,而A/D转换器的任务正是将这一信号转换为在时间上离散的二进制数序列。在转换器中,采样过程包括对声频波形的振幅在规定的间隔上及时进行测量或采样,如图1-2所示。显然,采样脉冲准确地表示出了信号在每一时刻的瞬间振幅。采样可被看作是当快速连续播放时组成连续动感电影的一个个静止帧。

基于详细地表征一个信号的需要,有必要在每秒钟获取大量的采样值,同时香农采样定理指出:如果一个信号的必要信息能被恢复,那么在每一个声频周期必须至少得有两个采样。从图1-3中可以看到,如果在声频信号的每一个周期只获得很少的采样,那么采样所描绘的可能会迥异于其采样的原始波形,这也是有助于理解混叠这一现象的一种方法。通过D/A转换来恢复出被采样的信号时,混叠会产生原始信号不需要的成分。

将采样过程形象化的另一个方法是把它放在调制的情况下加以考虑,就像在图1-4中表示的那样。连续的声频波形被用来调制一个规则的脉冲序列,这些脉冲的频率就是采样频率。在调制之前,所有这些脉冲都有同样的振幅之外,现在又出现了许多额外的频谱,并以采样频率的倍频频率为中心,呈对称分布。作为振幅调制的一个结果,采样频率及其倍频的每一边都产生了边带,它将采样频率及其倍频上下延伸基带宽度。换言之,这样的边带是声频频带的对称镜像。

1.1.2滤波和混叠

从图1-6中可以容易地看出,为什么采样频率必须至少两倍于信号基带所含的最高频率。这是因为:超过奈奎斯特采样频率的一个扩展的基带导致了第一个重复频谱的较低的边带重叠在基带的较后部分。这里举出两个例子来进一步说明:在第一个例子中,一个基带声音有足够低的频率,其采样了的边带频率处在声频范围之上;而在第二个例子中,一个较高的频率产生了较低的采样边带,正好落在基带之内,形成对原始声音的一个混叠。

在大家所熟悉的电影“轮幅”效应中,就能够看到混叠这种现象,因为不断变换的画面也是信号采样的一个例子。在影片中,静止画面在正常情况下是以24帧每秒的速度获取的。如果拍摄一个有着参考标志的旋转的车轮,当静止画面的播放速度比旋转的速度快得多的话,将会感到车轮向前转动,但是随着旋转速度的增加,车轮将表现出减速、停止、开始向后运动的效果。当车轮旋转的速度变得更快时,实际效果所表现出的向后运动速度也将变快,这个向后的动作就是由于以一个很低的速度进行采样所产生的混叠。显然,车轮其实并没有向后,但其视觉效果却是如此。

在数字录音中,如果允许一个声频信号产生混叠,重放时也将会听到如同向后旋转车轮般的听觉效果—也就是说,在第一边频没有可闻频谱中的声音成分,随着信号原始频率的增加,其频率下降。所以,在基本的转换器中,必须在采样之前就对基带声频信号进行滤波,如图1-7中所示,从而除去一些超过1/2采样频率的部分。

在实际系统中,因为不可能有理想化的滤波器,采样频率要稍微高于两倍的记录频带上限,允许通带与阻带的过渡特性不是非常陡峭。在D/A和A/D转换器中采用的滤波器对声音音色有明显的影响,因为它们决定了在声频频带内频率响应的线性,在高频处倾斜衰减,以及系统具有线性相位响应。在一个非过采样转换器中,滤波器必须滤掉所有高于1/2采样频率的信号,至少也要衰减80dB。陡峭的滤波器很可能在高频处有不确定的相位响应,同时由于滤波器的高Q值可能表现出“铃响”,因此陡峭滤波器也有缺点,其制作也非常复杂。尽管滤波器的影响在许多方面是不可避免的,但制作者已经在抗混叠和平滑滤波器研究设计方面取得了长足的进展,许多目前采用的性能较差的滤波器,其性能已有所改进,一个积极的效果即反映在音质的改善上。

过采样处理有助于减少模拟滤波产生的问题,因为它将基带的第一个重复边带移至更高的频率上,这样便允许使用较缓衰减斜率的滤波器。

1.1.3量化

采样之后,调制的脉冲序列被量化。在量化一个采样信号时,采样的振幅被转换成一些阶梯状变化的值,如图1-8所示。量化器决定量化间距的固定数据个量化步阶。

能够随时有效表示信号振幅的离散步阶的数目是有限的,所以在量化过程中会有误差产生。误差的最大值将为正负半个步阶的幅度,并且假如所表示的模拟电平保持不变的话,那么每个采样大量的比特数也将产生一个较小的误差。

图1-9所示的是在不同的分辨率下,数字声频信号所处的二进制数范围,通常使用2的补码形式表示。由图1-9可以看到,一个16bit信号最大的确定采样值是7FFF,同时最大的负值为。在其通过0V点时,采样值从全零。超过这个电平的信号被削波,导致了严重的失真,如图1-10所示。

1.1.4采样分辨率的可闻效果

量化误差可以认为是一个不想要的信号叠加在了想要的信号之上,如图1-11所示。根据它们的特性,不想要的信号可划分为失真或噪声,相关的声频信号的性质和电平很大程度上又决定了信号量化误差的性质。下面的几个例子通过图示的方法对16bit采样分辨率时数字域的清晰度进行了说明。

首先让我们考虑一个电平很低的正弦波信号,它被采样随后又被量化,其电平仅仅够让它在峰值的时候,使得量化器的最低有效比特开启或关闭,如图1-12的电平之下,也许就没有调制了。因此,将一个信号衰减至无声,反映在听觉上的效果就是一个逐渐增加的失真信号突然消失。如正弦波信号电平较高则会越过更多的量化间隔,并产生更多的非零采样值。随着信号电平的增加,量化误差最大值仍然是±0.5Q,但占整个信号电平的比例逐渐减小,同时误差也逐渐与信号失去相关性。

现在考虑一个有合理高电平的音乐信号,它的振幅以及频谱特征变化很大,因此其量化误差有着随机的特性。换句话说,这更像噪声,而非失真,因此经常用量化噪声来描述由量化误差所造成的听觉上的效果。分析量化误差的功率时,假定它有类似于噪声的特性,表明它有

6.02n+1.76dB

这意味着理想的S/N大约稍稍超过6dB/bit。所以可以估算出一个16bit的转换器的S/N大约是98dB,而一个8bit转换器大约为50dB。这里所假设的是一个非颤动的转换器。如果一个转换器是非颤动的,那么当有信号时,将只有量化噪声存在,但是当信号不存在的时候则没有静态本底噪声。

1.1.5高频颤动的使用

在A/D转换以及在进行不同的采样分辨率间的转换时使用高频颤动的做法,现在已经被普遍接受。它具有对普通的转换器实施线性化的作用。这种方法之所以很受欢迎有几种原因。首先,白噪声在低电平的情况下不像失真那样让人感觉讨厌;其次,它允许信号平缓地衰减至无声,而不像前面提到的那样突然消失;再者,即使在信号的电平降至系统的本底噪声之下的时候,通常也可将信号重新恢复。在信号电平下降时,没有加入高频颤动的声频信号听起来有“颗粒感”,同时觉得失真了。当高频颤动打开时,细微的“咝咝”声将消失,使得系统听起来更加安静,但通常却认为少量的连续的“咝咝”声与低电平失真相比,前者更加可取。

对转换器的高频颤动处理就是将一个很低电平的信号加入到声频信号上,其振幅取决于颤动所使用的类型。高频颤动信号通常是噪声,但也可能是一半采样频率的一个波形,或者是两者的结合。一个在A/D转换过程中没有被正确加入颤动的信号,不可能在以后通过高频颤动达到同样的效果,因为信号已经产生了不可挽回的失真。高频颤动是怎样完成除去量化失真这一任务呢?

前面已经说明,失真是信号与量化误差之间存在相关性所造成的,从而导致了误差的周期性,并产生了主观上嘈杂不安的听感。如图1-13所示,将一个随机的噪声信号加在声频信号之上使量化误差随机化,并使其听起来有点类似噪声的效果,若一个噪声的振幅与LSB的值相当,那么一个准确位于一个量化间距和下一个之间的关键点位置的信号会被量化到上面或下面去,这要取决于加在其上的高频颤动噪声的瞬时电平。一段时间之后,这一随机的效果将被平均化,产生一个类似于噪声的量化误差,并且系统有一个固定的本底噪声。

图1-13随着原始信号的振幅而变化。当它通过一个D/A转换器和重建滤波器后,其结果为一个纯粹的正弦波信号加上噪声,这一切可从频谱分析中看到。

在诸如调音台等一些数字处理设备中,也使用高频颤动,不过在这些情况下,它是作为一个随机数字序列被引入数字域的。从这一意义上讲,它被用于去除由于信号增益改变而产生的低电平失真,以及在后期制作中进行高分辨率到低分辨率的转换的优化处理。

1.1.6高频颤动的种类

主要由Vanderkooy和Lipshitz进行的研究已经揭示了在高质量的声频制作中,某种类型的高频颤动要比别的类型有效得多。

高频颤动噪声常根据其概率分布进行归一化处理,以显示特定的振幅信号的概率分布。类似图1-15所示的一个简单的图形可用来说明分布的形状,其中概率是用竖轴表示,而以量化步阶反映出的振幅用横轴表示。

只要考虑一下在投骰子时骰子坠落的方式,就可以理解逻辑概率分布,如图1-16所示。投一个骰子存在一个矩形概率分布函数,其峰值集中在6~8之间,因为形成这种和值的组合的可能性多于组合成2点或12点的可能性。在数字电信号中,我们可用一个类似于掷骰子的随机数字发生器产生颤动,同时还发现使用一个随机数字发生器可以产生RPDF颤动,将两个RPDF发生器的输出相加可以产生TPDF颤动。

RPDF颤动振幅处在零与最大值之间的概率相等,然而TPDF颤动振幅为零的概率要大于为最大值的概率。模拟白噪声具有高斯概率分布,其形状与任一种逻辑产生的高频颤动相比都稍有不同。Lipshitz和Vanderkooy已经证明,RPDF、TPDF以及高斯型高频颤动都具有使转换线性化和去除失真的效果。RPDF颤动倾向于在低电平信号下进行噪声调制,这就使得他们认为最合适的颤动噪声是峰峰值为2Q的TPDF,如图1-17所示。如果使用RPDF颤动,它应有1Q的峰峰值。

有时候在数字域可以轻易地产生理想的逻辑概率分布函数,就好像存在于许多转换器的噪声源将是模拟的一样,因此本质上是高斯分布的。对于高斯噪声,颤动信号最合适的均方根振幅为0.5Q,在这种电平下,噪声调制被最小化,但并不是没有。在该电平下的高频颤动使动态范围较未加高频颤动时减小大约6dB,这使得一个理想的16bit转换器加入高频颤动后的动态范围为92dB左右。

1.1.7A/D转换中的过采样

过采样是指用高于奈奎斯特定理规定的频率对声频信号进行采样。通常在随后的数字滤波过程中,这一高比率被减至为一个正常比率,以使与通常的采样信号相比,不占更多的存储空间。它是采用采样分辨率与采样频率之间折中的机制来工作的,也是建立在一个通道传送信息的容量是由这两个因素所决定这一理论的基础之上的。以低分辨率高采样频率进行采样可以被转变为以较高的采样分辨率较低采样频率的采样,信息不存在任何方面的损失。过采样现在已经非常流行,广泛地用于大多数高质量的声频转换器中。

尽管过采样A/D转换器经常使用高达基本频率44.1kHz和48kHz倍的采样频率进行采样,但转换器数字输出的实际速率并不超过基本速率。以高速度获得的采样被量化成仅仅几比特的分辨率,随后再用数字滤波来减少采样频率,如图1-18所示。数字低通滤波器将信号带宽限制在1/2基本采样频率之内,以便防止混叠的产生,这是一种抽取滤波器。抽取滤波器靠从过采样流中抽取出采样来降低采样速度。低通滤波执行的结果是明显地增加了采样的字长,但这种增加不是随意进行的,而是要根据周围采样值,准确地计算出每一个采样的正确值。虽然过采样转换器最初以低的分辨率对采样进行量化,但抽取滤波器的输出却是具有更高分辨率的,通常以奈奎斯特采样频率为采样的样本。如果必须的话,采样分辨率可以减小,以产生所需的字长。

过采样带来了一些好处,同时它也是系统在A/D和D/A环节能提高音质的关键所在。因为最初的采样频率在声频范围之上,从PAM所产生的频谱分布可以看出,所重复的频谱成分已远离声频频带,如图1-19所示。用在传统转换器中的模拟抗混叠滤波器被数字抽取滤波器所代替,如果在D/A转换中过采样,那么模拟重建滤波器的滚降就会更缓。这将改善声频频带内的相位响应的特性,从而改善声音质量。过采样也使得将“噪声整形”法引入转换处理成为可能,它可以将量化噪声的绝大部分转移到频谱的可听范围之外。

1.1.8A/D转换中的噪声整形

噪声整形是以增加其他频带上噪声为代价,降低声频范围绝大多数可听部分的噪声的办法,它使用将量化噪声的频谱能量“整形”的处理方式。

因为采样转换器中使用高的采样频率,而且高的采样频率将量化噪声扩散到整个频率范围之上,并且大部分处在声频范围之外。

量化噪声能量分布在整个基带上,直至奈奎斯特频率。过采样将量化噪声分布于一个更宽的频谱范围中,因为在过采样的转换器中,奈奎斯特频率位于声频带的上限之上。它减小了带内噪声,减小的程度为3dB/oct。换而言之,以两倍奈奎斯特速率进行过采样的系统将声频频带内的噪声能量降低大约3dB。

在过采样的噪声整形转换中,积分器在输入给抽取滤波器时对频率响应进行了提升,同时输入信号以平坦的频响通过。很显然,这样一个电路和模拟负反馈电路之间是等效的。

如果没有噪声整形,量化噪声的能量谱将平滑地延伸至奈奎斯特频率处,但是有了第一级噪声整形,这一能量谱将不再是平直的。如再加上第二级噪声整形,带内的噪声衰减将更加明显,带内噪声将明显小于未经噪声整形处理时的情况。

1.2D/A转换

1.2.1基本的D/A转换

(温馨提示:全文小说可点击文末卡片阅读)

图1-21为一个基本的D/A转换处理示意图,声频样本值被转化为对应其采样值的阶梯状电平链。在简单的转换器中,它通过比特的状态转变成电流源的开和关,并通过结合这些电流源的每一个输出来构成所需的脉冲振幅。在通过低通重建滤波器之前,这个阶梯波被“再采样”以减小脉冲的宽度,滤波器的截止频率为采样频率的1/2。重建滤波器的作用是将采样点连接起来形成一个平滑的波形。再采样是必须进行的,不然的话滤波器的平均效应将导致高频声音信号的振幅下降,称之为“孔径效应”。孔径效应可以通过将样本脉冲宽度限制到大约为采样周期的1/8来减小,也可通过均衡来校正孔径效应。

1.2.2D/A转换中的过采样

正如A/D转换中那样,在D/A转换中也可以使用过采样。在D/A转换的情况下,插入的采样必须处在奈奎斯特速率采样中间,以使转换可以在较高的采样速度下进行。这些是通过PCM数据的采样频率转换来实现的。这些样本随后以较高的速率转换到模拟状态,再次避免使用陡峭的模拟滤波器。噪声整形也可以在D/A转换阶段引入,根据转换器的设计,来压低噪声的主观电平。

现有的一些先进D/A转换器设计采用了高速率下的过采样,产生仅有几比特分辨率的样本。这一方案的极端形式就是极高转换率下的一比特技术,并采用噪声整形处理来优化信号的噪声频谱。

1.3音质与采样频率和分辨率之间的关系

1.3.1心理声学限制

就音质而言,数字声频可能已达到了人耳的听音极限。然而,粗滥制造的数字声频产品听起来也可能非常差,数字并不是高质量的代名词。采样参数和噪声整形方法的选择影响着数字声频的频率响应、失真以及动态范围。

人耳的听觉能力应该看作是对数字系统评价的标准,因为只有当失真和噪声能被听见才有争论的必要,所以将转换器的本底噪声设计成低于人耳所能感知的灵敏度应该不失为一个明智之举。例如,图1-22显示的是一个典型的低电平听觉灵敏度曲线,它表明了一个声音信号刚刚能被听到所需要的最低声压级。应记住的是,人耳的闻阈不是绝对的,而是带概率特性。换句话说,在试图判断什么情况下能被听见,什么情况下不能被听见时,实际上说的是一种统计概率。对于一些试图建立听觉标准的研究来说,这是很重要的,因为某些虽然低于听阈10dB的声音,在一些情况下存在统计上确实能听到的可能性。

动态范围可以被认为是MAF和所能容忍的最响声音之间的范围。可容忍的最响声音因人而异,但是“痛阈”通常被认为是在dB与dB之间。为此,人耳听觉的绝对最大动态范围在1kHz处大约是dB,远大于在低频或高频时的动态范围,是否有必要录制这样宽的动态范围还有待讨论。

LouisFielder和ElizabethCohen所进行的一些工作,试图通过研究声源发出的有效极端声压,并且将其与真实声学环境下的可闻本底噪声对比,得出高质量数字声频系统所需要的动态范围。根据心理声学理论,Fielder能够表示出在不同的频率下,根据噪声与失真的情况可能听见什么,以及在一个典型的录音链中,限制的因素可能在哪儿。将动态范围定义为产生峰值等于一个特定峰值电平的均方根最大不失真正弦波电平与20kHz限带白噪声的均方根电平之比。它与特定声频链的设备在无信号时噪声的响度是一样的。他进一步表明20kHz带宽噪声信号恰好能被听见的声压级大约为4dB,在满意的听音位置上,一些音乐演奏所达到的声压级在dB和dB之间。根据这些,他确定了真实地重放所需要的动态范围为dB。考虑到传声器的性能和民用扬声器的限制,对于民用系统,所需要的动态范围降至dB。

1.3.2采样频率

采样频率的选择决定了最大有效声频带宽。在选择一个比必需的采样频率低的采样频率的问题上存在一些争议。经常争论的是从有用的最高声频频率为多少这个问题上开始的,同时这也是争论的焦点所在。传统的理论认为声频频带伸展至20kHz,这意味着对高质量的声频制作而言,采样频率只需超过40kHz即可。事实上,有两个标准的采样频率位于40kHz和50kHz之间:CD的采样频率为44.1kHz,而称之为“专业”的采样频率为48kHz。这两者都满足年制定的数字声频设备采样频率的AES5标准。表1-1列出了各种不同的采样频率以及它们的应用范围。在台式PC和声卡中使用的采样频率标准很多,这里只列出了其中最通用的。

首先是48kHz的采样频率,因为它给磁带录音机向下变速处理留有大量余地。当许多数字录音机变换速度时,它们的采样频率也相应地改变,其结果为声频基带第一个频谱副本产生移动。如果采样频率被降得太低,那么会听到混叠成分。为此,大多数专业的数字磁带录音机仅允许有±12.5%的速度变化。然而,现在通过使用截止频率随采样频率变化的低通滤波器可以防止这个问题的产生。

在民用CD机上,较早地采用了44.1kHz的采样频率,如今这一频率已被广泛使用。实际上,它也已经成为大多数专业录音设备中备选的采样频率之一。它允许20kHz声频频带的全部使用,并且过采样转换器允许使用可以防止在高频出现相位问题的较缓的模拟抗混叠滤波器。与48kHz的采样频率相比,它每秒钟所产生的数据要少10%,从存储的观点来看要经济一些。

IMARP速率在国际多媒体协会推荐使用中被挑选来提高多媒体系统中的数字声频兼容性,用来在工作站中交换声音文件。

32kHz的采样频率使用在一些广播应用上,例如在NICAM立体声电视传送以及用在一些无线电转播系统中。电视和FM广播声音带宽被限制在15kHz已经好多年,并且靠使用这一较低的采样频率达到了节省传送带宽的目的。大多数重要的声频信息都位于15kHz以下,并且除去15kHz以上的频率成分对声音的影响也不太大。一些专业的声频设备将这一频率作为备选。例如一些DAT使用这一频率来进行长时间播放。

更高的采样频率,如88.2kHz和96kHz作为标准存在的依据是要适合声源的要求:即高于20kHz的信息对于声音质量也是重要的。一位日本教授已经揭示出,高于20kHz的频率能够使人脑中X波兴奋。这个X波与人的满足和放松的状态相对应。人耳的听觉响应并不是截止于20kHz的观点显然是正确的,但是只有极少数听音者可以屡次区分出一个信号是否含有较高的频率成分。采样频率加倍将导致数字声频系统的数据率加倍,从而使可存储的时间减半。这些较高的采样频率应在仔细权衡过得失之后再选用。当前还没有支持这些频率的民用重放媒体。

那些低于30kHz的低采样频率经常用于对音质要求较低的PC工作站上,如存储语言样本、内置音效源等。在早期的计算机中,这些是由于时钟和运算速度限制造成的。多媒体应用可能需要支持这些频率,因为在这类应用中,经常用到各种不同质量的声音。

1.3.3量化分辨率

每个样本的比特数决定着数字声频系统的信噪比或动态范围。在此仅讨论线性PCM系统,因为对于所介绍的非线性量化或数据压缩,情况是不同的。表1-2简要地表述了不同采样分辨率的应用。

多年来,16bit线性PCM已被认为是高质量声频应用的规范。这是CD标准的音质,并且能够提供超过90dB的动态范围。对于大多数的应用而言,虽然已经足够,但是还不能达到Fielder的理想,即在专业系统中进行dB无噪声重放的要求。要达到如此之大的动态范围需要转换器的分辨率为21bit左右,根据对这一指标的注释,今天的转换器技术可以达到这一要求。有些设计方案采用两个转换器,靠数字信号处理来将有重叠的两个输出混合起来,使可闻的动态范围明显提高。而另一些则使用非相关高频颤动的两个转换器,将它们的输出相加,而使信号增加6dB,而噪声只增加3dB。

在专业录音中会常常遇到需要一定的“峰值储备”的情况。换句话说,一些用于不可预见的情况下的超过标称峰值录音电平的动态范围,如当一个信号过冲,超出其预期的电平。尤其是现场录音时,不知道录音电平会出现什么样的情况时更是必需。这就是为什么许多专业人士认为高于16bit的分辨率对于原始录音很有必要的另一个原因。为此,20bit录音格式迅速地流行起来,调音师也可以使用噪声整形再量化处理来完善已制作完成的16bit媒质的录音。人们甚至已经开始对24bit录音感兴趣了,但目前能全面开发这一动态范围的转换技术尚不成熟。

在较低质量的终端产品中,一些PC的声卡以及内部声源以低至4bit的分辨率进行工作。在台式计算机中,8bit的采样重放输出是最常见的,它通过PC的内置扬声器重放出中等的音质,在未加高频颤动时的动态范围大约为50dB。有许多适用于PC的非线性量化方案,PC中采用了多种非线性量化方案,比如A律和μ律以及各种其他数据压缩方案。这些方案能够通过少量的比特数来改善动态范围,但也存在着可闻的副作用。国际多媒体协会已经制定并推荐了便于简单交换的一系列采样频率和数据类型,如表1-3所示。当今的多媒体PC和声卡通常以16bit分辨率作为标准。一些早期的MIDI采样器以8bit分辨率进行工作,近期多为12bit,而现在的MIDI采样器则普遍具备真正16bit的分辨率。

1.4数字化处理的相关问题

1.4.1时基抖动及对转换器的影响

时基抖动是声频样本时基位置的短时间变化。理想情况下它们应该是非常稳定的,如果时基不稳,各种有害的影响将在声音质量上反映出来,包括附加的噪声和失真,它由样本瞬间时基偏移的方式而定。抖动被认为与量化误差非常类似,只不过时间轴在这里替代了振幅轴,但它们的结果是类似的。它是由多种原因造成的,其中包括低质量的时钟信号、电子噪声、电子干扰,也经常是由于通过数字接口传递声频信号造成的。注意到抖动并非必定是一个问题是很重要的。只有影响进行A/D和D/A转换中的时钟时才对声音质量有所影响,在很多情况下可以通过使用合适的稳定的锁相环路进行重复再生时钟而将抖动去除。A/D转换器时钟上的抖动如不能随后被去除的话,会产生信号的永久失真。而在数字域后面的阶段引入的抖动可以被减少或去除。

抖动的重要特征表现在峰值振幅和其速率上,这两个因素相结合将会影响声音质量。Shelton通过计算随机抖动的均方根信噪比得出结论:低于5ns的时基不规则变化,对于整个信号频率范围上的16bit数字声频系统可能是非同小可的。这一要求在更高的分辨率以及在高频情况下将更加苛刻。图1-23简要地表示了这些影响。

如果抖动是周期性的而非随机产生的,其结果将相当于“抖动”,如果在一个正弦声频信号转化的采样时钟中发生这种情况,那么由于相位调制会在原始声频信号两边产生边带,其频率间隔等同于抖动频率。JulianDum已经得出抖动边带的电平与信号的关系,可以表示为:

Rj(dB)=20lg(Jωi/4)

这里J是指抖动的峰峰值振幅,ωi是指声频信号频率。根据这个公式,他提出对于一个振幅为ps的抖动,一个最高电平的20kHz的声频信号将产生一个相对主音振幅的96.1dB边带。

然而,最重要的是“抖动引发的”产物的听觉效果。Dum试图在利用心理声学理论对最终频谱分析的基础上进行计算。假定声频信号是在一个高声压级的情况下进行重放,以便在最坏声频信号情况下,刚刚能听见调制噪声。

1.4.2改变声频信号的分辨率

当需要改变信号的分辨率时,在声频制作中可能会有一些关键的问题出现。在高质量的声频中,这一情况最普通的例子是从20bit录音中制作CD母版,因为CD只有16bit的分辨率。此情况也发生在所有形式的信号处理器中,因为样本的字长在不同的阶段有所不同。在多媒体应用中,需要将声音文件从16bit转换成8bit分辨率的情况是常有的,这一操作执行的正确与否也是非常重要的。

如果声频样本的长度需要减少,那么简单地舍去不想要的LSB可能是最差的解决方法。例如将20bit的信号减少为16bit,不能简单地舍去4位LSB就认为万事大吉了。舍去LSB可能会产生与在A/D转换中不使用高频颤动相似的结果,即有可能引入低电平的失真成分。低电平的信号听起来会有颗粒感,同时也无法平滑地衰减成噪声。

对这一问题正确的解决方式是靠在数字域增加颤动噪声来对信号进行再次颤动,以达到既定的分辨率。为这一新的分辨率而进行的数字抖动应该控制在合适的电平上,并且新样本的LSB增加或减少应该由该抛弃的LSB总值来决定。应该注意到,许多廉价的数字声频设备都无法圆满地进行这一操作,导致了音质下降。许多专业级的数字声频工作站都允许以各种不同的分辨率对声音进行存储和输出,也可以让用户来选择是否加高频颤动。例如,将20bit录音的声音制作成CD母版,要确保原始录音中最高电平的信号在制作母版时被调整,以便在16bit分辨率情况下进行再量化与再颤动之前,可以使其峰值尽可能地接近最高电平。以这种方式,可以尽可能最大限度地将原始信号的低电平信息保存下来,同时使量化噪声最小。不仅在CD母版制作上,在许多再量化处理时,都运用这一方法。许多应用使用了自动度量声频信号的方法,因为这样可以对电平进行最佳的调整,允许用户将峰值电平值设置在样本最高电平处。由于数字仪表和CD母版制作系统上的许多过载检测器可以找到最高电平重复的样本并检测是否过载,设置峰值电平是一个明智的做法,这样可以使信号恰好处于满调制工作之下。这将确保原版磁带不会因为复制工厂怀疑录制错误而拒绝生产,同样用户也不会因电平过载而抱怨。

1.4.3动态范围扩展

如上所述,在再量化的过程中,最大限度地提高数字声频信号的主观动态范围是可以实现的。这在将高分辨率的录音制作成CD母版时尤其有用,因为减少为16bit的字长通常会引起量化噪声增加。尽管它被转移至一个16bit的媒体中,但保留高分辨率录音绝大部分的动态范围实际上还是可以实现的。

在再量化中,使用数字滤波来对量化噪声的频谱进行整形,以便将尽可能多的量化噪声转移到最难以听到的频谱中。通常,它将噪声从人耳最灵敏的4kHz区域移开,将移开的噪声加到频谱的高端。结果,通常是高电平的噪声分布在高频区,但仍然位于听阈之下。使用这种方法,CD听起来几乎可以达到与20bit录音相同的动态范围。

1.4.4误码校正

尽管专门的数字录音格式需要专门设计的系统来纠正数据错误带来的影响,但是,那些使用计算大容量主存储媒质的系统就并非如此了。原因在于这些大容量存储媒介被格式化了,这种格式化可以保证基本不会出现误码。比如说,当一个计算机磁盘驱动器在一个较低的水平下被格式化,格式化的目的就是将数据写进每一个地址并且可读取出来。如果一个地址被认为是被损坏了,或者产生了错误的重放,那么它就被认为是“坏区”,这样它就不再用来进行数据存储。此外,磁盘和磁带驱动器进行误码行自检,并且通过使用那些通常对数字声频系统透明的方法来纠错。在读取数据时如果检测到一个数据错误,那么此后该数据块通常被数次地重读,以判断数据能否被恢复。这样唯一的影响就是交换的速度降低了一些。

这与专门的声频格式,如DAT的情况截然不同。在专门的声频格式中,有许多层误码保护,其中一些可将误码彻底纠正,而另一些则使得严重的误码在听感上造成的影响降至最低,这一处理称之为内插。例如,可根据周围样本的电平来判断丢失的样本值为多少,如图1-25所示。另一方面,计算机系统不允许采用这种误码校正,因为它假定数据要么是正确的,要么就是无用的。例如,在读财务报表时,仅凭观察一个未知点两边的值而对其进行猜测是不允许的。

因此,计算机大容量存储媒质上的数据被认为是原始数据。无误码数据存储一旦被格式化,就没有再增加纠错数据的必要。这并不是说这种媒质绝不出错,因为它们时常会有错误发生,但是数字声频工作站通常并不在那些已经存储的数字上再采取任何额外的误码。这样的结果就是,如果无法避免的错误在数字声频工作站重放声音文件时出现的话,那么它通常会导致整个文件无法播放。这一文件将被认为是损坏的,计算机将无法读取它。用户没有能够决定错误是否可闻的权利,他必须借助某种计算机文件“急救包”帮助——“急救包”使用各种专门的技术来试图恢复被破坏的信息。

1.5数字声频信号处理

在模拟域对声频信号进行的诸如均衡、推拉衰减和压缩等处理工作,在数字域同样可以进行,而且,在数字域进行某些操作时其副作用更小,尤其是在模拟域实现非常困难或者根本就不可能实现的一些功能在数字域则是可以实现的。这里,仅就数字声频信号处理的相关问题简介如下。

1.5.1电平控制

在数字域中,改变声音信号的电平相对要容易一些。将增益改变6dB是最容易的,因为这意味着只需将整个样本字节向左或向右移动一步,如图1-26所示。实际上,这个操作是将初始值乘以2或除以2。更精确的增益控制则是用一些其他表示增益增减的因子,乘以声频样本值来实现的。乘数中的比特数决定了增益调节的精度。将两个二进制数相乘可以产生一个比初始值有更多比特位的新样本值,并且数字调音台内部结构具备处理32bit字长的能力已经是非常普遍的,尽管在它们的输入和输出部分只能处理20bit。正因为如此,在调音台采样分辨率已被降低的地方,普遍使用再颤动处理,例如在所有数字输出或转换阶段,以便保持如上所述的音质。

在数字增益控制中用作乘数的数值可以由用户控制产生,如推拉衰减器、旋转电位器或屏幕指示等,或者也可以由自动化系统中存储的值得来。从一个“模拟”推拉衰减器得到一个数字值的“经典”方式是将推拉衰减器与一个固定的电压源接起来,将衰减器滑动点接到A/D转换器上,以提供一个与它们的位置有关的直接二进制位置输出的控制能力。衰减器的“规则”可以由在存储器中建立的一个合适的检查表的值来决定,它将被作为对应衰减器自身位置的乘数来使用。

1.5.2交叉渐变

在使用数字声频工作站时,一部分的声音要与另一部分连接的地方广泛地使用交叉渐变技术。它可以避免因波形突变而产生的“咔嗒”声,同时也使一个声音平滑地过渡到另一个声音上。

在图1-27中给出了这一处理的原理框图。它是指两个分别受其自动推拉衰减器控制的信号,一个衰减一个提升,继而将两个信号相加,以控制衰减器的速率和系数,产生各种不同形式的交叉渐变。

(点击上方卡片可阅读全文哦↑↑↑)

感谢大家的阅读,如果感觉小编推荐的书符合你的口味,欢迎给我们评论留言哦!

想了解更多精彩内容,

1
查看完整版本: 精品高级音响师速成实用教程第3版