沉浸声专题讨论一:《沉浸声—声音情景的重构与创造(上)》
来源:中国传媒大学 编辑:ZZZ 2024-07-22 14:13:52 加入收藏
沉浸声——声音情景的重构与创造(上)
魏增来 耿依杨 徐晓轶
中国传媒大学
摘要
沉浸声技术是近年来音频领域的热点之一。本文首先解析了人耳听觉感知的内容和过程,指出“声源特征”、“空间特征”及“个人特征”是影响听觉感知的三个主要因素;此后从电声重现声音情景的发展历程入手,探讨了沉浸声的基本概念,并结合影响听感的三个要素,分析了沉浸声通过耳机重放和扬声器重放这两个主要实现手段的基本原理;在此基础上,本文探讨了沉浸声用以重构复刻和联想创造声音情景的这两个主要用途;最后笔者分别从呈现感知层面和使用操作层面提出了当前沉浸声技术所面临的主要问题,并对未来沉浸声的发展目标进行了展望。
关键词:
沉浸声 声音情景 声源特征 空间特征 个人特征 写实还原 写意创造
正文
随着技术发展和时代进步,近年来,沉浸声这一概念成为了音频界最为热点的词汇,并出现了众多与之类似的称谓,如全景声、全向声、3D音频、空间音频等,但究其根本,如何理解这些名词,到底什么样的声音又可以被称之为沉浸声呢,业界也存在一定的争鸣。以此为背景,笔者尝试从人耳听觉感知入手,逐步梳理电声化重现声音情景的发展历程,进而对沉浸声的定义及其用途进行探索和讨论。
一、人耳听觉感知
所谓人耳听觉感知,可以简单理解为人对声波产生行为反应的过程。在日常生活中,具体表现为发声体通过振动而产生的声波,经由空气传播到人耳,并在人耳结构中完成一系列信号传输和转换后,最终在大脑听觉皮层形成有效信息的生物感知过程。尽管基于声源、空间环境等“因”的不同,我们通过听觉所能获取到的“果”,即语义信息、听感体验等也都不尽相同,但人类形成听觉的过程和原理却是一致的。当谈及听觉感知时,首先需要明确两个最为关键的问题,即“听什么”和“如何听”。
(一)“听什么?”
当人耳接收声音信息时,主要有两方面因素会对听感产生影响,一是声音元素,二是空间声学环境信息。所谓声音元素,泛指直接振动发声的声源,如人声、乐器、物体撞击、鸟鸣等。不同声源有着不同的声音特征,通常可由响度、音调和音色来描述。以小提琴为例,每把琴、每次演奏的音量、音调以及相关的基波、谐波以及频谱包络等因素均有所不同,这些因素共同构成了声源的特征,而声源特征的变化对听觉感知产生的影响是不言而喻的。
此外,当声源处在某一空间中发声时,其所表现出来的声音将不可避免地受到该空间声学环境的影响,例如由于界面的反射声波而使声源的响度加强并产生混响感等。同样以小提琴为例,同一位演奏家在室外、音乐厅、大教堂、录音棚、消声室内等不同场所使用同一把小提琴演奏相同曲目时,听众通过听觉所捕获的琴声听感肯定是不同的,甚至同一空间内位于不同位置的听众所捕获的听感也有一定差异,因为听音位置不同时,直达声音量、方位以及反射声音量、方位都会不同,它们的共同作用一定会带来听感的不同。这时,人耳所接收的声音信息中不仅会包括声源本身的声音特征,同时也会包含声源所处的空间环境的声音特征,具体如图1所示,这也就是说空间特征一定会对听觉感知产生影响。
图1:人耳所接收的“声源特征”及“空间特征”示意图
综上所述,听觉感知是与声源本身以及声源所处的空间环境紧密联系的,声源特征和空间特征共同构成了人耳能够感知和获取到的听觉特征信息,所谓“听什么”,实际上就是收听“声源特征”和“空间特征”。
(二)“如何听?”
所谓“如何听”,本文中主要指人耳接收声音信息并将其转换成具体的、可被听者理解的含义的这一过程,包括客观感知和主观映射两个环节。其中,客观感知环节与耳朵的生理结构以及耳内各个部位所对应的功能息息相关。当声源在空间中通过振动产生声波并经由介质传播到人耳后,由耳廓和外耳道所构成的外耳首先对声波进行聚合并传导至中耳;中耳则通过鼓膜、鼓室、听小骨、咽鼓管等的共同作用将声波进一步放大并传导至内耳;内耳再利用前庭、半规管、耳蜗以及神经束等,将声波信号转换为生物电信号,并传导至大脑听觉皮层。这一环节众多研究已非常清楚地进行了阐述,本文不再赘述。概括来说,听音者通过外耳、中耳、内耳和大脑听觉皮层的共同作用,完成了对声音信息的客观感知。
此外,在整个听音的过程中,还有最为重要的主观映射环节,也就是听音者如何将听到的客观声学信息(如音节、起伏包络、响度、频率、音色等)转换成可以理解的含义及其他相关信息的环节。笔者认为,主观映射的过程一部分可能来自于我们的基因,但绝大部分应该源于我们从呱呱坠地后经过长期的听觉与其他如视觉、触觉、嗅觉等多重感觉联结在一起时,所共同建立起的主观映射联系。以语言为例,当我们从小听到汉语、英语、日语等不同语言的某一句话或某一个词语,如“请跑过去”、“抓住你的胳膊”等,并通过后续一系列与之相关的过程或动作或感觉获得相应结果后,我们就可以将这种声音特征与某种含义建立关联,而通过长期的这种类似关联后,我们则可以建立起这种声音特征与特定含义之间的映射关系。甚至当这种主观映射达到更高阶段,如说话者带着不同的语气和情绪来陈述同一句话时,也能够使听者获取到不同的语义信息。当然,这一过程中,同样也会逐渐建立起听音者对声源空间方位及所处空间环境的判断映射。这种现象的产生与日常生活中不断的联觉体验及其主观映射的建立不可分割。
在阐述“如何听”这一过程时,不得不提到人的“双耳效应”、 “头相关传递函数(HRTF)” 和“双耳声(Binaural)”这三个概念,其示意可见图2。我们都知道,人类是通过两只耳朵来采集声音并据此进行主观映射的。由于横向排布的两只耳朵与声源间的不同距离会造成时间差,从而形成相位差,同时头部的遮挡也会造成音色差,且距离差和头部遮挡还会造成响度差,上述双耳间的相位差、音色差以及响度差这些因素均会对听者的定位感知和环境感知方面造成一定影响,导致客观感知层面产生不同的听感并影响到主观映射的建立,这就是所谓的双耳效应。此外,当人通过两只耳朵接收声音时,还会受到耳廓、头、肩形状以及毛发甚至衣物等相关部位或因素的影响,它们汇同双耳效应,共同对声波的传输产生一定的作用,使得进入耳朵的声音类似于经过了一个特定的综合滤波器,这个特定滤波器这就是所谓的“头相关传递函数(Head-Related Transfer Function, HRTF )”,它包含了声波与人体发生作用后所引起的所有谱特征。由于不同的人体在上述人体结构及其影响因素上具有一定的差异性,因此,每个人的头相关传递函数其实也是不同的、个性化的。而且,即便我们位于同一空间的同一位置收听同样的声源信息,每个人经过其个体的头相关传递函数滤波后所感知到的声音客观信息也是不同的,并进而影响到其主观映射的建立和后续判断。因此,我们可以认为,任何人在空间中感知声音时,一定会受到个性化头相关传递函数的影响,这种影响就形成了所谓的“双耳声”,而这种双耳声,在声音的声源特征、空间特征的基础上,又不可避免地加载了每位听者独特的个人特征。
图2:双耳效应、头相关传递函数及双耳声示意
(三)听觉感知三要素
综上所述,笔者认为,在现实生活中,个人对任何声源的感知实则就是在声源特征、空间特征和个体特征这三个要素的共同影响下产生听觉,再基于心理声学建立起长期主观映射的复杂过程。声源特征、空间特征和个体特征是构成听觉感知的最重要的三个基于物理层面的要素。
(四)现实生活中的“沉浸声”
实际在日常生活中,我们其实每天处于来自于各个方向不同声源所发出的,且结合了当前空间环境特征所提供的各级次反射的声音的包围中,它们在受到我们个人HRTF特征影响后被大脑所感知。这也就是说,我们在生活中始终“沉浸”于这种最原始、也最为真实和自然的声场中,这种声场,正是目前沉浸式声音技术所不断追求的最终还原目标。因此要实现对沉浸声的良好理解和应用,就需要从声源特征、空间特征和人体特征这三个听觉感知要素入手,它们都会对最终的整体听觉感知产生重要的影响。
二、电声化重现声音情景的发展历程
声音情景的电声化重现就是指通过电声方式实现某个声音情景中各类声音元素的虚拟再现和相关空间声学环境的虚拟重构,从而为听众复刻该特定的声音情景的过程,如流水潺潺的溪谷、演奏热烈的音乐厅等。其实,如前所述,我们日常在生活中,始终都“沉浸”于这种原始、真实和自然的声场中。而这种声场,正是电声技术所不断追求的最终还原目标。
(一)从单点还原到三维还原
19世纪70年代留声机的诞生使人们迎来了最早的音响系统,它采用单点(单声道)还原方式,重现了所播放声音情景的部分特征(主要为声源特征)。但在时代的发展之下,它逐渐难以适应人们越来越高的审美追求,因此,到20世纪20年代,英、法、美等国家开始使用立体声系统,相比较于单声道方式,它能够提供较好的音质和一定的水平空间定位感,使声源特征和空间特征都适当得以加强,但同时也存在着较多的局限,对此,很多文献已进行了详细探讨,本文不再赘述。之后,到了1977年,杜比实验室成功研发出了包括左、中、右、后四个声道在内的商用环绕系统——Dolby Stereo,这一系统的研发既成为了后续主流的Dolby Digital5.1声道系统的前身,也标志着重放系统进入了多声道环绕时代。之后基于影院音响系统的应用,又逐步开发出了侧向、顶向和后向的扬声器来用于环境声的重放,从而起到辅助和烘托整体氛围的作用,并逐渐将其应用于影院之外的其它场景中(如唱片、现场扩声等)。因此,声音情景的电声化重现历程可以简单概括为从最早的几乎不具备任何空间特征的单声道再现,逐渐演变为能够部分呈现水平空间特征的立体声(Stereo)或前置多声道再现,再到之后可以在水平和纵深两维方向上展现空间特征的再现,到如今又逐步发展到可以在水平、纵深和高度三个维度上体现空间特征的再现,这一过程,实际上就是人类不断尝试更好地重现现实生活中真实场景的探索。
(二)何谓“沉浸声”或“Immersive Sound”?
行文至此,笔者也想基于自己的理解,给出所谓沉浸声或对应的英文名词“Immersive Sound”的定义。应该讲,目前业界对于沉浸声并没有形成统一且明确的定义,此类音频的叫法也五花八门,包括全景声、全向声、3D音频、空间音频等,但查阅“沉浸”的中文语意,可以得到三个解释,其一为“浸泡,浸入水中。多比喻完全处于某种境界或思想活动中”;其二为“全神贯注于某种事物”;其三则为“使......充满”。而查阅英文单词术语“Immersive”,则可以得到“used to describe a computer system or image that seems to surround the user——感觉围绕在使用者周围,惯用于描述计算机系统或图像。” 或“(of a computer display or system)generating a 3-dimensional image which appears to surround the user——(计算机系统或显示设备)产生出一种三维的、使人感觉被围绕的画面。” ,由此可见,无论中文还是英文,其解释中最为核心的词汇为“浸泡”、“完全处于”、“充满”、“围绕”、“三维”等,意即从四面八方包裹起来的意思,而“沉浸声”加上后缀这个“声”字后,我们还需要结合声音学科及其发展历程来研究其定义。所以,经多维度考虑后,笔者认为:所谓沉浸声或Immersive Sound,就是指与人类日常生活中实际听觉感知极其类似的、可以从水平、纵深及高度三个维度呈现声音信息的声场。人类利用电声系统从单点还原到一维还原再到两维还原声场的过程,实际上都可以看做是沉浸声还原声场(即三维还原声场)的前期探索。
在这里特别值得一提的是,目前在沉浸声扩声系统的应用中,有一个名词叫做前置式系统(Frontal System),它通常指布置在舞台(或表演区)前部,面向观众供声的多组扬声器,那它到底算不算沉浸声系统呢?笔者认为,这个要依赖于其要重构的声音情景来看。研究表明,人耳对于声音高度信息的变化并不敏感,所以当多个不存在明显高度差异的声源只排列于听众前方并且距观众有一定距离时,这种高度差异或其变化已不容易引起听众听感的不同了,而这时,如果前置的多组扬声器能够准确虚拟出各声源的发声效果(包括其声源音色、空间布局等),且不需要电声系统重构相关空间声学环境特征的话,那么这种前置式系统也可以称之为沉浸声。以室外空旷场地举行的流行音乐演唱会为例,首先,该空间可以近似的认为是自由场,不存在顶部、侧向及后向反射声;其次,流行音乐的演员全部都在舞台上表演,也不存在位于观众侧向、后向及顶部的演出用声源,这时,如果良好的前置式系统能够较好地虚拟再现出与我们视觉感知非常接近的声音情景的话,我们将其称为沉浸式扩声也并无不妥。
由此可见,虽然从字面上讲,沉浸声是指可以从水平、纵深及高度三个维度呈现声音信息的声场,但从应用角度来看,能够较为准确地还原出与人类视觉等其他感知维度在心里声学层面所映射到的听觉效果相接近的声场,其实就可以称之为沉浸声。不过,通常而言,这种声场必须具备呈现水平、纵深及高度三个维度声音信息的能力,因为绝大多数日常生活中的声音情景都是三维的。
(三)基于声道与基于对象
当前,沉浸声的制作与实现主要包括基于声道(Channel Based)和基于对象(Object Based)两种技术。其中在传统的立体声或5.1、7.1平面环绕声或5.1.2等格式的三维沉浸声中,声道格式和扬声器布局二者间需要统一,即理想的声源制作端要求使用多声道的拾音制式、同样数量的多声道母线分配机制和多声道监听扬声器(当然,也可以通过母线分配机制将少于监听扬声器通道数量的拾音信号或非实际拾音获取的信号进行重新的通道分配),同时重放端扬声器数量和布局方式也要和制作端严格匹配,以此来对声音场景及空间进行再现,这样的实现方式一般称之为基于声道的沉浸声音频。该技术主要应用于广播、唱片、影院等固定扬声器布局和模式的标准应用场景下,可迁移性及应用灵活性较差,因此,基于对象的沉浸声音频在这之后便应运而生。这种基于对象的沉浸声技术对制作和重放扬声器的布局没有特定的要求,不管采用何种方式,声源制作端只需要提供各个声源对象的空间坐标信息,那么在重放端就能通过沉浸式引擎算法对声源对象进行渲染,并分配给不同布局的重放扬声器或耳机,即可再现包括空间特征在内的声音情景,因此这种技术具有更强的灵活性、适应性和可迁移性,近年来已成为了沉浸声制作播出的主流方式。
三、沉浸声的实现
对于沉浸声的实现来说,其最终呈现载体通常而言有两种方式,一种是通过耳机进行重放,另一种是通过扬声器进行重放。
(一)耳机重放
通过前面的分析我们知道,影响声音听感的三个重要因素分别是声源特征、空间特征和人体特征。针对将沉浸式声音通过耳机重放这种再现方式来说,因为在此过程中,声音将直接通过耳机进入到人耳(即左、右声道信号分别被直接送入左耳和右耳),所以声音在整个传播过程中缺少了人体特征(即包含了双耳效应的头相关传递函数)的影响,因此,在利用耳机实现沉浸声重放时,非常重要的一点就是需要人为地对声音进行人体特征的重构,无论这种重构是在制作端还是在播出端。
如前文所述,人体特征主要表现为个性化的HRTF,所以,在用耳机实现沉浸声这一过程中,一定需要加载与听音者相匹配的HRTF才能完全还原声音,根据声音信号的电声化重现过程来看,加载HRTF的方式无外乎三种:第一,在拾音环节加载HRTF;第二,在声音信号制作环节加载HRTF;第三,在耳机重放环节加载HRTF。
1.拾音环节加载HRTF
如果想在拾音时加载HRTF,最理想的方式就是在演出现场将拾音器置于听音者的双耳进行拾音,将听音者本人在特定空间的特定位置听到的原始声音记录下来,这个信号既包括声源特征和空间特征,也包含听音者个性化的人体特征。之后,无论听音者在任何空间、任何位置进行耳机重放时,都将完全还原拾音时的声音状态。这一方法虽然相对完美,但从实际应用的角度来看,并不具可操作性,因为不可能每个听音者都能亲自到现场进行双耳拾音,所以可以适当妥协,在最终效果和实用性之间进行平衡,如采用普适性的人工头来代替听音者完成现场的双耳拾音工作。当然,在此过程中一定要注意一个细节,即人工头摆放于该声场空间的哪个位置,重放时的听感就会置身于此位置,例如将人工头摆放在观众席位置拾音和摆放在乐队指挥的位置进行拾音,重放时所得到的声音听感是不一样的,即人体特征已被加载的前提下,不同听音位置所拾取到的声源特征和空间特征将会决定最终的听感。图3即为采用Neumman KU100人工头或KEMAR人体模型进行拾音的示意。
图3:Neumman KU100人工头及
KEMAR人体模型拾音示意图
2.信号制作环节加载HRTF
如果拾音时没有采用真人双耳拾音或人工头拾音,那么所拾取的信号虽然具有一定的声源特征和空间特征(如通过立体声或环绕声、沉浸声制式所拾取的声音),但却不会包含人体特征。尤其是通过近距离单点拾音方式拾取的信号,其空间特征极其不明确。当然,除此之外,还有些声音信号可能是非实际物理声学所产生的合成音源或电子类音源,它们更不具备实际的空间特征,所以,对于这类声音信号的沉浸声重现,就需要以创作者的视角来制作沉浸声了,即需要给它们人为地 “加载”人体特征和空间特征。对于前者,目前已有众多公司提供了沉浸声双耳渲染硬件设备或软件插件,如图4所示的Dolby、Anaglyph等,通过它们对原始信号的渲染,可以获得类似双耳声的听感,但在渲染之前,对于那些不具备空间特征的声音信号,制作者还需通过各种声像(Pan)类电位器、各类混响器、延时器等来赋予其空间特征。上述两种方法结合在一起,可以共同帮助我们努力接近想要的沉浸式声音效果。不过就目前而言,到底哪款双耳渲染设备或插件的算法更逼真、更普遍适用、听感更好,则需要更深一步进行相关的主观评价实验。
图4:Dolby及Anaglyph的双耳声渲染插件
3.耳机重放环节加载HRTF
所谓在信号重放环节加载HRTF是指将带有声源特征和空间特征的声音信号送入耳机重放时,首先经过与听音者相匹配的HRTF滤波器,从而将其转化成双耳声来实现沉浸式重放。当然,最精准的效果就是加载听音者自己的个性化HRTF,但这需要在专业的消声室内进行多角度、全方位的先期测量并做归纳运算,这实际上这很难实现。于是,妥协的方案有两个,一个是加载经过大数据统计平均而来的普适性HRTF;另一个则是可以在某一个空间环境里用某一款扬声器重放脉冲信号来测量听音者双耳的全频脉冲响应,以快速获得该听音人的个性化HRTF,实际上这个HRTF同时也加载了当时重放扬声器以及重放空间环境的影响,可以说是一个综合性的HRTF,而不是仅仅基于个人影响的HRTF。该类设备目前已有成熟的量产商用产品,如图5所示的Smyth Realizer A16等,它们多用于通过耳机虚拟某一制作空间的听觉感受,如好莱坞的某个杜比全景声电影混录棚等,以用于异地仿真混音等。
图5:Smyth Realizer A16虚拟现实渲染器
(二)扬声器重放
利用扬声器重现沉浸声时,听音者依靠双耳收听声音信息,本身就带有了个人HRTF的影响,所以无需再考虑重构人体特征了。此时,我们需要着重考虑声源特征和空间特征的重构。当然,这种重构也依据声音信号的电声化重现过程,主要分为两种方法。第一,在拾音环节予以确定;第二,在制作环节予以确定。基于常识,我们知道,无论是话筒拾取的声音信号,亦或电子化方式合成的声音信号,其已基本具备较为清晰的声源特征了,所以空间特征(包括声源方位和声场环境特征等,则是上述声音重构过程的核心工作。
1.在拾音环节确定声源的空间特征
我们知道,利用立体声拾音制式、环绕声拾音制式及相关调整,即可获取声源的水平位置信息或者水平+纵深位置信息,那么同理,利用沉浸式拾音制式(或称之为三维声拾音制式),具体如Sennheiser Ambeo、Rode SoundField、LDK Cube等,则同样可以获取三维空间信息。之后,基于当前的技术现状,通过与重放扬声器通道的直接对应或经相关的转换算法后,通常即可得到基于声道的沉浸声,并可通过同样声道的扬声器予以重放。当然,制作人员也可以更进一步,将所拾取到的声音通道视为不同的声源对象,并将其送入基于对象的相关沉浸声处理器,依据制作场地监听的听感进行再制作,以获取更符合创作者期望或者具备更好听觉效果的声音。
2.在制作环节构建声源的空间特征
如果拾音时未采取沉浸式拾音制式,或者使用了电子合成类声源,那么所得到的信号虽然具有一定的声源特征,但其空间特征却不明确,尤其是前述的通过近距离单点拾音拾取的信号,这一点与之前关于耳机重放的相关论述完全相同。因此,这部分信号的沉浸声处理,需要以创作者的视角来进行相关制作(无论是录音制作还是扩声制作),即给它们人为地 “加载”空间特征并适当匹配调整声源特征。具体的处理方法依据沉浸声处理设备的不同而不同。不过,当前的各种沉浸声处理器几乎全部都可以提供三维声像电位器或三维空间视图,用以调控声源对象的空间位置或运动轨迹,同时,个别产品还可以同步伴随声源对象音色的变化及空间混响的变化,当然,有的处理器则需要人为调整空间混响和音色。所有这些,都需要混音师在良好的沉浸式监听条件下依据监听效果来进行。处理完毕的成品信号,如果以声道方式输出,则需要之后的重放场地按制作时的监听条件配置同样数量、同样布局的扬声器;而如果以声源对象元数据(包括空间位置、声源大小等)的方式输出,则可以兼容更多的重放扬声器布局方式,这种信号格式在最终重放时,会首先在现场用的沉浸声处理器中建立重放场地的扬声器布局模型,确定所要用到的扬声器数量和位置,之后再以此为基础,结合声源对象的元数据进行渲染计算,从而得到现场每一个扬声器具体需要重放的信号内容。
3.扬声器重放沉浸声的算法理论基础
利用扬声器重放沉浸声,在实际执行时,依然需要向三个空间维度的相关扬声器各自馈送不同的声音信号,使之在整个听音空间内合成为声源对象的位置和相关的声场环境。因此,无论何种沉浸声处理器,其本质就是利用渲染算法,将某一个声源对象的元数据,运算拆解成为不同的扬声器通道信息并馈送给相关扬声器。
在当前的技术发展下,利用扬声器重放沉浸声的基本技术原理主要分为两类,即基于感知的虚拟声音场景重建技术和声场物理重建技术,它们共同构成了扬声器重放沉浸声算法的理论基础。其中,基于感知的虚拟声音场景重建技术主要包括基于矢量的幅度声像控制技术(Vector-based amplitude panning,VBAP)和基于距离的幅度声像控制技术(Distance-based amplitude panning,DBAP),该类技术主要考虑人耳的感知特性,所以实现起来相对简单。而声场物理重建技术的重要代表则主要基于高阶球谐分解和重构的声重建理论(High Order Ambisonic,HOA)和波场合成理论(Wave field synthesis,WFS),基于这两种理论的声场重建技术主要追求对原始声场的精确还原,因此无论是对重放设备还是重放环境都有较高的要求。
基于矢量的幅度平移技术最早由芬兰赫尔辛基理工大学的Viile Pulkki于1997年提出,它的原理是利用2~3个扬声器方向的单位向量线性组合出虚拟声源方向的单位向量,即为不同扬声器分配不同幅度的信号,利用各扬声器到达人耳的声级差来控制人耳对声源(声像)位置的感知。利用VBAP技术能较为准确地恢复500~600Hz以下的声音的方向,但前提是各扬声器要布置在同一球面,因此基于VBAP的扬声器重放只能在一定范围内恢复声源的方位。
基于距离的幅度平移技术由Lossius和Pascal Baltazar、Kostadinov和Reiss这两对科学家提出,与VBAP不同的是该技术支持在非球面环境布置扬声器阵列。虽然DBAP的精确度没有VBAP高,但是DBAP应用起来更灵活,应用过程中不再受扬声器和听音者布局的限制。
声场物理重建技术来源于1934年Steinberg和William Snow提出的“声音幕帘(Acoustic Curtain)”概念。它指出我们可以用大量的传声器在一个面上组成一个紧密的传声器网格阵列,并用此阵列采集原始声源的方位信息和声场形状,再依据惠更斯原理,利用同样结构的扬声器网格阵列重放对应位置传声器所拾取的信号,即可还原出声源的方位和声场辐射信息。据此,1988年,Gus Berkhout受地震研究及原油开采勘探的启发提出了波场合成理论。在理想状态下,利用该理论可以完全还原出原始声场,听音者可在由二次声源合成的声场区域中任意走动,且声像不会随听音者的位置的变化而变化。
此外,另外一种声场物理重建技术则为基于高阶球谐函数分解和重构理论的声场重建技术,有关该技术的研究最早从二十世纪70年代开始,它利用球谐函数作为编码和解码的基矢量,通过逐级增加重放阶数来逼近原始声场信息。阶数越高,用于表现声源对象特征的基矢量越多,解析度也越细致,其共同作用后的呈现效果也越接近于实际。不过,此时也带来了运算量和扬声器数量几何增加、扬声器布局困难等诸多难题。
关于上述技术原理的具体细节,目前已有很多文献进行了探讨,本文将不再赘述。但笔者个人认为,波场合成技术最具原理合理性,因而应该能够获得更佳的声音情景重构听感效果。不过,利用波场合成技术的重放还有很多亟待解决的问题,比如扬声器间距的控制与频率混叠的问题、重放所需扬声器数量过多、长阵列的时域效应等,同时,还要考虑紧密排列的扬声器阵列如何可以安装实现以及其造价问题。
理论上讲,在采用其理想状态扬声器重放时,上述技术原理都能够在某一听音区域实现声源对象的较好重构,但从实际应用的角度来讲,基于以上每种原理的的扬声器渲染算法都还存在一定的问题,且各自的理想运算也较为复杂,所以目前绝大多数沉浸声处理器大都采用上述两到四项技术综合后的算法,并分别进行了适当的简化,从而在重构声场的准确性和可实现性中予以折中。
评论comment