沉浸式音频技术的制作、播放及发展与应用
来源:时代拓灵 编辑:ZZZ 2024-02-21 10:03:59 加入收藏
沉浸式音频技术近年来逐渐扩大其应用范围,常见应用于VR,影视,会议等场景。本文由时代拓灵创始人&CEO,孙学京博士LiveVideoStack线上分享的内容整理而成,从声场采集,传输,渲染播放算法以及软硬件等方面详细介绍了沉浸式音频技术的制作、播放及发展与应用。
大家好,我是来自时代拓灵的孙学京。本次分享将主要介绍沉浸式音频的从采集制作一直到播放整个链条上所需要的一些软件和硬件的技术,详情如下:
1、沉浸式音频简介
1.1什么是沉浸式音频?
什么是沉浸式音频?大家最近可能经常听到“沉浸式音频”,“全景声”这两个名词,那么它们与之前的环绕声或者3D音频有什么本质的区别吗?
通俗地讲,它们之间可能有很多的相似之处。但就技术层面来说,从底层架构,到最终的展现形式都有非常大的变化。
首先我们把传统的5.1音频扩展为不仅包含声道也包含对象和场景。目前,沉浸式音频类型主要分为三大类:基于声道Channel based audio(CBA)、基于对象Object-based audio(OBA)、基于场景Scene-based Audio(SBA)。
目前市面上一些主流的系统主要是Dolby Atmos、MPEG-H以及影视行业的SMPTE 2098协议。其主体还是基于Dolby Atmos,但同时它还允许其它不同标准被兼容在此协议内,也就是说Dolby Atmos某种意义上是SMPTE 2098的一个子集,我们可以在兼容Dolby Atmos的同时,推出自己的标准。因此我相信,接下来沉浸式音频将来会迎来一个非常大的利好。
1.2沉浸式音频-传统到3D音效
基于扬声器的沉浸式音频,常见的是5.1或7.1,如果是耳机设备,则会有HRTF双耳3D环绕的音频。5.1音频实际上是固定的声道位置,由左前、右前、左后、右后构成,而7.1就是在5.1基础上再加两个背后的声道位置,.1就是低频通道的意思。
目前新的沉浸式音频,不再局限于平面式的声道,进一步支持全面360度*360度的沉浸式音频(支持高度)。例如影院的杜比影厅,顶部都会布有很多的喇叭;如果是家庭的话,我们经常叫做5.1.2,就是在顶上再设置两个音箱,或者7.1.4就是在顶上再设置4个音箱。
真正想要达到一个非常好的沉浸式效果,顶部的高度信息带来的对人的感官冲击感是非常强烈的,比如下雨或者打雷的声音。即使在平时可能感觉不到很明显的差别,但当你真的专注于音频效果时,增加了高度信息的音频感觉就会非常震撼。
这种变革如果停留在传统的5.1格式上是很难实现的。尽管传统的做法通过布多层的方式也可以模拟出高度信息,但是并没有从根本上,即制作混音端来改变底层的架构。因此,高度信息的增加实际上是对影视行业沉浸式音频制作的巨大改变。加入高度信息的音频会有很高的沉浸感,并且底层的渲染技术比传统的5.1混音要复杂很多,方位的渲染精度也会大大的提升,所以整体的渲染质感有很大的提升。另外,近几年在AR或者VR时代,非常强调交互的特性。比如VR头显设备的头部跟踪、旋转,不仅要旋转视频,同时还需要旋转声场。这些都是传统的5.1音频(事先混音)很难实现的,而新的渲染技术,沉浸式音频架构是可以实现的。
至于其它的应用方面,在看电视节目的时候,沉浸式音频还可以灵活的根据不同的场合控制选择不同的语言,选择声场中不同的方位进行体验等。这些都是通过传输一个对象或者传输一个声场的概念来实现的,而传统的5.1或者立体声传输是没办法实现的(无法实现单音轨分离)。
最后一点,制作与播放设备的分离。无论是5.1音箱、立体声耳机或是其它设备,其中的混音都由渲染引擎中的软件算法来实现。在制作的时候,混音师就会假想出一个球形的空间场景,也就不再完全依赖必须有一个5.1的混音厅才能将声音混好,并且完成一次混音就可以在任何地方进行播放。
1.3 Object Audio
DolbyAtmos的混音界面如图右下角所示,是一个模拟电影院的方盒子,屏幕在前方。其中小球代表的是音频对象,其在三维空间中会有一个运动的轨迹。混音师会戴耳机或者通过自己的混音环境来体验混音(音频对象)的轨迹,但实际最终播放的时候有可能是一个5.1或者7.1.4的混音环境,这个是由渲染引擎来完成的。
对象音频是现在比较流行,并且逐渐占据主流的。其源自于游戏,杜比作为一个商业公司将对象音频彻底商业化推行到影院中,并进行了许多商业算法上的创新,解决了很多复杂的场景问题。
对象音频的一项核心组成部分就是元数据,我们实际上是通过位置、扩展度或者运动特性等来描述对象音频,这些元数据都要传输到渲染端,同时会进行一些编码压缩操作。对象音频的渲染方法一般是基于Panning,就是声音如何通过幅值、相位的关系在多个喇叭或者耳机里产生一定的方位感。
1.4 Scene-Based Audio
Scene-Based Audio主要是以MPEG-H为代表(实际指MPEG-H中Scene-Based Audio部分所占比例较高)。Scene-Based Audio主要是用来描述场景的声场,其核心的底层算法是HigherOrder Ambisonic(HOA),因此一些新的沉浸式音频的底层技术也不完全是新的,算法以及新的技术都是渐进的,近几年随着带宽的加大,随着复杂度即算力的增强,以及AR、VR新的交互方式的产生促进了技术的迅勐提升。Ambisonic也焕发了青春,VR成功将其带到了大众的面前。Ambisonic描述三维空间中的声场,例如一阶Ambisonic更多的是通过极坐标。
一阶Ambisonics:FOA
Ambisonics中存在一种阶的概念,一阶Ambisonics我们称之为FOA(First-Order Ambisonics),零阶即没有任何方向,也就是全向麦克风来描述声场。通常情况下,在Ambisonic中B格式为中间格式,声场采集设备得到的原始信号为A格式。为了便于后续的运算,无论麦克风是什么样子,通常都会转化为通用格式即B格式。
如图,X代表一个点元,通过Ambisonic的(W,X,Y,Z)表示,将其映射到一个声场中是非常简单的,主要是应用了三角函数进行一系列公式的计算。将其通用化后在高阶时的表现即为球面谐波函数。
高阶Ambisonics:HOA
描述声场其实就是通过物理学的球面谐波函数来描述声波在空间中的传播,存在非常高的阶数,如之前提到的零阶、一阶函数,甚至三阶函数(右下角图)。
2、声场采集技术
2.1双耳录音
接下来介绍声场采集技术,在音频平台中比较常见的有双耳录音,模仿人类大脑工作方式,模拟人左/右耳听到的声音。常见的使用工具为3Dio人工头麦克风。
上图为VR时代,3Dio的升级(复杂)版本,适合于四个方向的Omni Binaural Microphone。Binaural录音可以理解为声场采集的上限,抛开人耳个性化的差异,达到的仿真效果要比HRTF等要好得多。这个录音的输出格式通常叫作Quad Binaural(QB)。
2.2 Ambisonic录音
Ambisonic声场录音的优势是更加灵活,通过录音设备得到的Ambisonic信号,可以直接做很多的后续处理。但是如果用Ambisonic信号转成Binaural,效果在某一点上会逊色于Binaural信号。我们也曾做过一些比较,如果是用于VR 360度的声场采集,与Omni Binaural录音或者QB格式相比,Ambisonic录音整体表现会比较平均,也就是最好方向比QB差,但也会比QB最差的方向要好一些。
有关声场采集的算法以及麦克风的设备,相对来说比较复杂。简单地说,与其它设备的麦克风阵列使用类似,都有同样的需求:核心参数有信噪比、一致性、灵敏度、频响;选择MEMS麦克风还是ECM麦克风。早期一般会选择ECM,但ECM的一致性稍差,所以比较贵的麦克风出场时都会自带匹配的校准参数。目前新的麦克风更多的是MEMS,一致性相对较好,可以达到,可以满足很多需求。Ambisonic声场采集得到的阵列信号,在刚性球体上,可以近似的用刚性球体球面谐波函数,把传感器得到的信号转成球面谐波函数的一些系数来表示,然后针对系数进行后续的声场的旋转等操作。
3、沉浸式音频的制作,存储,传输
那么,有了沉浸式音频声场的采集,之后应该如何进行进行制作?目前主流的工具Pro Tools、Reaper、Nuendo都是在影视行业比较常用的。主流的Pro Tools目前已经全面支持Dolby Atmos,也可以支持一些高阶的HOA;Reaper因为其功能强大,价格便宜,性价比高,被越来越多的音频行业人士所喜爱。
以上提到的我们称为音频工作站,实际上大部分的工作还是通过插件来完成的,工作站完成主流的工作,靠插件来完成具体的如混响算法或者VR相关的一些工作。常见的插件主要有:Ambix、Facebook 360workstation、Dolby Atmos。
时代拓灵公司的插件,叫做Twirling Works,最初是为了VR制作来设计的。
多通道音频压缩一般是通过提取相位差、幅值差等一些Parametric Stereo,多通道通常选择降维或者去相关的方式。
MPEG-H HOA编码的核心是其中的HOA Decomposition部分,将有方向的,细节部分的信号取出来。将无方向的,环境声音信号分离开。
HOA的优势是存在分层的编码机制,如果在带宽精度要求不高,带宽不够的时候,可以传输输入较少的低阶信号,如果带宽足够的话,则可以传输高阶信号。
对象音频的编码主要是来自杜比的科学家的贡献,首先是兼容5.1开发了Joint object coding(JOC),可以将多个对象音频下混到5.1声道,通过传统的5.1通道,生成的信号可以被5.1解码器很好的兼容播放。并且如果同时支持对象音频,就可以将其还原成为支持Dolby Atmos的沉浸式音频。Spatial coding可以理解为是在JOC之上的前处理,面向更多的对象,可以通过一些准则如:对象的重要性,能量等对多个对象做聚类。
4、渲染与播放
渲染与播放是非常关键的一个部分,渲染的方式通常叫做Panning,在三维空间中的渲染方式称为Vector-based Amplitude Panning。
HOA的渲染相对更复杂一些,主要需要考虑的是如何将不同的HOA的信息给到不同的喇叭。
以上是优化HOA decoding所使用的准则之一Max rE。
以上是Decoding的几种不同方式,传统的主要Sampling or projection decoding和Mode-matchingdecoding两种;此外,还有一些新的进展,尽可能的使得渲染更均匀,最大程度保证音质不受损。
5、基于IP的媒体实现音频制作和体验转换
随着基于IP媒体的出现和对更好的娱乐体验的追求,音频终于在广播中呈现它应有的突出作用。你甚至可以称之为下一代音频革命。行业对沉浸式音频的接受将对现场直播产生巨大的影响——它已经在改变着音乐、剧院、影院、演播室、娱乐音乐、电影制片厂和录音行业。
沉浸式音频成为现实
把在水平面上运行的环绕声扩展到三维音频体验(空间音频),沉浸式音频赋予创作人员和工程师在传达情感方面有更高自由度以及对耳闻目睹的内容增加视角的更强大工具。目的是让观众从任何方向(如果不是所有方向)都沉浸其中。
沉浸式音频使用从空间中一个或多个点捕捉声场中声音的三维声,创建能够混合适应不同类型的音响系统的“音频对象”。由于能够操控声场或选择特定的流,音频对象打开由制作团队和听众自身创造独特体验的大门。灵活性和选择是关键。
通过沉浸式音频,观众/听众可以选择特定的音频对象,将其包含在他们看到和听到的广播节目版本内。就像一个附加的摄像机信号选项,如“进球摄像机”或“裁判摄像机”,可以选择不同的音频信号,将听众带入比赛或其它现场体验的不同部分。观众/听众可以改变他们的空间位置,从而获得一个增加更大的现实性和如置身比赛中的感觉的不同视角。附加的声音可能是来自配话筒的运动员,或者一级方程式赛车车手和工作人员之间的通话,或者其它任何可以在制作过程中捕捉的音频元素。
增加的声源和数据增大复杂性
现在传统的声场是立体声和环绕声:5.1和7.1,具有左、中、右、左环绕、右环绕和重低音/低频效果。沉浸式音频引入多两层——除了环绕声基本层之外,还有一个高度层和顶层。
音频对象具有描述如何在声场内还原音频的相关元数据,这些数据描述了位置、扩散、运动特征及其它还音信息,给予对象根据位置或通过特定的扬声器进行灵活定位必不可少的独立性。
在沉浸式音频实现中,广播公司将发现需要应对和管理更多的音频流。随着这种格式在制作工作流程中占有一席之地,考虑到它比传统的立体声和环绕格式可能更复杂,一个关键的挑战将是扩展服务。
与在标准的环绕声工作流程中相比,沉浸式音频的音频源、音频流和对象的数量更高,为保持工作流程的定时/同步完整性,可能需要更全面的PTP网络规程。基础设施的主要考虑因素将是流量和带宽管理、QoS处理和适当的PTP网络层次结构处理。
从广义上看,交换基础设施方面的一个响应是与自动播出、控制和调度平台集成,因为它们通过控制的方式反映了工作流程的意图。更具体地说,处理基础设施,广播公司将需要使用可以显示用于控制和配置的北向API的PTP可知的管理型IP交换机。
从网络的角度来看,广播公司可能会考虑根据类别,将音频源和对象捆绑在一起,例如源位置、被“收集”的声音类型和要捕获的特定效果。音频流作为可以四处移动的对象得到管理,当底层基础设施能够以对人类大脑有意义的方式聚合数据时,这是有益的。
为了保持数据流和数据的逻辑组织,与能够灵活地管理此流量、凭借VLAN进行分组并确保加入恰当的QoS的交换基础设施协同工作是很有用的。这在其它类型的通信(如内部通话、元数据)依赖于相同的基础设施场合的工作流程中特别重要。
为支持沉浸式工作流程,Artel的AoIP、管理型和支持PTP的交换机提供这种水平的流量控制/管理和PTP功能。该公司Quarra系列交换机中的边界时钟功能提供对PTP网络进行分区的工具,以实现更好的性能。(音频源智能分区可以防止PTP主时钟过载状态)。特别是对于直播活动,广播公司可能会考虑根据哪些交换机服务哪些源来部署他们的网络。
先进的IP交换机简化采用
沉浸式音频仍然处于相对早期的发展阶段,还没有标准配置获业界采用。广播公司已经对5.1.2、5.1.4和7.1.4进行了试验,5.1.4似乎提供了出色的3D体验,同时还使得基础设施转换可管理。
6、行业现状与相关应用
有关行业现状,声场采集部分一阶Ambisonics(FOA,First-Order Ambisonics)已经很常见了,并且同时也出现很多高阶Ambisonics(HOA,Higher-Order Ambisonics)的采集。VR对于Ambisonic存在很强大的助推,Google和Facebook也在提供支持。得益于一些主流公司的支持,大家对此技术有了更多的认知和重视。
专业领域则主要是Object Audio和HOA两大趋势,接下来随着5G、AR、VR的发展沉浸式音频技术的未来是非常可期的。
关于沉浸式音频技术的相关应用,毫无疑问影视娱乐,VR是最主要的应用,例如各家影院的杜比全景声可以说是非常常见的。此外,在我认为会议其实是非很好的应用点,大家都希望能有一个很好的沉浸式的会议体验。另外,还有声场采集以及在其它声学领域的应用,例如声学事件监测,定位等也逐渐开始出现一些应用。
来源:孙学京
评论comment