关于语言清晰度(可理解性)的深入洞察(二)
来源:同创音频 编辑:ZZZ 2024-06-18 09:42:23 加入收藏
在上一期的探讨中,我们深入了解了语音产生的原理,并分享了关于录扩音的实用建议。本期,我们将继续这一旅程,聚焦于语音频谱、共振峰以及影响语言清晰度的关键因素,以期为大家呈现更全面的语言清晰度(可理解性)洞察。
语音频谱
语音的频谱覆盖了可听频谱的广泛区域,其中元音 和辅音 构成了语音的基本元素。元音 由声带振动产生,经过声腔的精细过滤,赋予声音独特的音色。而辅音 则是由空气在喉咙和口腔中的流动,特别是舌头和嘴唇的精细操作产生的。
元音的特征,即使是在讲悄悄话中也能被识别,这是因为形成不同元音的空腔结构依然影响着空气的流动。男性复杂语音音调的基频通常在100-120 Hz之间,女性则高出一个八度,而儿童则更高。辅音则通常位于500 Hz以上的高频区域,对语音的清晰度至关重要。
共振峰
在语音中,共振峰是另一个重要的概念。它们是通过声道中空腔的共振“调谐”而产生的,
如果你听两个人以相同的音高说或唱同一个元音,那么在这两种情况下,元音可能是相同的。然而,任何两种声音都不一定产生完全相同的频谱。共振峰为元音提供了可感知的特征,每个人独特的声道结构使得共振峰具有个体差异,这也是我们能够区分不同说话者声音的原因。
影响语言清晰度的关键因素
一、辅音的重要性:
在汉语、泰语等声调语言中,语调或基本频率承载着意义。而在非声调语言中,如英语、西班牙语和日语,元音和辅音的变化则是区分单词的关键。其中,辅音的重要性尤为突出。辅音主要位于高频区域,对于语言的清晰度具有决定性作用。
二、频率的重要性:
西方语音中,频率的重要性如下图所示:
在图中我们可以看到,2kHz左右的频带是感知清晰度方面最重要的频率范围。因为大多数辅音都在这个频带中。
(Ref: N.R. French & J.C. Steinberg: Factors governing the intelligibility of speech sounds. JASA vol. 19, No 1, 1947).
对语音信号进行高通或低通滤波的实验也验证了这一点。使用20 Hz的高通滤波器,语音可以100%被理解,这是因为完整的语音频谱并未被过滤。当高通滤波器切断500Hz以下的信号时,因为即使一部分语音能量被删除,语音的可理解性仅降低5%;但当低通滤波器在1kHz处切断时,可理解性已大幅下降至40%以下。这再次强调了1kHz至4kHz频率范围对语音清晰度的重要性。
三、背景噪声:
背景噪声是影响语音清晰度的另一重要因素。在语音系统中,除了语音本身之外的所有信号都可以被认为是噪声。因此,在礼堂或教室里,空调和其他嘈杂的设备运行时都会使语音变得不那么清晰。此外,其他人的存在也会产生噪音。在电视或电影音效中,对白的电平与背景音乐或氛围声音电平之间的关系问题也是非常重要的。
在这个图表中,语音可理解度是根据信噪比(S/N)绘制的。较低的曲线表明,即使信噪比为负,也就是说噪声比语音水平高10 dB,语音仍然可以在一定程度上被理解。但在任何情况下,最佳的感知语音水平约为60 dB或20 μPa。
通过大量的研究,总的来说结果表明:
1. 当背景噪音低于40dBA时,最佳语音电平不变。
2. 当背景噪声电平大于40 dB(A)时,最佳语音电平或信噪比保持在+15 dB(A)左右的电平。
3. 在信噪比足够好的情况下,听力可理解性的难度随着语音电平的增加而增加,使可理解性接近完美。
此外,1kHz-4kHz的频率范围应该“保持清晰”。例如,当添加音乐在影视作品中作为背景时,参量均衡器在该频率范围内衰减音乐5-10 dB,这样将会提高语音对白的可理解性。
四、混响:
在谈论语音清晰度时,混响也被视为一种“噪音”。虽然轻微的混响可以支持讲话,但一旦辅音被抹去,可理解性将大幅下降。因此,在录音和扩声过程中,需要仔细控制混响的影响。
通过深入了解语音频谱、共振峰以及影响语言清晰度的关键因素,我们可以更好地掌握如何确保在各种场景下维持高质量的语音清晰度。无论是面对面交流还是通过扩声系统传播声音,这些洞察都将为我们提供宝贵的指导。
评论comment