新一代视频会议系统编码标准H.265
来源:数字音视工程网 编辑:merry2013 2013-11-06 06:38:43 加入收藏
面对视频应用不断向高清晰度、高帧率、高压缩率方向发展的趋势,当前主流的视频压缩标准协议H.264(AVC)的局限性不断凸显,尤其在高清视频快速发展下,H.264技术逐渐暴露了一些局限性。
H.264技术的局限性
首先,由于分辨率的大大增加,单个宏块所表示的图像内容信息大大减少,H.264所采用的4×4或8×8宏块经过整数变换后,低频系数相似程度也大大提高,出现大量冗余,导致H.264编码对高清视频的压缩效率明显降低;其次,H.264算法宏块个数的爆发式增长,会导致每个编码宏块的预测模式、运动矢量、参考帧索引和量化级等宏块级参数信息占用更多码流资源,在有限带宽中,分配给真正描述图像内容的残差系数信息的可用带宽明显减少;由于分辨率的提高,表示同一个运动的运动矢量幅值也将大大增加,H.264中采用基于空间域的运动矢量预测方式,对运动矢量差编码使用的是哥伦布指数编码,该编码方式的特点是数值越大使用的比特数越多,因此,随着运动矢量幅值的大幅增加,H264中用来对运动矢量进行预测以及编码的压缩率也将逐渐降低;最后,H.264的一些关键算法都要求串行编码,并行度比较低,针对GPU/DSP/FPGA/ASIC等并行化程度非常高的CPU,H.264的这种串行化处理越来越成为制约运算性能的瓶颈。
新一代视频编码技术H.265
对于视频会议这种视频应用技术,对视频的要求更高,不仅是远程通讯技术,而且是双向实时交互式应用。由于用户群较为高端,因此在低延时视频编解码技术上,视频会议一直是个先行者。视频会议从H.261时代开始发展,历经H.263时代,到目前的H.264时代,视频会议一直是低延时视频编解码最新技术的首批应用者。目前主流的H.264视频会议系统最新的以H.264 High Profile为主,可以在1Mbps带宽下达到1080P 30fps实时通信,且能够让用户体验到很好的图像效果,也减少了网络传输高清的压力,目前应用得较为广泛。但是随着数字化高清的持续发展,用户的需求也越来越高,视频会议作为视频编解码的高端应用,当然是要继续发展到更高标准更优化的视频编解码新技术。
2013年初据国外媒体报道,国际电信联盟(ITU)已经批准了下一代新视频标准,这项新标准将有利于把4K视频带入未来的宽带网络之中,与此同时,该新标准还可以在低带宽的移动网络上播放高清网络视频内容。这项新标准就是H.265,即高效率视频编码(High Efficiency Video Coding),这一标准旨在把高质量的网络视频带到甚至是低带宽的网络中。
这个最新标准H.265技术,被命名为HEVC。该标准的核心目标,是在H.264的基础上将压缩效率提高一倍,即在保证相同视频图像质量的前提下,视频流码率减少50%。因此,有望在512K带宽下实现1080P 30fps高用户体验的实时通信。
目前,H.265(HEVC)制定了两套选项,其中追求高图像质量的叫做High Efficiency,而追求低时延的叫做low-complexity。由于视频会议的实时性,视频会议领域基本上会选用low-complexity选项。
由于H.265标准是从H.264标准发展优化而来,新的标准保留原来的某些技术,同时对一些相关的技术加以改进。
作为视频编码的进一步发展,H.265(HEVC)仍然沿用了H.264基础的预测加变换的混合编码框架,包含:
同时H.265着力研究新的编码工具或技术,在每一个环节都做了改进,包含码流改善、编码质量改善、延时和算法复杂度之间的关系的改善,并达到最优化设置。
H.265相比H.264的主要技术优势
灵活的编码结构
在H.265中,将宏块的大小从H.264的16×16扩展到了64×64,以便于高分辨率视频的压缩。同时,H.265采用了更加灵活的编码结构来提高编码效率,包括编码单元(CodingUnit)、预测单元(PredictUnit)和变换单元(TransformUnit)。编码器可以根据视频序列分辨率以及区域的复杂度等特性设置编码单元的大小。
灵活的块结构
变换单元TU使用类似于编码单元CU的四叉树划分方法,块结构RQT(Residual quadtree transform)是正方形TU的四叉树划分方法;NSQT(Non-square quadtree)是非正方形TU的四叉树划分方法。
对于每个CU,在预测编码过程中可进一步划分为一个或多个预测单元PU(Predict Unit)进行帧间预测或帧内预测。帧内预测可使用2N×2N PU划分,若CU大小为8×8时,还可使用N×N PU划分;帧间预测可使用2N×2N、N×2N、2N×N PU划分,当CU大小大于8×8时,还使用另外四种非对称PU划分;Skip模式仅使用2N×2N PU划分。PU划分示意图如图1所示。
变换单元TU(Transform Unit)主要是在编码单元CU和预测单元PU的基础上选择适当的残差变换块的大小。对于帧间编码来说,它允许变换块的大小根据运动补偿块的大小进行自适应的调整;对于帧内编码来说,它允许变换块的大小根据帧内预测残差的特性进行自适应的调整。
更先进的帧内和帧间预测
帧内编码改进上使用了多种技术:
Intra_FromLuma模式仅用于色度分量的帧内预测。
HEVC使用以下方法获得更高的帧间预测效率:
高效的运动信息预测编码方法AMVP,根据当前PU空间域和时域相邻块的运动矢量构造当前PU运动矢量的预测候选。选择能够最小化当前运动矢量的编码代价值的预测候选,并编码该预测候选的索引序号。分数像素插值滤波方法,为提高帧间预测精度、降低频谱混叠对帧间预测的影响,HEVC使用分数像素预测补偿技术,亮度和色度分量的插值滤波器都采用DCT-IF插值滤波器(DCT-based interpolation filter)。Merge模式,使用Merge模式时,当前PU的运动信息(包括运动矢量和参考图像索引)与Merge索引信息所标识的空间域或时域相邻块的运动信息相同。HEVC使用基于Merge的Skip模式,称为Merge-Skip。Merge-Skip模式的候选运动信息构造和运动预测过程与Merge模式相同,不同之处在于Merge-Skip模式不对预测差信息进行编码。
采样点自适应偏移
采样点自适应偏移(Sample Adaptive Offset)在编解码环路内,位于Deblock之后,通过对重建图像的分类,对每一类图像像素值加减一个偏移,达到减少失真的目的,从而提高压缩率,减少码流。采用SAO后,平均可以减少2%~6%的码流,而编码器和解码器的性能消耗仅仅增加了约2%。
自适应环路滤波
自适应环内滤波包括Deblocking filter、SAO和ALF(Adaptive Loop Filter)三种。
Deblocking filter,消除图像的块效应,提高主观图像质量;SAO,减少重建图像和原始图像误差,提高客观图像质量;ALF,减少重建图像和原始图像误差,提高客观图像质量。
并行化设计思路
H.265为了提升编解码的并行度,提出可以按垂直和水平方向对图像进行分割,按LCU为单位组成多个矩形区域,这些矩形区域叫做Tile,这些Tile可独立编解码,遵循光栅扫描的顺序。
当前芯片架构已经从单核性能逐渐往多核并行方向发展,因此,H.265引入了很多并行运算的优化思路提升效率。
H.265技术应用展望
从H.265技术的优势来看,它将来的应用主要是高清领域。
随着视频通信应用产业链的快速发展,视频应用向高分辨率高帧频高压缩比的方向发展的趋势愈加明显。分辨率目前流行的是1080P,后续将发展到4K×2K乃至8K×4K。但4K×2K以上分辨率市场还有待培育。
帧频上,视频帧频从30fps向60fps、120fps甚至240fps的应用场景升级是有可能的。但人的肉眼识别极限为20ms,对应帧频为50fps,也就是高于60fps以上的帧频一般应用是用不到的,更高帧频的应用场景为三维显示,但三维视频会议需要依靠裸眼三维电视技术,该技术目前还不够完善,因此,目前的视频会议将集中在30fps和60fps的应用上。而30fps与60fps的区别非专业人士是感知不到的,HEVC技术将首先出现在1080P 30fps的视频会议应用上。在压缩比进一步提升的情况下,市场上将会推出512K、1080P、30fps低延时HEVC产品。
中兴通讯作为业界领先的视频会议厂商,在中国率先发布支持H.264 High Profile标准的全系列产品。目前,中兴通讯紧跟标准,并于2013年6月发布业界首款支持H.265(HEVC)的视频会议终端。该视频会议终端支持H.265的实时编解码,相比于当前的H.264产品,视频压缩效率提高一倍,即在保证相同视频图像质量的前提下,视频流码率减少50%,这将极大减少用户的网络建设运营成本。
评论comment