h.264 和 mpeg-4 的关系:
h.264 /avc ( advanced video coding )标准,是 mpeg-4 的第 10 部分。
mpeg-4的初衷是将dvd质量的图像码流从每秒6兆降低到1.5兆,将高清电视的码流从每秒几十兆降低到6~8兆。要实现这样的编码压缩水平,就要用到一种叫avc(advanced video codec)的技术。国际电联(itu)将这项技术命名为h.264标准,mpeg 把这项技术放到mpeg-4标准里的第10章(part 10)。这就是mpeg-4和h.264的关系。
h.264/avc是由iso/iec与itu-t组成的联合视频组(jvt)制定的新一代视频压缩编码标准,于2003年5月完成制订。相对于先前的标准,h.264/avc无论在压缩效率、还是在网络适应性方面都有明显的提高,因此,业界普遍预测其将在未来的视频应用中替代现有的视频压缩标准。
但是,h.264/avc标准由于对视频源的限制,仅支持娱乐级视频质量。为了进一步扩大其应用范围,使其适应高保真视频压缩的应用,jvt于2004年7月对h.264/avc做了重要的补充扩展,称为frext(fidelity range extensions)。
h.264/avc标准第一版支持的源图像为每象素8b,且采样方式仅限于4∶2∶0;而新近扩展的frext部分则扩大了标准的应用范围,如专业级的视频应用、高分辨率/高保真的视频压缩等。frext对h.264/avc的改善主要在:(1)进一步引入一些先进的编码工具,提高了压缩效率;(2)视频源的每个样值均可超过8b,最高可达12b;(3)增加了4∶2∶2与4∶4∶4的采样格式;(4)更高的比特率,更高的图像分辨率;(5)可达到图像高保真的要求,支持无损压缩;(6)支持rgb格式的压缩,同时避免了色度空间转换的舍入误差。
mpeg-4 visual (mpeg-4 part 2)与h.264 (mpeg-4 part 10)均为新一代多媒体通讯压缩与解压缩国际标准。其中mpeg-4目前作为消费性电子核心技术正处于市场导入期。如目前利润最高的高端smart phone多带有动态影音摄影的功能,其压缩标准主流即为mpeg-4 visual。此外3g(第三代行动电话)手机所支持的影音功能亦多包含mpeg-4 visual编解码功能。多媒体播放器的顶端产品(注:ipod属中阶产品)目前非pmp (portable media player)莫属,单价高达2k~6k¥的系统均需包含mpeg-4 visual的播放功能。下一代的pmp将进一步结合数字相机与摄影机的功能达到全功能实时多媒体摄、录、放与传输的需求。当然mpeg-4 visual还是扮演核心与关键技术角色。h.264整合iso/iec与itu-t两大标准阵营,制定mpeg-4 visual的下一代影音压缩标准。目的在进一步提高自然影像的压缩率,且在通讯环境变化时亦能确保一定的影音品质,是下一代数字电视的编解码标准。h.264为达成上述目的,采用多项创新技术(亦使h.264与mpeg-1/-2/-4 visual不兼容),故软硬件设计上与mpeg-4 visual炯异。而重要的是h.264将应用在3g行动通讯之上。故h.264为下一代3c产品的杀手级核心技术。
通常所说h.264和mpeg4的比较是指h.264和mpeg-4 part 2 advanced simple profile (asp)的比较而言
分辨率和实时性术语:
完全实时:pal=25f/s、ntsc=30f/s
基本实时(准实时):pal:8~15f/s ntsc:10~17f/s
非实时:pal<8f/s ntsc<10f/s
cif (352 x 240 ntsc, 352 x 288 pal)
qcif=cif*1/4=176*120 ntsc,176*144 pal
fd1(d1)=4*cif=704*480 ntsc,704*576 pal
hd1(half-d1)=d1*1/2=704*240 ntsc,704*288 pal
d1为480i格式,和ntsc模拟电视清晰度相同
d2为480p格式,和逐行扫描dvd规格相同,dvd的分辨率为480p,也就是720x480(ntsc)720x576(pal)
d3为1080i格式,分辨率为1920×1080 i/60hz
d4为 720p格式,分辨率为1280×720 p/60hz
d5为1080p格式,分辨率为1920×1080逐行扫描,专业格式
专利费问题:
在专利许可政策上,h.264 也吸取了mpeg2 及mpeg4 part2 的经验和教训,推出了较之前标准更低和操作性更强的许可政策。例如,avc 许可政策每台产品0.20 美元的收费,与mpeg-2 每个终端收费4-6美元(2002 年前)和2.5 美元(2002 年之后)相比,降价幅度超过一个数量级。而其相比于mpeg4 part2,除了取消了按编解码时间收费(2 美分/小时)以外,也降低了对于内容的收费,从而受到了更多机构、企业和运营商的欢迎。
基础知识:
h.264 标准压缩系统由视频编码层( vcl )和网络提取层( network abstraction layer , nal )两部分组成。 vcl 中包括 vcl 编码器与 vcl 解码器,主要功能是视频数据压缩编码和解码,它包括运动补偿、变换编码、熵编码等压缩单元。 nal 则用于为 vcl 提供一个与网络无关的统一接口,它负责对视频数据进行封装打包后使其在网络中传送,它采用统一的数据格式,包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。包头中包含存储标志和类型标志。存储标志用于指示当前数据不属于被参考的帧。类型标志用于指示图像数据的类型。vcl 可以传输按当前的网络情况调整的编码参数。
h.264 和 h.261 、 h.263 一样,也是采用 dct 变换编码加 dpcm 的差分编码,即混合编码结构。同时,
h.264 在混合编码的框架下引入了新的编码方式,提高了编码效率,更贴近实际应用。
h.264 没有繁琐的选项,而是力求简洁的 “ 回归基本 ” ,它具有比 h.263++ 更好的压缩性能,又具有适应多种信道的能力。
h.264 的应用目标广泛,可满足各种不同速率、不同场合的视频应用,具有较好的抗误码和抗丢包的处理能力。
h.264 的基本系统无需使用版权,具有开放的性质,能很好地适应 ip 和无线网络的使用,这对目前因特网传输多媒体信息、移动网中传输宽带信息等都具有重要意义。
新的快速运动估值算法 umhexagons (中国专利)是一种运算量相对于 h.264 中原有的快速全搜索算法可节约 90 %以上的新算法,全名叫 “ 非对称十字型多层次六边形格点搜索算法 ” ( unsymmetrical-cross muti-hexagon search ) ” ,这是一种整像素运动估值算法。由于它在高码率大运动图像序列编码时,在保持较好率失真性能的条件下,运算量十分低,已被 h.264 标准正式采纳。
-----------------------------------------------------------------------------
作为H.264视频编解码标准被纳入MPEG-4 Part 10标准中,也就是说它只是附属于MPEG-4的第十部分。换句话说,H.264没有超出MPEG-4标准范畴。因此,网上有关H.264标准和视频传输 质量高于MPEG-4是不正确的,MPEG-4过渡到H.264更是令人无法理解的说法,首先让我们正确了解MPEG-4的发展:
1、 MPEG-4(SP)与MPEG-4(ASP)是MPEG-4早期的产品技术
MPEG-4(SP)与MPEG-4(ASP)是于1998年提出的。它的技术发展到目前,的确有些问题,因此,目前国有对MPEG-4有开发 能力的技术人员,在MPEG-4视频监控或视频会议产品并没有采用这一落后的技术。网上所宣传用H.264产品(也就是2005年以后的技术产品)与早期 的MPEG-4(SP)技术对比实为不妥.犹如2005年的IT产品与2001年的IT产品性能比较能否让人信服?.在这里需要说明的是,这是一种厂商的 技术炒作行为。
请看一下技术比较:
一些厂商错误引导性的比较:在相同的重建图像质量下,H.264比H.263+和MPEG-4(SP)减小50%码率。
这些数据实质是把H.264新技术产品数据与MPEG-4早起的技术产品数据对比,这对于比较目前的MPEG-4技术产品是没有意义的,也是一种误 导。为何H.264产品没有对2006年新的MPEG-4技术产品进行数据比较。H.264视频编码技术的发展的确很快,但其视频解码视频效果只相当于微 软的Windows Media Player 9.0 (WM9)视频效果。而目前如:华以硬盘录像视频服务器和视频会议设备采用的MPEG-4技术,在视频解码技术上已经达到(WMV)技术规范,音视频同步 性小于0.15s(150毫秒之内),这是H.264与微软WM9所不及的
2、发展中的MPEG-4视频解码器技术:
目前,MPEG-4视频解码器技术发展很快,并不是像厂商在网上炒作的那样。目前H.264图像标准它的优势只体现在它的压缩和存储,比目前华以产 品MPEG-4存储文件小15-20%,但它的录像格式不是规范格式。其原因在于,H.264并没有采用国际上通用的存储格式,用国际上通用的第三方软件 无法打开它的录像文件。因此,在国内一些政府和机关部门,在选用设备时明确表明:录像文件必须采用国际上通用的第三方软件可以打开。这一点对于监控产品实 为重要。特别出现偷盗时,公安需要取证、分析等。
MPEG-4的视频解码器升级版本为(WMV) ,音频是根据各厂家的编码技术和经验有所不同。目前2005-2006年成熟的MPEG-4新技术产品,在性能方面,是远远高于H.264技术产品。
就传输来看:比起新的MPEG-4技术产品H.264存在以下几方面的缺陷:
1、音视频的同步性:H.264音视频同步性存在一些问题,主要体现在延时方面,H.264的传输性能同微软的Windows Media Player 9.0(WM9)相当。而目前华以网络视频服务器采用的MPEG-4技术,在视频监控和视频会议领域实现延时小于0.15秒(150毫秒),这是 H.264产品所不及的;
2、网络传输效率:采用H.264传输效率并不是十分很高。
3、耗用系统资源很大:采用H.264传输,浏览时,耗用较大的CPU和内存资源,较MPEG-4差距较大。
4、H.264视频存储格式:作为视频监控的最重要问题是取证。如公安部门取证、保安部门取证。按照国际通用惯例,监控硬盘录像应满足采用第三方浏 览软件打开浏览。H.264压缩的确比较好,但它的储存格式不是规范。但MPEG-4是因为采用AVI第三方浏览软件可以打开浏览的通用视频格式,如:微 软的Windows Media Player 7.0/8.0/9.0,RealOne Player等等都可以打开,因此,在这里无法比较两者的储存压缩效果。
3、新技术产品MPEG-4视频传输优于H.264:
新技术产品MPEG-4视频传输效率和质量实际上是高于或优于H.264技术的,关键是用什么技术产品进行比较。MPEG-4(SP)早期过时的技术已经被淘汰,H.264技术同这一技术比较实为不妥和不高明。
MPEG-4的升级版本主要由两部分组成,(1)视频解码器升级为微软的(WMV),(2)而音频各厂家差异很大,因此,音视频的同步性差异很大, 主要是延时差异。华以网络公司采用可实现音视频差异<0.15s(105毫秒)。H.264和微软视频技术的弱点是音视频同步性不好,延时比较大。
华以网络MPEG-4视频产品采用D1视频格式(分辨率:640x480),20帧/秒,速率1024Kbps,图像质量清晰基本无延时,采用赛扬 1.8的CPU浏览单路视频仅占用5-8%,同时浏览9路占用CPU消耗60-80%,又有那家的H.264产品可以与此对比?
华以网络MPEG-4视频产品采用D1视频格式的音视频同步性也比较理想,音频与视频的延时小于150毫秒,又有那家的H.264产品可以与此对比?
每种产品技术的发展都在每时每刻不断地向前发展,新的技术和手段都在不断地推陈出新。没有最好,只有更好是科学的发展规律。当H.264技术向前发展的同时,它本身是推动MPEG-4技术的发展,同时,又有新的MPEG-4技术展现在科技的前沿。
既然H.264属于MPEG-4中的一部分,所谓H.264超MPEG-4的说法和MPEG-4过渡到H.264的说法实为不妥。H.264标准被 纳入MPEG-4的第十部分,也就是说它的技术不可能超出MPEG-4的标准范畴,只能说它在某一时刻和某种技术上具有它的特长。在这里让我们正确认识各 种视频解码器的技术和规范,正确理解和选择视频设备。
------------------------------------------
MPEG-4视频编码核心思想
1 引言
当今时代,信息技术和计算机互联网飞速发展,在此背景下,多媒体信息已成为人类获取信息的最主要载体,同时也成为电子信息领域技术开发和研究的热点。多媒体信息经数字化处理后具有易于加密、抗干扰能力强、可再生中继等优点,但同时也伴随海量数据的产生,这对信息存储设备及通信网络均提出了很高要求,从而成为阻碍人们有效获取和使用信息的重大瓶颈。
因此研究高效的多媒体数据压缩编码方法,以压缩形式存储和传输数字化的多媒体信息具有重要意义。作为多媒体技术的核心及关键,多媒体数据压缩编码近年来在技术及应用方面都取得了长足进展,它的进步和完善正深刻影响着现代社会的方方面面。
2 视频编码研究与MPEG标准演进
人类获取的信息中70%来自于视觉,视频信息在多媒体信息中占有重要地位;同时视频数据冗余度最大,经压缩处理后的视频质量高低是决定多媒体服务质量的关键因素。因此数字视频技术是多媒体应用的核心技术,对视频编码的研究已成为信息技术领域的热门话题。
视频编码的研究课题主要有数据压缩比、压缩/解压速度及快速实现算法三方面内容。以压缩/解压后数据与压缩前原始数据是否完全一致作为衡量标准,可将数据压缩划分为无失真压缩(即可逆压缩)和有失真压缩(即不可逆压缩)两类。
传统压缩编码建立在仙农信息论基础之上的,以经典集合论为工具,用概率统计模型来描述信源,其压缩思想基于数据统计,因此只能去除数据冗余,属于低层压缩编码的范畴。
伴随着视频编码相关学科及新兴学科的迅速发展,新一代数据压缩技术不断诞生并日益成熟,其编码思想由基于像素和像素块转变为基于内容 (content-based)。它突破了仙农信息论框架的束缚,充分考虑了人眼视觉特性及信源特性,通过去除内容冗余来实现数据压缩,可分为基于对象(object-based)和基于语义(semantics-based)两种,前者属于中层压缩编码,后者属于高层压缩编码。
与此同时,视频编码相关标准的制定也日臻完善。视频编码标准主要由ITU-T和ISO/IEC开发。ITU-T发布的视频标准有H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公布的MPEG系列标准有MPEG-1、 MPEG-2 、MPEG-4 和 MPEG-7,并且计划公布MPEG-21。
MPEG即Moving Picture Expert Group(运动图像专家组),它是专门从事制定多媒体视音频压缩编码标准的国际组织。 MPEG系列标准已成为国际上影响最大的多媒体技术标准,其中MPEG-1和MPEG-2是采用以仙农信息论为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术;MPEG-4(ISO/IEC 14496)则是基于第二代压缩编码技术制定的国际标准,它以视听媒体对象为基本单元,采用基于内容的压缩编码,以实现数字视音频、图形合成应用及交互式多媒体的集成。MPEG系列标准对VCD、DVD等视听消费电子及数字电视和高清晰度电视(DTV&&HDTV)、多媒体通信等信息产业的发展产生了巨大而深远的影响。
3 MPEG-4视频编码核心思想及关键技术
3.1 核心思想
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代压缩编码技术,着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和编码,这种编码方案存在以下缺陷:
将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应,即马赛克效应;
不能对图像内容进行访问、编辑和回放等操作;
未充分利用人类视觉系统(HVS,Human Visual System)的特性。
MPEG-4则代表了基于模型/对象的第二代压缩编码技术,它充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。
AV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可交互操作的特性,它又可进一步组成复合AV对象。因此 MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。
MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用。
MPEG-4 采用了新一代视频编码技术,它在视频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形状视频对象,从而实现了从基于像素的传统编码向基于对象和内容的现代编码的转变,因而引领着新一代智能图像编码的发展潮流。
3.2 关键技术
MPEG-4除采用第一代视频编码的核心技术,如变换编码、运动估计与运动补偿、量化、熵编码外,还提出了一些新的有创见性的关键技术,并在第一代视频编码技术基础上进行了卓有成效的完善和改进。下面重点介绍其中的一些关键技术。
1. 视频对象提取技术
MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。因此视频对象提取即视频对象分割,是MPEG-4视频编码的关键技术,也是新一代视频编码的研究热点和难点。
视频对象分割涉及对视频内容的分析和理解,这与人工智能、图像理解、模式识别和神经网络等学科有密切联系。目前人工智能的发展还不够完善,计算机还不具有观察、识别、理解图像的能力;同时关于计算机视觉的研究也表明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此,尽管MPEG- 4 框架已经制定,但至今仍没有通用的有效方法去根本解决视频对象分割问题,视频对象分割被认为是一个具有挑战性的难题,基于语义的分割则更加困难。
目前进行视频对象分割的一般步骤是:先对原始视频/图像数据进行简化以利于分割,这可通过低通滤波、中值滤波、形态滤波来完成;然后对视频/图像数据进行特征提取,可以是颜色、纹理、运动、帧差、位移帧差乃至语义等特征;再基于某种均匀性标准来确定分割决策,根据所提取特征将视频数据归类;最后是进行相关后处理,以实现滤除噪声及准确提取边界。
在视频分割中基于数学形态理论的分水岭(watershed)算法被广泛使用,它又称水线算法,其基本过程是连续腐蚀二值图像,由图像简化、标记提取、决策、后处理四个阶段构成。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感,且未利用帧间信息,通常会产生图像过度分割。
2. VOP视频编码技术
视频对象平面(VOP,Video Object Plane)是视频对象(VO)在某一时刻的采样,VOP是MPEG-4视频编码的核心概念。 MPEG-4在编码过程中针对不同VO采用不同的编码策略,即对前景VO的压缩编码尽可能保留细节和平滑;对背景VO则采用高压缩率的编码策略,甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的方块效应,而且使用户可与场景交互,从而既提高了压缩比,又实现了基于内容的交互,为视频编码提供了广阔的发展空间。
MPEG-4支持任意形状图像与视频的编解码。对于任意形状视频对象。对于极低比特率实时应用,如可视电话、会议电视,MPEG-4则采用VLBV (Very Low Bit-rate Video,极低比特率视频)核进行编码。
传统的矩形图在MPEG-4中被看作是VO的一种特例,这正体现了传统编码与基于内容编码在MPEG-4中的统一。VO概念的引入,更加符合人脑对视觉信息的处理方式,并使视频信号的处理方式从数字化进展到智能化,从而提高了视频信号的交互性和灵活性,使得更广泛的视频应用及更多的内容交互成为可能。因此VOP视频编码技术被誉为视频信号处理技术从数字化进入智能化的初步探索。
3. 视频编码可分级性技术
随着因特网业务的巨大增长,在速率起伏很大的IP(Internet Protocol)网络及具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多。在这种背景下,视频分级编码的重要性日益突出,其应用非常广泛,且具有很高的理论研究及实际应用价值,因此受到人们的极大关注。 <>
视频编码的可分级性(scalability)是指码率的可调整性,即视频数据只压缩一次,却能以多个帧率、空间分辨率或视频质量进行解码,从而可支持多种类型用户的各种不同应用要求。 <>
MPEG-4通过视频对象层(VOL,Video Object Layer)数据结构来实现分级编码。MPEG-4提供了两种基本分级工具,即时域分级(Temporal Scalability)和空域分级(Spatial Scalability),此外还支持时域和空域的混合分级。每一种分级编码都至少有两层VOL,低层称为基本层,高层称为增强层。基本层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和细节。 <>
在随后增补的视频流应用框架中,MPEG-4提出了FGS(Fine Granularity Scalable,精细可伸缩性)视频编码算法以及 PFGS(Progressive Fine Granularity Scalable,渐进精细可伸缩性)视频编码算法。
FGS编码实现简单,可在编码速率、显示分辨率、内容、解码复杂度等方面提供灵活的自适应和可扩展性,且具有很强的带宽自适应能力和抗误码性能。但还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足。
PFGS则是为改善FGS编码效率而提出的视频编码算法,其基本思想是在增强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿,以使运动补偿更加有效,从而提高编码效率。
4. 运动估计与运动补偿技术
MPEG-4采用I-VOP、P-VOP、B-VOP三种帧格式来表征不同的运动补偿类型。它采用了H.263中的半像素搜索(half pixel searching)技术和重叠运动补偿(overlapped motion compensation)技术,同时又引入重复填充(repetitive padding)技术和修改的块(多边形)匹配(modified block (polygon)matching)技术以支持任意形状的VOP区域。
此外,为提高运动估计算法精度,MPEG-4采用了MVFAST (Motion Vector Field Adaptive Search Technique)和改进的PMVFAST (Predictive MVFAST)方法用于运动估计。对于全局运动估计,则采用了基于特征的快速顽健的FFRGMET(Feature- based Fast and Robust Global Motion Estimation Technique)方法。
在MPEG-4视频编码中,运动估计相当耗时,对编码的实时性影响很大。因此这里特别强调快速算法。运动估计方法主要有像素递归法和块匹配法两大类,前者复杂度很高,实际中应用较少,后者则在H.263和MPEG中广泛采用。在块匹配法中,重点研究块匹配准则及搜索方法。目前有三种常用的匹配准则:
(1)绝对误差和(SAD, Sum of Absolute Difference)准则;
(2)均方误差(MSE, Mean Square Error)准则;
(3)归一化互相关函数(NCCF, Normalized Cross Correlation Function)准则。
在上述三种准则中,SAD准则具有不需乘法运算、实现简单方便的优点而使用最多,但应清楚匹配准则的选用对匹配结果影响不大。
在选取匹配准则后就应进行寻找最优匹配点的搜索工作。最简单、最可靠的方法是全搜索法(FS, Full Search),但计算量太大,不便于实时实现。因此快速搜索法应运而生,主要有交叉搜索法、二维对数法和钻石搜索法,其中钻石搜索法被MPEG-4校验模型(VM, Verification Model)所采纳,下面详细介绍。
钻石搜索(DS, Diamond Search)法以搜索模板形状而得名,具有简单、鲁棒、高效的特点,是现有性能最优的快速搜索算法之一。其基本思想是利用搜索模板的形状和大小对运动估计算法速度及精度产生重要影响的特性。在搜索最优匹配点时,选择小的搜索模板可能会陷入局部最优,选择大的搜索模板则可能无法找到最优点。因此DS算法针对视频图像中运动矢量的基本规律,选用了两种形状大小的搜索模板。
大钻石搜索模板(LDSP, Large Diamond Search Pattern),包含9个候选位置;
小钻石搜索模板(SDSP, Small Diamond Search Pattern),包含5个候选位置。
DS算法搜索过程如下:开始阶段先重复使用大钻石搜索模板,直到最佳匹配块落在大钻石中心。由于LDSP步长大,因而搜索范围广,可实现粗定位,使搜索不会陷于局部最小,当粗定位结束后,可认为最优点就在LDSP 周围8 个点所围菱形区域中。然后再使用小钻石搜索模板来实现最佳匹配块的准确定位,以不产生较大起伏,从而提高运动估计精度。
此外Sprite视频编码技术也在MPEG-4中应用广泛,作为其核心技术之一。Sprite又称镶嵌图或背景全景图,是指一个视频对象在视频序列中所有出现部分经拼接而成的一幅图像。利用Sprite可以直接重构该视频对象或对其进行预测补偿编码。
Sprite视频编码可视为一种更为先进的运动估计和补偿技术,它能够克服基于固定分块的传统运动估计和补偿技术的不足,MPEG-4正是采用了将传统分块编码技术与Sprite编码技术相结合的策略。
4 结束语
多媒体数据压缩编码的发展趋势是基于内容的压缩,这实际上是信息处理的高级阶段,更加向人自身的信息处理方式靠近。人的信息处理并不是基于信号的,而是基于一个比较抽象的、能够直接进行记忆和处理的方式。
MPEG-4作为新一代多媒体数据压缩编码的典型代表,它第一次提出了基于内容、基于对象的压缩编码思想。它要求对自然或合成视听对象作更多分析甚至是理解,这正是信息处理的高级阶段,因而代表了现代数据压缩编码技术的发展方向。
MPEG-4实现了从矩形帧到VOP的转变以及基于像素的传统编码向基于对象和内容的现代编码的转变,这正体现了传统视频编码与新一代视频编码的有机统一。基于内容的交互性是MPEG-4的核心思想,这对于视频编码技术的发展方向及广泛应用都具有特别重要的意义。
h.264 /avc ( advanced video coding )标准,是 mpeg-4 的第 10 部分。
mpeg-4的初衷是将dvd质量的图像码流从每秒6兆降低到1.5兆,将高清电视的码流从每秒几十兆降低到6~8兆。要实现这样的编码压缩水平,就要用到一种叫avc(advanced video codec)的技术。国际电联(itu)将这项技术命名为h.264标准,mpeg 把这项技术放到mpeg-4标准里的第10章(part 10)。这就是mpeg-4和h.264的关系。
h.264/avc是由iso/iec与itu-t组成的联合视频组(jvt)制定的新一代视频压缩编码标准,于2003年5月完成制订。相对于先前的标准,h.264/avc无论在压缩效率、还是在网络适应性方面都有明显的提高,因此,业界普遍预测其将在未来的视频应用中替代现有的视频压缩标准。
但是,h.264/avc标准由于对视频源的限制,仅支持娱乐级视频质量。为了进一步扩大其应用范围,使其适应高保真视频压缩的应用,jvt于2004年7月对h.264/avc做了重要的补充扩展,称为frext(fidelity range extensions)。
h.264/avc标准第一版支持的源图像为每象素8b,且采样方式仅限于4∶2∶0;而新近扩展的frext部分则扩大了标准的应用范围,如专业级的视频应用、高分辨率/高保真的视频压缩等。frext对h.264/avc的改善主要在:(1)进一步引入一些先进的编码工具,提高了压缩效率;(2)视频源的每个样值均可超过8b,最高可达12b;(3)增加了4∶2∶2与4∶4∶4的采样格式;(4)更高的比特率,更高的图像分辨率;(5)可达到图像高保真的要求,支持无损压缩;(6)支持rgb格式的压缩,同时避免了色度空间转换的舍入误差。
mpeg-4 visual (mpeg-4 part 2)与h.264 (mpeg-4 part 10)均为新一代多媒体通讯压缩与解压缩国际标准。其中mpeg-4目前作为消费性电子核心技术正处于市场导入期。如目前利润最高的高端smart phone多带有动态影音摄影的功能,其压缩标准主流即为mpeg-4 visual。此外3g(第三代行动电话)手机所支持的影音功能亦多包含mpeg-4 visual编解码功能。多媒体播放器的顶端产品(注:ipod属中阶产品)目前非pmp (portable media player)莫属,单价高达2k~6k¥的系统均需包含mpeg-4 visual的播放功能。下一代的pmp将进一步结合数字相机与摄影机的功能达到全功能实时多媒体摄、录、放与传输的需求。当然mpeg-4 visual还是扮演核心与关键技术角色。h.264整合iso/iec与itu-t两大标准阵营,制定mpeg-4 visual的下一代影音压缩标准。目的在进一步提高自然影像的压缩率,且在通讯环境变化时亦能确保一定的影音品质,是下一代数字电视的编解码标准。h.264为达成上述目的,采用多项创新技术(亦使h.264与mpeg-1/-2/-4 visual不兼容),故软硬件设计上与mpeg-4 visual炯异。而重要的是h.264将应用在3g行动通讯之上。故h.264为下一代3c产品的杀手级核心技术。
通常所说h.264和mpeg4的比较是指h.264和mpeg-4 part 2 advanced simple profile (asp)的比较而言
分辨率和实时性术语:
完全实时:pal=25f/s、ntsc=30f/s
基本实时(准实时):pal:8~15f/s ntsc:10~17f/s
非实时:pal<8f/s ntsc<10f/s
cif (352 x 240 ntsc, 352 x 288 pal)
qcif=cif*1/4=176*120 ntsc,176*144 pal
fd1(d1)=4*cif=704*480 ntsc,704*576 pal
hd1(half-d1)=d1*1/2=704*240 ntsc,704*288 pal
d1为480i格式,和ntsc模拟电视清晰度相同
d2为480p格式,和逐行扫描dvd规格相同,dvd的分辨率为480p,也就是720x480(ntsc)720x576(pal)
d3为1080i格式,分辨率为1920×1080 i/60hz
d4为 720p格式,分辨率为1280×720 p/60hz
d5为1080p格式,分辨率为1920×1080逐行扫描,专业格式
专利费问题:
在专利许可政策上,h.264 也吸取了mpeg2 及mpeg4 part2 的经验和教训,推出了较之前标准更低和操作性更强的许可政策。例如,avc 许可政策每台产品0.20 美元的收费,与mpeg-2 每个终端收费4-6美元(2002 年前)和2.5 美元(2002 年之后)相比,降价幅度超过一个数量级。而其相比于mpeg4 part2,除了取消了按编解码时间收费(2 美分/小时)以外,也降低了对于内容的收费,从而受到了更多机构、企业和运营商的欢迎。
基础知识:
h.264 标准压缩系统由视频编码层( vcl )和网络提取层( network abstraction layer , nal )两部分组成。 vcl 中包括 vcl 编码器与 vcl 解码器,主要功能是视频数据压缩编码和解码,它包括运动补偿、变换编码、熵编码等压缩单元。 nal 则用于为 vcl 提供一个与网络无关的统一接口,它负责对视频数据进行封装打包后使其在网络中传送,它采用统一的数据格式,包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。包头中包含存储标志和类型标志。存储标志用于指示当前数据不属于被参考的帧。类型标志用于指示图像数据的类型。vcl 可以传输按当前的网络情况调整的编码参数。
h.264 和 h.261 、 h.263 一样,也是采用 dct 变换编码加 dpcm 的差分编码,即混合编码结构。同时,
h.264 在混合编码的框架下引入了新的编码方式,提高了编码效率,更贴近实际应用。
h.264 没有繁琐的选项,而是力求简洁的 “ 回归基本 ” ,它具有比 h.263++ 更好的压缩性能,又具有适应多种信道的能力。
h.264 的应用目标广泛,可满足各种不同速率、不同场合的视频应用,具有较好的抗误码和抗丢包的处理能力。
h.264 的基本系统无需使用版权,具有开放的性质,能很好地适应 ip 和无线网络的使用,这对目前因特网传输多媒体信息、移动网中传输宽带信息等都具有重要意义。
新的快速运动估值算法 umhexagons (中国专利)是一种运算量相对于 h.264 中原有的快速全搜索算法可节约 90 %以上的新算法,全名叫 “ 非对称十字型多层次六边形格点搜索算法 ” ( unsymmetrical-cross muti-hexagon search ) ” ,这是一种整像素运动估值算法。由于它在高码率大运动图像序列编码时,在保持较好率失真性能的条件下,运算量十分低,已被 h.264 标准正式采纳。
-----------------------------------------------------------------------------
正确认识H.264与MPEG-4技术产品,排除厂商错误宣传
H.264视频编解码标准具有一定的先进性是公认的,但是它并不是首选的视频编码器标准,特别是作为监控产品,因为它还带有一些技术上的缺陷。作为H.264视频编解码标准被纳入MPEG-4 Part 10标准中,也就是说它只是附属于MPEG-4的第十部分。换句话说,H.264没有超出MPEG-4标准范畴。因此,网上有关H.264标准和视频传输 质量高于MPEG-4是不正确的,MPEG-4过渡到H.264更是令人无法理解的说法,首先让我们正确了解MPEG-4的发展:
1、 MPEG-4(SP)与MPEG-4(ASP)是MPEG-4早期的产品技术
MPEG-4(SP)与MPEG-4(ASP)是于1998年提出的。它的技术发展到目前,的确有些问题,因此,目前国有对MPEG-4有开发 能力的技术人员,在MPEG-4视频监控或视频会议产品并没有采用这一落后的技术。网上所宣传用H.264产品(也就是2005年以后的技术产品)与早期 的MPEG-4(SP)技术对比实为不妥.犹如2005年的IT产品与2001年的IT产品性能比较能否让人信服?.在这里需要说明的是,这是一种厂商的 技术炒作行为。
请看一下技术比较:
一些厂商错误引导性的比较:在相同的重建图像质量下,H.264比H.263+和MPEG-4(SP)减小50%码率。
这些数据实质是把H.264新技术产品数据与MPEG-4早起的技术产品数据对比,这对于比较目前的MPEG-4技术产品是没有意义的,也是一种误 导。为何H.264产品没有对2006年新的MPEG-4技术产品进行数据比较。H.264视频编码技术的发展的确很快,但其视频解码视频效果只相当于微 软的Windows Media Player 9.0 (WM9)视频效果。而目前如:华以硬盘录像视频服务器和视频会议设备采用的MPEG-4技术,在视频解码技术上已经达到(WMV)技术规范,音视频同步 性小于0.15s(150毫秒之内),这是H.264与微软WM9所不及的
2、发展中的MPEG-4视频解码器技术:
目前,MPEG-4视频解码器技术发展很快,并不是像厂商在网上炒作的那样。目前H.264图像标准它的优势只体现在它的压缩和存储,比目前华以产 品MPEG-4存储文件小15-20%,但它的录像格式不是规范格式。其原因在于,H.264并没有采用国际上通用的存储格式,用国际上通用的第三方软件 无法打开它的录像文件。因此,在国内一些政府和机关部门,在选用设备时明确表明:录像文件必须采用国际上通用的第三方软件可以打开。这一点对于监控产品实 为重要。特别出现偷盗时,公安需要取证、分析等。
MPEG-4的视频解码器升级版本为(WMV) ,音频是根据各厂家的编码技术和经验有所不同。目前2005-2006年成熟的MPEG-4新技术产品,在性能方面,是远远高于H.264技术产品。
就传输来看:比起新的MPEG-4技术产品H.264存在以下几方面的缺陷:
1、音视频的同步性:H.264音视频同步性存在一些问题,主要体现在延时方面,H.264的传输性能同微软的Windows Media Player 9.0(WM9)相当。而目前华以网络视频服务器采用的MPEG-4技术,在视频监控和视频会议领域实现延时小于0.15秒(150毫秒),这是 H.264产品所不及的;
2、网络传输效率:采用H.264传输效率并不是十分很高。
3、耗用系统资源很大:采用H.264传输,浏览时,耗用较大的CPU和内存资源,较MPEG-4差距较大。
4、H.264视频存储格式:作为视频监控的最重要问题是取证。如公安部门取证、保安部门取证。按照国际通用惯例,监控硬盘录像应满足采用第三方浏 览软件打开浏览。H.264压缩的确比较好,但它的储存格式不是规范。但MPEG-4是因为采用AVI第三方浏览软件可以打开浏览的通用视频格式,如:微 软的Windows Media Player 7.0/8.0/9.0,RealOne Player等等都可以打开,因此,在这里无法比较两者的储存压缩效果。
3、新技术产品MPEG-4视频传输优于H.264:
新技术产品MPEG-4视频传输效率和质量实际上是高于或优于H.264技术的,关键是用什么技术产品进行比较。MPEG-4(SP)早期过时的技术已经被淘汰,H.264技术同这一技术比较实为不妥和不高明。
MPEG-4的升级版本主要由两部分组成,(1)视频解码器升级为微软的(WMV),(2)而音频各厂家差异很大,因此,音视频的同步性差异很大, 主要是延时差异。华以网络公司采用可实现音视频差异<0.15s(105毫秒)。H.264和微软视频技术的弱点是音视频同步性不好,延时比较大。
华以网络MPEG-4视频产品采用D1视频格式(分辨率:640x480),20帧/秒,速率1024Kbps,图像质量清晰基本无延时,采用赛扬 1.8的CPU浏览单路视频仅占用5-8%,同时浏览9路占用CPU消耗60-80%,又有那家的H.264产品可以与此对比?
华以网络MPEG-4视频产品采用D1视频格式的音视频同步性也比较理想,音频与视频的延时小于150毫秒,又有那家的H.264产品可以与此对比?
每种产品技术的发展都在每时每刻不断地向前发展,新的技术和手段都在不断地推陈出新。没有最好,只有更好是科学的发展规律。当H.264技术向前发展的同时,它本身是推动MPEG-4技术的发展,同时,又有新的MPEG-4技术展现在科技的前沿。
既然H.264属于MPEG-4中的一部分,所谓H.264超MPEG-4的说法和MPEG-4过渡到H.264的说法实为不妥。H.264标准被 纳入MPEG-4的第十部分,也就是说它的技术不可能超出MPEG-4的标准范畴,只能说它在某一时刻和某种技术上具有它的特长。在这里让我们正确认识各 种视频解码器的技术和规范,正确理解和选择视频设备。
------------------------------------------
MPEG-4视频编码核心思想
1 引言
当今时代,信息技术和计算机互联网飞速发展,在此背景下,多媒体信息已成为人类获取信息的最主要载体,同时也成为电子信息领域技术开发和研究的热点。多媒体信息经数字化处理后具有易于加密、抗干扰能力强、可再生中继等优点,但同时也伴随海量数据的产生,这对信息存储设备及通信网络均提出了很高要求,从而成为阻碍人们有效获取和使用信息的重大瓶颈。
因此研究高效的多媒体数据压缩编码方法,以压缩形式存储和传输数字化的多媒体信息具有重要意义。作为多媒体技术的核心及关键,多媒体数据压缩编码近年来在技术及应用方面都取得了长足进展,它的进步和完善正深刻影响着现代社会的方方面面。
2 视频编码研究与MPEG标准演进
人类获取的信息中70%来自于视觉,视频信息在多媒体信息中占有重要地位;同时视频数据冗余度最大,经压缩处理后的视频质量高低是决定多媒体服务质量的关键因素。因此数字视频技术是多媒体应用的核心技术,对视频编码的研究已成为信息技术领域的热门话题。
视频编码的研究课题主要有数据压缩比、压缩/解压速度及快速实现算法三方面内容。以压缩/解压后数据与压缩前原始数据是否完全一致作为衡量标准,可将数据压缩划分为无失真压缩(即可逆压缩)和有失真压缩(即不可逆压缩)两类。
传统压缩编码建立在仙农信息论基础之上的,以经典集合论为工具,用概率统计模型来描述信源,其压缩思想基于数据统计,因此只能去除数据冗余,属于低层压缩编码的范畴。
伴随着视频编码相关学科及新兴学科的迅速发展,新一代数据压缩技术不断诞生并日益成熟,其编码思想由基于像素和像素块转变为基于内容 (content-based)。它突破了仙农信息论框架的束缚,充分考虑了人眼视觉特性及信源特性,通过去除内容冗余来实现数据压缩,可分为基于对象(object-based)和基于语义(semantics-based)两种,前者属于中层压缩编码,后者属于高层压缩编码。
与此同时,视频编码相关标准的制定也日臻完善。视频编码标准主要由ITU-T和ISO/IEC开发。ITU-T发布的视频标准有H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公布的MPEG系列标准有MPEG-1、 MPEG-2 、MPEG-4 和 MPEG-7,并且计划公布MPEG-21。
MPEG即Moving Picture Expert Group(运动图像专家组),它是专门从事制定多媒体视音频压缩编码标准的国际组织。 MPEG系列标准已成为国际上影响最大的多媒体技术标准,其中MPEG-1和MPEG-2是采用以仙农信息论为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术;MPEG-4(ISO/IEC 14496)则是基于第二代压缩编码技术制定的国际标准,它以视听媒体对象为基本单元,采用基于内容的压缩编码,以实现数字视音频、图形合成应用及交互式多媒体的集成。MPEG系列标准对VCD、DVD等视听消费电子及数字电视和高清晰度电视(DTV&&HDTV)、多媒体通信等信息产业的发展产生了巨大而深远的影响。
3 MPEG-4视频编码核心思想及关键技术
3.1 核心思想
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代压缩编码技术,着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和编码,这种编码方案存在以下缺陷:
将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应,即马赛克效应;
不能对图像内容进行访问、编辑和回放等操作;
未充分利用人类视觉系统(HVS,Human Visual System)的特性。
MPEG-4则代表了基于模型/对象的第二代压缩编码技术,它充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。
AV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可交互操作的特性,它又可进一步组成复合AV对象。因此 MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。
MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用。
MPEG-4 采用了新一代视频编码技术,它在视频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形状视频对象,从而实现了从基于像素的传统编码向基于对象和内容的现代编码的转变,因而引领着新一代智能图像编码的发展潮流。
3.2 关键技术
MPEG-4除采用第一代视频编码的核心技术,如变换编码、运动估计与运动补偿、量化、熵编码外,还提出了一些新的有创见性的关键技术,并在第一代视频编码技术基础上进行了卓有成效的完善和改进。下面重点介绍其中的一些关键技术。
1. 视频对象提取技术
MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。因此视频对象提取即视频对象分割,是MPEG-4视频编码的关键技术,也是新一代视频编码的研究热点和难点。
视频对象分割涉及对视频内容的分析和理解,这与人工智能、图像理解、模式识别和神经网络等学科有密切联系。目前人工智能的发展还不够完善,计算机还不具有观察、识别、理解图像的能力;同时关于计算机视觉的研究也表明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此,尽管MPEG- 4 框架已经制定,但至今仍没有通用的有效方法去根本解决视频对象分割问题,视频对象分割被认为是一个具有挑战性的难题,基于语义的分割则更加困难。
目前进行视频对象分割的一般步骤是:先对原始视频/图像数据进行简化以利于分割,这可通过低通滤波、中值滤波、形态滤波来完成;然后对视频/图像数据进行特征提取,可以是颜色、纹理、运动、帧差、位移帧差乃至语义等特征;再基于某种均匀性标准来确定分割决策,根据所提取特征将视频数据归类;最后是进行相关后处理,以实现滤除噪声及准确提取边界。
在视频分割中基于数学形态理论的分水岭(watershed)算法被广泛使用,它又称水线算法,其基本过程是连续腐蚀二值图像,由图像简化、标记提取、决策、后处理四个阶段构成。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感,且未利用帧间信息,通常会产生图像过度分割。
2. VOP视频编码技术
视频对象平面(VOP,Video Object Plane)是视频对象(VO)在某一时刻的采样,VOP是MPEG-4视频编码的核心概念。 MPEG-4在编码过程中针对不同VO采用不同的编码策略,即对前景VO的压缩编码尽可能保留细节和平滑;对背景VO则采用高压缩率的编码策略,甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的方块效应,而且使用户可与场景交互,从而既提高了压缩比,又实现了基于内容的交互,为视频编码提供了广阔的发展空间。
MPEG-4支持任意形状图像与视频的编解码。对于任意形状视频对象。对于极低比特率实时应用,如可视电话、会议电视,MPEG-4则采用VLBV (Very Low Bit-rate Video,极低比特率视频)核进行编码。
传统的矩形图在MPEG-4中被看作是VO的一种特例,这正体现了传统编码与基于内容编码在MPEG-4中的统一。VO概念的引入,更加符合人脑对视觉信息的处理方式,并使视频信号的处理方式从数字化进展到智能化,从而提高了视频信号的交互性和灵活性,使得更广泛的视频应用及更多的内容交互成为可能。因此VOP视频编码技术被誉为视频信号处理技术从数字化进入智能化的初步探索。
3. 视频编码可分级性技术
随着因特网业务的巨大增长,在速率起伏很大的IP(Internet Protocol)网络及具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多。在这种背景下,视频分级编码的重要性日益突出,其应用非常广泛,且具有很高的理论研究及实际应用价值,因此受到人们的极大关注。 <>
视频编码的可分级性(scalability)是指码率的可调整性,即视频数据只压缩一次,却能以多个帧率、空间分辨率或视频质量进行解码,从而可支持多种类型用户的各种不同应用要求。 <>
MPEG-4通过视频对象层(VOL,Video Object Layer)数据结构来实现分级编码。MPEG-4提供了两种基本分级工具,即时域分级(Temporal Scalability)和空域分级(Spatial Scalability),此外还支持时域和空域的混合分级。每一种分级编码都至少有两层VOL,低层称为基本层,高层称为增强层。基本层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和细节。 <>
在随后增补的视频流应用框架中,MPEG-4提出了FGS(Fine Granularity Scalable,精细可伸缩性)视频编码算法以及 PFGS(Progressive Fine Granularity Scalable,渐进精细可伸缩性)视频编码算法。
FGS编码实现简单,可在编码速率、显示分辨率、内容、解码复杂度等方面提供灵活的自适应和可扩展性,且具有很强的带宽自适应能力和抗误码性能。但还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足。
PFGS则是为改善FGS编码效率而提出的视频编码算法,其基本思想是在增强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿,以使运动补偿更加有效,从而提高编码效率。
4. 运动估计与运动补偿技术
MPEG-4采用I-VOP、P-VOP、B-VOP三种帧格式来表征不同的运动补偿类型。它采用了H.263中的半像素搜索(half pixel searching)技术和重叠运动补偿(overlapped motion compensation)技术,同时又引入重复填充(repetitive padding)技术和修改的块(多边形)匹配(modified block (polygon)matching)技术以支持任意形状的VOP区域。
此外,为提高运动估计算法精度,MPEG-4采用了MVFAST (Motion Vector Field Adaptive Search Technique)和改进的PMVFAST (Predictive MVFAST)方法用于运动估计。对于全局运动估计,则采用了基于特征的快速顽健的FFRGMET(Feature- based Fast and Robust Global Motion Estimation Technique)方法。
在MPEG-4视频编码中,运动估计相当耗时,对编码的实时性影响很大。因此这里特别强调快速算法。运动估计方法主要有像素递归法和块匹配法两大类,前者复杂度很高,实际中应用较少,后者则在H.263和MPEG中广泛采用。在块匹配法中,重点研究块匹配准则及搜索方法。目前有三种常用的匹配准则:
(1)绝对误差和(SAD, Sum of Absolute Difference)准则;
(2)均方误差(MSE, Mean Square Error)准则;
(3)归一化互相关函数(NCCF, Normalized Cross Correlation Function)准则。
在上述三种准则中,SAD准则具有不需乘法运算、实现简单方便的优点而使用最多,但应清楚匹配准则的选用对匹配结果影响不大。
在选取匹配准则后就应进行寻找最优匹配点的搜索工作。最简单、最可靠的方法是全搜索法(FS, Full Search),但计算量太大,不便于实时实现。因此快速搜索法应运而生,主要有交叉搜索法、二维对数法和钻石搜索法,其中钻石搜索法被MPEG-4校验模型(VM, Verification Model)所采纳,下面详细介绍。
钻石搜索(DS, Diamond Search)法以搜索模板形状而得名,具有简单、鲁棒、高效的特点,是现有性能最优的快速搜索算法之一。其基本思想是利用搜索模板的形状和大小对运动估计算法速度及精度产生重要影响的特性。在搜索最优匹配点时,选择小的搜索模板可能会陷入局部最优,选择大的搜索模板则可能无法找到最优点。因此DS算法针对视频图像中运动矢量的基本规律,选用了两种形状大小的搜索模板。
大钻石搜索模板(LDSP, Large Diamond Search Pattern),包含9个候选位置;
小钻石搜索模板(SDSP, Small Diamond Search Pattern),包含5个候选位置。
DS算法搜索过程如下:开始阶段先重复使用大钻石搜索模板,直到最佳匹配块落在大钻石中心。由于LDSP步长大,因而搜索范围广,可实现粗定位,使搜索不会陷于局部最小,当粗定位结束后,可认为最优点就在LDSP 周围8 个点所围菱形区域中。然后再使用小钻石搜索模板来实现最佳匹配块的准确定位,以不产生较大起伏,从而提高运动估计精度。
此外Sprite视频编码技术也在MPEG-4中应用广泛,作为其核心技术之一。Sprite又称镶嵌图或背景全景图,是指一个视频对象在视频序列中所有出现部分经拼接而成的一幅图像。利用Sprite可以直接重构该视频对象或对其进行预测补偿编码。
Sprite视频编码可视为一种更为先进的运动估计和补偿技术,它能够克服基于固定分块的传统运动估计和补偿技术的不足,MPEG-4正是采用了将传统分块编码技术与Sprite编码技术相结合的策略。
4 结束语
多媒体数据压缩编码的发展趋势是基于内容的压缩,这实际上是信息处理的高级阶段,更加向人自身的信息处理方式靠近。人的信息处理并不是基于信号的,而是基于一个比较抽象的、能够直接进行记忆和处理的方式。
MPEG-4作为新一代多媒体数据压缩编码的典型代表,它第一次提出了基于内容、基于对象的压缩编码思想。它要求对自然或合成视听对象作更多分析甚至是理解,这正是信息处理的高级阶段,因而代表了现代数据压缩编码技术的发展方向。
MPEG-4实现了从矩形帧到VOP的转变以及基于像素的传统编码向基于对象和内容的现代编码的转变,这正体现了传统视频编码与新一代视频编码的有机统一。基于内容的交互性是MPEG-4的核心思想,这对于视频编码技术的发展方向及广泛应用都具有特别重要的意义。
No comments:
Post a Comment