MPEG4技术要点及应用前景分析
摘 要:MPEG4是国际标准化组织正在制定的多媒体通信标准。本文概述了MPEG4的背景、MPEG4与以前的MPEG1和MPEG2的主要区别以及MPEG4的主要技术。最后,展望了MPEG4的应用前景。
Abstract:MPEG4 is the International Organization for Standardization is developing multimedia communications standards. This paper presents an overview of the background MPEG4, MPEG4 with the previous MPEG1 and MPEG2 and the main distinction of the main technologies. Finally, This paper presents the prospects for the MPEG4 applications.
关键词:MPEG4 多媒体通信 音频编码 视频编码
Keyword:MPEG4 multimedia communication audio coding video coding
1.引言
多媒体技术获得实用的关键技术之一就是解决视频、音频数字化后数据量之大与数字存储媒体和通信网容量之小的矛盾。其解决的途径就是压缩。为此,国际标准化组织先后于1993年、1995年,制定了视频音频编码的国际标准MPEG1和MPEG2,这两个标准的制定使得基于CD—ROM的数字视频和数字电视成为可能。然而,多媒体通信至今仍然只是一个口号。始于1993年,将于1998年11月发布的MPEG4(ISO/IEC14996)即是国际标准化组织针对多媒体通信提出一个关键解决方案。作为开发者,你想到了即将来临的大市场吗?作为多媒体爱好者,您想到了MPEG4为你带来的丰富多彩的多媒体世界吗?本文从多方位展示了MPEG4的轮廓。
2.MPEG1、MPEG3到MPEG4的转变
MPEG1是针对1 5Mbit/s数传率的数字存储媒体运动图像及其伴音编码的国际标准。MPEG2主要是针对数字视频广播(DVB)、高清晰度电视(HDTV)和数字视盘(DVD)等制定的4~9Mbit/s运动图像及其伴音的编码标准。因此,这二者的应用相对单一,主要的目标是提高压缩比,并改善音频、视频质量,采用的技术主要是基于信息论的波形编码理论。与MPEG1、MPEG2不同,MPEG4并不仅仅是着眼于定义不同码流下的压缩编码标准,而是更多地强调多媒体通信的交互性和灵活性,以及多工业领域的融合。MPEG4的目标定义大致来源于两方面:一是极低比特率下的多媒体通信,一是多工业多媒体通信的融合,主要有通信业、计算机业、消费电子业和娱东影视业。关于多工业的融合,其先驱要数始于1994年的DAVIC(Digital Audio-VisualCouncil),它致力于广播、通信和计算机界的中立的多媒体解决方案。然而,由于产业界利益的冲突,终于使DAVIC的计划以失败告终。MPEG4就是试图达到以上两个主要目标而制定的多媒体通信标准。因而,一方面,MPEG4要求有高效的压缩编码方法,另一方面,MPEG4要求有独立于网络的基于视频/音频对象(AV对象)的交互性。
3.MPEG4的内容和特点
制定中的MPEG4将提供一系列技术以满足视听内容的提供者、网络服务和最终用户的要求。对于视听内容的提供者,MPEG4将使得他们有更大的灵活性和更丰富的内容,同时,这些视听内容易于重复利用,并且易于管理,便于保护知识产权。对于网络服务商,MPEG4将使多媒体信息在不同网络中提供透明的传输。MPEG4的多媒体信息将独立于网络特性并能针对不同网络特性进行优化传输。对于最终用户,MPEG4将支持更多的功能,尤其是支持对AV对象的交互作用。
为了达到这些目标,MPEG4采用如下方法:
1)采用“AV对象”AVOs(audio/VisualObjects)来表示听觉、视觉或者视听组合内容。“AV对象”的基本单位是“原始AV对象”,它们可以是二维背景、一个说话的人像(没有背景)或者与这人相关的说话音等等。可见在MPEG4中,可交互的“AV对象”一改过去图像帧或音频帧的结构,加入了更大的灵活性和交互性。这是MPEG4的主要特征—基于内容的编码。
2)允许组合已有的AV对象以生成复合AV对象,并由此生成视听场景(AV)场景)。在MPEG4中,一个场景已不再是一帧帧的视频、音频序列组成的,而是由许多“AV对象”按照一定的坐标和层次组织起来的。MPEG4采用一种叫做合成—自然混合编码SNHC(Syn thetic-naturalhybridCoding)的方法来组织这些“AV对象”, SNHC的许多观念实际上来源于虚拟现实建模语言VRML。
3)允许对“AV对象”的数据灵活地多路合成与同步,以便选择合适的网络来传输这些“AV对象”数据。在MPEG4中,一个AV对象用一个或多个基本流来表达。这些流还带有一些有关传输服务质量QoS的参数(如最大码流率、比特误码率等等)和一些其它参数,如流类型信息和流同步信息。一般而言,我们将这些多路合成和同步的AV对象数据流分成四层:基本流层(Elementary Stream Layer)、访问单元层(Access Unit Layer)、灵活多路合成层(Flexible Multiplexing Layer)和传输层(Transport Multiplexing Layer)。其中,前两层主要然对AV对象的内容而分的层,后两层主要是针对传输而分的层。层次的流结构,不仅使AV内容表达组织方便灵活,而且使AV对象流独立于网络而传输方便。
4)允许用户在接收端生成的AV场景中与AV对象进行交互操作。在接收端,MPEG4允许用户进行如下的操作,如改变场景的视角来欣赏AV场景,将AV场景中的AV对象拖到不同的地方,通过点击(click)一个具体的AV对象来触发一系列事件,选择不同的语种等等。当然,这些场景的交互性取决于AV场景设计者,而MPEG4为这种设计提供了可能。
5 )支持AV对象的知识产权的标识与保护。由于MPEG4的语法,支持广泛的AV对象和AV对象的编辑组合,因此,区分不同AV对象、AV场景的知识产权应当在MPEG4的语法中得到体现。
4.MPEG4的主要技术
由上节所述可知,MPEG4是一个庞大的有关交互多媒休编码与通信的标准,目前已出台的委员会草案CD,多达上千页。在本节中,我们重点概述了AV对象的编码技术。
4.1多媒体传送集成框架DMIF(Delivery Multimedia Integration Framework)
DMIF主要解决交互网络中、广播环境下以及磁盘中多媒体应用的操作问题,通过传输多路合成比特信息,建立客户端和服务器端的握手和传输。与过去不同的是,由于MPEG4码流中,包括许多的AV对象,一般而言,这些AV对象都有各自的缓冲器,而不仅仅是视频缓充器和音频缓充器。下图是MPEG4的缓冲器管理框图。其中AV对象组合器主要利用一些组合同步信息,恢复AV场景。
4.2语法描述
MPEG4定义了一个句法描述语言来描述AV对象比特流表示和场景描述信息。这个句法描述语言是对C++的扩展,不仅易于表达其AV对象特性,而且也易于软件仿真实现与模型验证。与MPEG4相比,MPEG1和MPEG2则采用一种类C语言的描述,MPEG4描述语言反映了面向对象技术来描述对象。
4.3音频对象的编码
视频音频的压缩编码自然仍是MPEG4的核心所在。不过,与以前的MPEG1、MPEG2不同的是:MPEG4不仅支持自然的声音(如语音和音乐),而且支持基于描述语言的合成声音(如MIDI之类)。而且,支持音频的对象特征。即一个场景中,同时有人声和背景音乐,它们也许是独立编码的音频对象。
4.3.1自然声音编码
MPEG4研究比较了现有的各种音频编码算法,支持2~64K的自然声音编码。如8KHz采样频率的2~4Kbps的语音编码,以及8KHz或16KHz采样频率4~16Kbps的音频编码,一般采用参数编码;6~24Kbps的语音编码,一般采用码激励线性预测CELP(Code Excited Linear Predicitive)编码技术;16Kbps以上码率的编码,则可采用时频(T/F)变换编码技术。这些技术实质上借鉴了已有的音频编码标准如G723、G728以及MPEG1和MPEG2等。图1是MPEG4的可伸缩自然音频编码器示意图,包括三种编码技术。
4.3.2合成声音
在合成声音编码当中,MPEG4引入了两个极有吸引力的编码技术:文本到语音(Text-to-Speech)编码和乐谱驱动合成编码技术。这为网络上低比特率下交互的带有语音的游戏铺平了道路。事实上,合成声音编码技术即是一种基于知识库的参数编码。特别值得一提的是MPEG4的乐谱驱动合成技术,在该技术中,解码器是由一种特殊的合成语言———结构化的音频管弦乐团语言SAOL (Structured Audio Orchestra Language)驱动的。其中的“管弦乐团”是由不同的“乐器”组成的。当解码器不具有某一“乐器”时,MPEG4还允许解码器从编码器下载(Download)该“乐器”到解码器,以便正确恢复合成声音。可见,MPEG4不是提供一组角MIDI音乐标准中的“乐器”。而是提供了一个可随时扩充的“管弦乐团”,因此,其可“演奏”乐谱自然更加丰富多彩。
4.4视觉对象的编码
同样,MPEG4也支持对自然和合成的视觉对象编码。合成的视觉对象如2D、3D动画,人的面部表情动画等,这些合成图像单独编码,不仅可有效压缩,而且还便于操作。
对自然视觉对象的编码,也是MPEG4的重点。比对于静止图像,MPEG4采用零树小波算法(Zerotree WAV eletalgorithm)以提供高压缩比,同时还提供多达11级的空间分辨率和质量的可伸缩性。
对于运动视频对象的编码,MPEG4采用了如图(2)所示的编码框图,以支持图象的编码。
可见,MPEG4为了支持基于对象的编码,引入了形状编码模块。为了支持高效压缩,MPEG4仍然采用了MPEG1、MPEG2中的变换、预测混合编码框架。
对于一般的任意形状的视频对象,MPEG4编码后的码流结构见图3:
对于实时的极低比特率的应用,如可视电话,MPEG4视频编码采用VLBV(极低比特率视频)核进行编码,类似于ITU的H 263直接对矩形视频编码,而不采用形状编码模块。因而,编码后的码流结构见图4:
可见,MPEG4采取了向前兼容H263,同时,也提供了一些高层特性,如基于内容的编码。其扩充的方式如图5:
与此同时,MPEG4还支持有误码信道传输下的健壮性,提供了更好的同步和误码恢复机制。
4.5场景描述及其它
场景措述主要用于描述以上单个的AV对象如何在一具体AV场景座标下的组织与同步等问题。同时还有AV对象和AV场景的知识产权保护等问题。最后,就是我们如何欣赏MPEG4为我们提供的丰富多彩的AV场景了。
5.MPEG 4的框架(profile) 级别(level)及其应用
MPEG4的应用面非常的广泛,既可以用于高质量的数字电视,又可以应用于极低码率的移动多媒体通信系统,还可以以交互的方式工作。为了满足各种各样的应用需求,MPEG4提供了大量的、丰富的音频视频对象的编码工具,以工具包的形式出现在标准中。在实现MPEG4标准时,可以根据应用领域的不同,选择使用适当的视频、音频、图形和场景描述工具子集,这样也可以提高编、解码器的工作效率。框架就是针对特定的应用确定要采用的编码工具,它是MPEG4提供的工具集的一个子集。不同框架的码流句法结构各不相同,而且各视频、音频和图形框架中支持的对象类型各不相同。每个框架又有一个或多个级别来限制计算的复杂度。MPEG4针对不同的媒体内容和场景描述定义了4类框架:视频框架、音频框架、图形框架、场景描述框架。在选用不同的框架时各部分是相互独立的。
由于其丰富的工具集,而且通过下载,MPEG4标准还将支持使用不在标准中出现的工具、算法和轮廓,所以MPEG4能满足多种多样的应用需求,如:
① 实时通信(realtime communications);
② 远程监控(surveillance);
③ 移动多媒体(mobile multimedia);
④ 基于内容的存储与检索(content based storage and retrieval);
⑤ 网上视频流(streaming video on the Internet);
⑥ 数字调幅广播(digital AM broadcasting);
⑦ 广播(broadcast);
⑧ 电影电视后期制作(studio and television post production);
⑨ DVD;
⑩ 虚拟会议(virtual meeting)。
目前MPEG4的产品已在市场上出现了,网上也有许多视频文件是以MPEG 4的格式压缩的。国外,东芝公司最早推出了首款基于MPEG4视频流系统Mobile Motion套件,包括了MPEG4产品、服务器和播放软件,用于Internet/Intranet上构建视频和多媒体应用,支持CIF和QCIF,在比特率为6~384Kbs时每秒可处理30帧视频数据。国内,上海汉唐科技有限公司也推出了他们自己的基于网络的实时MPEG4流媒体播放器,出现了具有内建MPEG4的手机。
6.MPEG4展望
MPEG-4这个标准支持新的方法进行通信,存取和处理影音数据。人们越来越趋向使用无线电互动式通信。影音通信正出现许多新的要求,现有标准并不能符合这些要求。新标准的一个特点就是用户能根据内容存取和处理视频信号。过去几年,曾经使用先进的编码技术,例如根据目的物来编码,进行过大量研究工作。在这些技术中,有些技术可能会在MPEG-4中使用。由于这种新标准的发展还处在初级阶段,所以还没有决定这样做的特定方法。不过满意的编码体制将是能够识别画面中的目的物以及能够追踪这些物体的移动物。人们希望MPEG-4将容纳多媒体的许多新用途,例如从联机文件库获取资料。不过,人们还不能期望近期批准MPEG-4标准,因为还有一段很长的路要走。
MPEG4的应用将是广泛而深远的。这一新的工业标准将至少可以应用于以下场合:
1)实时多媒体监控。
2)极低比特率下的移动多媒体通信
3)基于内容存储和检索多媒体系统
4) Internet/Intranet上的视频流与可视游戏
5)基于面部表情模拟的虚拟会议
6)DVD上的交互多媒体应用
7)基于计算机网络的可视化合作实验室场景应用
8)演播室和电视的节目制作
参考文献:
1. MPEG标准及其应用 / 余兆明等编著. - 北京: 北京邮电大学出版社, 2002
2. 多媒体技术及应用/彭波等编著. - 北京: 机械工业出版社, 2006
3. 多媒体技术/张瑜编著. -北京: 清华大学出版社 2004
4. 多媒体技术与系统应用 / 曹加恒主编; 曹加恒等编著. - 武汉: 武汉大学出版社, 1997
5. 多媒体通信 / 陈廷标主编. - 北京: 北京邮电大学出版社, 1997.1
6. 多媒体技术及其应用 / 何圣静编著. - 北京: 北京理工大学出版社, 1995.10
7. 多媒体技术览要 / 李伯成,柳宝堂编著. - 西安: 西安电子科技大学出版社, 1997
8. 多媒体计算机技术及应用 / 肖波编著. - 北京: 北京大学出版社, 1997
9. 多媒体数据压缩标准及实现 / 马小虎等编著. - 北京: 清华大学出版社, 1996
|