1.3 多媒体技术
1.3.1 多媒体与多媒体技术基础知识
1.媒体的分类
多媒体译自英文“multimedia”,它是由Multiple和Media构成的复合词。Multiple的中文含义是“多样的”,Media是Medium的复数形式,其中文含义是“媒体”。为了引入多媒体这个概念,首先应当明了什么是媒体。媒体指的是信息传递和存储的最基本的技术、手段和工具,或者说媒体是信息的存在形式和表现形式,是承载信息的载体。按照国际电信联盟(ITU)电信标准部(TSS)的建议,定义媒体有以下五大类:
(1)感觉媒体(Preception Medium):是指能够直接作用于人的感觉器官(听觉、视觉、味觉、嗅觉和触觉),并使人产生直接感觉的媒体。
人类感知信息的第一个途径是视觉,人们从外部世界获取信息的70%~80%是从视觉获得的;10%左右是通过听觉获得的;第三个途径是通过嗅觉、味觉和触觉,获取的信息量约占10%。目前,计算机可以处理文字、图形、图像、动画和视频等视觉媒体和声音、语言、音乐等听觉媒体,触觉媒体也可以由计算机识别和处理。
(2)表示媒体(Representation Medium):是指为了传播感觉媒体而人为研究和创建的媒体,它以编码的形式反映不同的感觉媒体。它的目的是为了更有效地将感觉媒体从一个地方传播到另一个地方,以便于对其进行加工、处理和应用。例如,生活中的条形码和电报码等,计算机中的文本编码、声音编码、图像编码、动画和视频编码等。
(3)表现媒体(Presentation Medium):是指感觉媒体输入到计算机中或通过计算机展示感觉媒体的物理设备,即获取和显示感觉媒体信息的计算机输入和输出设备。例如,显示器、打印机等输出设备,键盘、鼠标、话筒、数码照相机等输入设备。
(4)存储媒体(Storage Medium):是指存储表示媒体数据的物理设备。例如,硬盘、磁带、光盘、内存和闪存等。
(5)传输媒体(Transmission Medium):是指将表示媒体从一处传到另一处的物理设备,即传输数据的物理设备。例如,电缆、光纤、无线电波的发送与接收设备等。
在使用多媒体计算机时,人们首先通过表现媒体的输入设备将感觉媒体转换为表示媒体,再存放在存储媒体中,计算机将存储媒体中的表示媒体进行加工处理,然后通过表现媒体的输出设备将表示媒体还原成感觉媒体,反馈给用户。可以看出,五种媒体的核心是表示媒体,所以通常将表示媒体称为媒体。因此,可以认为多媒体就是多样化的表示媒体。常见的多媒体有文字、图形、图像、声音、动画和视频等。
ITU对多媒体含义的表述是:使用计算机交互式综合技术和数字通信网技术处理的多种表示媒体,使多种信息建立逻辑连接,集成为一个交互系统。
2.多媒体技术简介
多媒体技术是指能够同时对两个或两个以上的媒体(文字、音频、图形、图像、动画和视频等)进行数字化采集、操作(压缩/解压缩等)、编辑、存储等综合加工处理,再以单独或合成形式表现出来的技术。多媒体技术与计算机技术是密不可分的,具有多媒体处理能力的计算机被统称为多媒体计算机。
目前,多媒体技术正向三个方向发展:一是计算机系统本身的多媒体化;二是多媒体技术与视频点播、智能化家电、网络通信等技术相结合,使多媒体技术进入教育、咨询、娱乐、企业管理和办公自动化等领域;三是多媒体技术与控制技术相互渗透,进入工业自动化及测控等领域。
在不发生混淆的情况下,人们又将“多媒体技术”简称为“多媒体”。
多媒体应用涉及许多相关技术,因此多媒体技术是一门多学科的综合技术。多媒体技术其主要内容有以下几方面:
(1)多媒体网络技术:因特网(Internet)是一个通过网络设备把世界各国的计算机相互连接在一起的计算机网络,人们将其看成是信息高速公路的起点。人们可以通过连入国际互联网,尽情享用其提供的服务和信息资源。因特网上已经开发了很多应用,可分成两类:一类是以文本为主的数据通信,包括文件传输、电子邮件、远程登录、网络新闻和电子商务等;另一类是以声音和电视图像为主的通信,通常把上述两类内容称为多媒体网络技术。
万维网(WWW)亦称Web,是在因特网上运行的全球性分布式信息系统。它的主要特点是将因特网上的现有资源全部通过超链接互连起来,用户能够在因特网上查找到已经建立的WWW服务器的一切站点提供的超文本、超媒体资源文档,这些文档中包括文本、图像、声音、动画、视频等数据类型。
(2)多媒体存储技术:它包括了多媒体数据库技术和海量数据存储技术。多媒体数据库的特点是数据类型复杂、信息量大,而近年来光盘技术的发展,大大带动了多媒体数据库技术及大容量数据存储技术的进步。此外,多媒体数据中的声音和视频图像都是与时间有关的信息,在很多场合要求实时处理(压缩、传输、解压缩),同时多媒体数据的查询、编辑、显示和演播,这些都向多媒体数据库技术提出了更高的要求。
(3)多媒体计算机专用芯片技术:大规模集成电路的发展,使得多媒体计算机的运算速度和内存容量大幅度地提高。
多媒体计算机专用芯片一般分为两种类型:一种是具有固定功能的芯片;一种是可编程的处理器。具有固定功能的芯片,主要用于图像数据的压缩处理,主要的半导体厂商有C-cube公司、ESS公司、SGS-Thomson公司、LSI Logie公司等。可编程的处理器比较复杂,它不仅需要快速/实时地完成视频和音频信息的压缩和解压缩,还要完成图像的特技效果(如淡入淡出、马赛克、改变比例等)、图像处理(图形的生成和绘制)、音频信息处理(滤波和抑制噪声)等功能。目前,这方面的产品已成功地应用于MPC中,主要厂商有:Intel公司、德州仪器公司(TI)、集成信息技术公司(IIT)等。
(4)多媒体输入/输出技术:它涉及各种媒体外设以及相关的接口技术,包括媒体转换技术、识别技术、媒体理解技术和综合技术,简介如下:
①媒体转换技术:它是指改变媒体的表现形式,如当前广泛使用的视频卡、音频卡都属于媒体转换设备。
②媒体识别技术:它是对信息进行一对一的映像过程。例如语音识别是将语音映像为一串字、词或句子;触摸屏是根据触摸屏上的位置识别其操作要求。
③媒体理解技术:它是对信息进行更进一步的分析处理和理解信息内容。如自然语言理解、图像理解、模式识别等。
④媒体综合技术:它是把低维信息表示映像成高维的模式空间的过程,例如语音合成器就可以把语音的内部表示综合为声音输出。
(5)多媒体系统软件技术:它主要包括多媒体操作系统、多媒体数据库管理技术。当前的操作系统都包括了对多媒体的支持,可以方便地利用媒体控制接口(MCI)和底层应用程序接口(API)进行应用开发,而不必关心物理设备的驱动程序。
(6)多媒体数据压缩技术:数据压缩技术(包括算法及实现、视频及音频压缩、硬件、国际标准化、专用芯片等)的发展,使得实时传输大容量的图像数据成为可能。
3.多媒体技术的基本特性
多媒体技术主要有以下五个方面的基本特性:
(1)多样性:多媒体技术的多样性是指多媒体种类的多样化。多媒体的多样化使计算机所能处理的信息空间扩展和放大,不再局限于数值、文本,而是广泛采用图像、图形、视频、音频等信息形式来表达思想。使人类的思维表达不再局限于线性的、单调的、狭小的范围内,而有了更充分、更自由的余地,即计算机变得更加人性化。多媒体就是要把计算机处理的信息多样化(或称多维化),使之在信息交互过程中有更广阔和更自由的空间。
(2)集成性:是指不同的媒体信息有机地结合到一起,形成一个完整的整体。这种集成性主要表现在以下两个方面:
①多种信息媒体的集成:各种信息媒体应该成为一体,而不应分离,尽可能地实现多通道的输入、多媒体信息的统一存储与组织、多媒体信息合成、多通道输出等各方面。总之,不应再像早期那样,只是使用单一的形态进行获取和理解信息,而应更加看中媒体之间的关系及其所蕴涵的大量信息。
②处理这些媒体设备的集成:多媒体的各种设备应该成为一体。从硬件来说,应该具有能够处理多媒体信息的高速及并行的CPU系统,大容量的存储、适合多媒体多通道的输入输出外设、宽带的通信网络接口。对于软件来说,应该有集成一体化的多媒体操作系统、适合于多媒体信息管理和使用的软件系统及创作工具、高效的各类应用软件等。这些还要在网络的支持下,集成构造出支持广泛信息应用的信息系统。
多媒体的集成性,一是体现在信息载体的集成,二是体现在存储信息实体的集成。
(3)交互性:它是指人们可以介入到各种媒体的加工、处理过程中,从而使用户更有效地控制和应用各种媒体信息。交互性可以增加对媒体信息的注意和理解,延长信息保留的时间。电视机会有图像、声音和文字显示,但观众只能被动收看,因此人与电视节目之间的关系是非交互式的。交互式工作是计算机固有的特点,人们可以使用键盘、鼠标、触摸屏、话筒等设备,通过计算机程序去控制各种媒体的播放。人与计算机之间,人驾驭多媒体,人是主动者而多媒体是被动者。
交互性一旦被赋予了多媒体信息空间,便会带来巨大作用。从数据库中检索出某人的照片、声音及其文字材料只是多媒体交互性的初级应用;通过交互特征使用户介入到信息过程中(不仅仅是提取信息),则为中级应用;当人们在一个与信息环境一体化的虚拟信息空间中遨游时,才达到了交互应用的高级阶段。这就是虚拟现实(Virtual Reality,VR),也是当今多媒体研究中的热点之一。
(4)实时性:音频与视频信息都是与时间有关的媒体信息,在加工、处理、存储和播放它们时,需要考虑时间因素,应保证它们的连续性。这就需要对存取数据的速度、压缩和解压缩的速度、播放速度提出很高的要求,这就是多媒体的实时性。
1.3.2 媒体的数字化
1.模拟音频和数字音频
(1)模拟音频:声音是由物体的振动产生的。物体的振动引起空气的相应振动,并向四周传播,当传到人耳时又引起耳膜的振动,通过听觉神经传到大脑,即可使人感到声音。这种声音的振动经过话筒的转换,可以形成声音波形的电信号,这就是模拟音频信号。模拟音频信号可以以磁的形式存储在磁带中。
(2)数字音频:数字音频是由许多0和1组成的二进制数,可以以声音文件(WAV或MIDI格式)的形式存储在磁盘中。例如:使用声卡的A/D转换器(模拟到数字转换器),将模拟音频信号进行采样和量化处理,即可获得相应的数字音频信号。
2.数字音频的要素
数字音频的质量与它的3个要素有关。3个要素及其含义如下:
(1)采样频率:采样就是在将模拟音频转换为数字音频时,在时间轴上每隔一个固定的时间间隔对声音波形曲线的振幅进行一次取值,如图1-3-1所示。采样频率就是每秒钟抽取声音波形振幅值的次数,单位为Hz。显然,采样频率越高,转换后的数字音频的音质和保真度越好,但生成的声音文件的字节数越大。目前常采用的标准采样频率有11.025kHz、22.05kHz和44.1kHz。
图1-3-1 音频采样
(2)量化位数。它是在将模拟音频转换为数字音频时,采样获得的数值所使用的二进制位数。例如:量化位数为16时,采样的数值可以使用216=65536个不同的二进制数之一来表示。量化位数越高,转换后的数字音频的音质越好,声音的动态范围越大,但生成的声音文件的字节数越大。所谓声音的动态范围就是重放后声音的最高值与最低值的差值。目前常采用的量化位数有8位、16位和32位等。
(3)声道数。声道数就是指所使用的声音通道的个数。声道数可以是1或2。为1时,表示是单声道,即声音有一路波形;为2时,表示是双声道,即声音有两路波形。双声道比单声道的声音更丰满优美,有立体感,但生成的声音文件的字节数要大。
3个要素不但影响了数字音频的质量,而且决定了生成的数字音频文件的数据量。计算生成的数字音频文件数据量大小的公式为:
WAV格式的声音文件的字节数/秒=采样频率(Hz)×量化位数(B)×声道数/8
其中,采样频率的单位为Hz,量化位数的单位为位。除以8是一个字节为8位。例如:采样频率为44.1kHz,采样点的量化位数为32,录制了4s的双声道声音,获得的WAV格式声音文件的大小为(44100×32×2×4)/8=1411200B。
3.数字音频文件的种类
数字音频文件的种类很多,主要有WAV波形、MIDI、MP3、VOC、VOX、PCM、AIFF、MOD和CD唱片等数字音频文件。在多媒体应用中主要使用下述数字音频文件:
(1)WAV波形数字音频文件:它是Windows中使用的标准数字音频文件,其扩展名为“.wav”。该数字音频文件保存的是模拟音频经声卡采样和数字化后的数字音频数据。WAV波形数字音频文件较大,实际使用中,常常需要将它进行压缩使用。例如,在Authorware多媒体设计软件中,可将WAV波形数字音频文件转换为扩展名为“.swa”的数字音频压缩文件,然后再使用。
(2)MIDI数字音频文件:MIDI是Musical Instrument Digital Interface(乐器数字化接口)的缩写。它是由世界主要乐器制造厂商建立起来的一个数字音乐国际标准,用来规定计算机音乐程序、电子合成器和其他电子设备之间交换信息和控制信号的方法。它可以使不同厂家生产的电子音乐合成器互相发送和接收彼此的音乐数据。
MIDI格式的声音文件记录的不是数字化后的声音波形数据,而是一系列描述乐曲的符号指令,这些符号指令表示了音乐中的各种音符(包含按键、持续时间、通道号、音量和力度等信息)、定时和16个通道的乐器定义。因此,相同音乐的情况下,MIDI格式文件比WAV格式文件要小得多。播放MIDI音乐时,根据MIDI文件中的指令进行播放。
MIDI采用合成声音技术。常见的合成声音技术有调频FM技术和波表技术。调频FM技术利用两个或多个正弦声波模拟合成各种自然声音;波表技术是预先将各种自然声音(主要是乐器的声音)录制下来,并存储在音频卡的存储器当中。
MIDI音乐的播放有两种方法:一种是采用电子音乐设备,另一种是由音序器送到合成器,还原成模拟音频后,通过扬声器(喇叭)发出声音。在计算机中,可以使用MIDI音乐播放器进行播放,例如使用Windows中的媒体播放器就可以播放MIDI音乐。
(3)MP3数字音频文件:MP3是MPEG Layer 3的简称,它是经过高压缩比(可达12:1)压缩后的数字音频文件。MP3数字音频的音质与高保真的CD音乐的音质相差很小,是目前非常流行的一种数字音频文件。因为MP3数字音频文件是高压缩比的数字音频文件,在播放时需要经过解压缩运算,所以为了达到好的播放效果,对计算机的配置要求比较高,不过目前购置的计算机一般都可以满足它的播放与制作要求。目前,美国网络技术公司已开发出了新的MP4数字音频格式,它的压缩比可达15:1。
4.图像的数字化
图像是多媒体中最基本、最重要的数据。图像是指自然界中的客观景物通过某种系统的映射,使人们产生视觉的感受。例如,照片、图片和印刷品等。在自然界中,景和物有两种形态:一种是动态,一种是静态。静态的图像称为静态图像,活动的图像称为动态图像。静态图像根据在计算机中生成的原理不同,可分为矢量图形和点阵图像。动态图像可分为视频(Video)和动画,习惯上将通过摄像机拍摄的动态图像称为视频,而用计算机或绘画的方法生成的动态图像被称为动画。
(1)静态图像的数字化:一幅图像可以看成是由许多小点(像素)组成的,因此它们的数字化通过采样和量化就可以得到。图像的采样就是采集组成一幅图像的点信息。量化就是将采集到的信息转换成相应的数值。每个像素的数值表示该像素的颜色和其他属性等信息。存储图像像素颜色信息的二进制数的位数叫颜色深度,如果是3位二进制数,则可以表示8种不同的颜色,因此8色图像的颜色深度是3。
(2)动态图像的数字化:连续的图像变化每秒超过24帧画面以上时,根据视觉暂留原理(一幅图像消失后,会在视网膜上滞留几毫秒),人眼无法辨别单幅的静态画面,看上去是平滑连续的视觉效果,这样连续的画面叫做动态图像,即动画或视频。
像对静态图像那样,对动态图像中的每一帧静态图像进行采样和量化,即可得到动态图像的数字化。
(3)视频和视频技术:视频泛指将一系列静态影像以电信号方式加以捕捉、记录、处理、存储、传送与重现的各种技术。视频技术最早是为了电视系统而发展,但现在已经发展为各种不同的格式以利消费者将视频记录下来。网络技术的发达也促使视频的纪录片段以流媒体的形式存在于因特网之上并可被计算机接收与播放。视频与电影属于不同的技术,后者是利用照相术将动态的影像捕捉为一系列的静态照片。
5.数字图像的种类
数字图像(这里是指静态图像)有点阵图(也叫位图)、矢量图两种类型。通常把点阵图称为图像,把矢量图称为图形。
(1)点阵图:它由许多颜色不同、深浅不同的像素点组成。像素是组成位图的最小单位,许多像素构成一幅完整的图像。在一幅(也叫一帧)图像中,像素越小,数目越多,则图像越清晰。例如:每帧电视画面大约有40万个像素。当人眼观察由像素组成的画面时,为什么看不到像素的存在呢?这是因为人眼对细小物体的分辨力有限,当相邻两个像素对人眼所张的视角小于1.5'时,人眼就无法分清两个像素点了。图1-3-2左图是一幅在Photoshop软件中打开的点阵图像。用放大镜工具放大后的点阵图像如图1-3-2右图所示。可以看出,放大后的点阵图像明显是由像素组成的。
图1-3-2 位图图像
点阵图图像文件记录的是组成图像的各像素点的色度和亮度信息,颜色的种类越多,图像文件越大。通常,点阵图可以表现得更自然和更逼真,更接近于实际观察到的真实画面。但图像文件一般较大,在将它放大、缩小和旋转时,会产生失真。
(2)矢量图:它由一些基本的图元组成,这些图元是一些几何图形,例如点、线、矩形、多边形、圆和弧线等。这些几何图形均可以由数学公式计算后获得。矢量图的图形文件是绘制图形中各图元的命令。显示矢量图时,需要相应的软件读取这些命令,并将命令转换为组成图形的各个图元。由于矢量图是采用数学描述方式的图形,所以通常由它生成的图形文件相对比较小,而且图形颜色的多少与文件的大小基本无关。在将它放大、缩小和旋转时,不会像位图图像那样产生失真。它的缺点是色彩相对比较单调。
6.图像文件格式
对于图形图像,由于记录的内容和压缩的方式不同,其文件格式也不同,文件扩展名也不同。每种格式的图形图像文件都有不同的特点、产生背景和应用范围。
(1)BMP格式:它是Windows和OS/2系统下的图像文件格式,它的结构较简单,每个文件只存放一幅图像,支持1~24位颜色深度,可以使用RGB颜色、索引颜色、灰度和位图等颜色模式,而且与设备无关。对于压缩的BMP格式图像文件,压缩比适中,压缩和解压缩较快,对于非压缩的BMP格式,是一种通用的格式,但文件较大。
(2)JPG格式:是用JPEG压缩标准压缩的图像文件格式,这种格式的图像文件不适合放大观看和制成印刷品。由于它的压缩比较大,文件较小,所以应用较广。JPG图像文件格式支持RGB颜色、CMYK颜色等颜色模式,不支持Alpha通道。
(3)GIF格式:它广泛应用于通信领域和Internet的网页文档,适用于各种计算机平台,各种软件一般均支持这种格式。它能够将图像存储成背景透明的形式,可以将多幅图像存成一个图像文件,形成动态效果。
(4)TIFF格式(TIF):它最初用于扫描仪和桌面出版业,是一种工业标准格式,被许多图形图像软件支持。它支持包含一个Alpha通道的RGB颜色、CMYK颜色、Lab颜色、索引颜色、灰度和位图等颜色模式,可以设置透明背景。这种格式有压缩和非压缩两种,非压缩的TIF格式可以独立于软件和硬件环境。
(5)PNG格式:它是为了适应网络传输而设计的一种图像文件格式。在大多数情况下,它的压缩比大于GIF图像文件格式,利用Alpha通道可以调节图像的透明度,可提供16位灰度图像和48位真彩色图像。它的一个图像文件只可存储一幅图像。
(6)PSD格式:它是Adobe Photoshop图像处理软件的专用图像文件格式。它是唯一支持全部颜色模式的图像文件格式。另外,可以将不同图层分别存储,这样便于图像的修改和制作各种图像的特殊效果。PSD格式保存的信息较多,因此文件也较大。
(7)PDF格式:它是Adobe公司推出的专用于网络的图像格式。采用RGB、CMYK和Lab等颜色模式的图像都可以存储成该格式。
(8)TGA格式:它支持任意大小的图像,颜色可以为1~32位,具有很强的颜色表达能力。它已经广泛应用于真彩色扫描和动画设计领域,是国际通用的图像文件格式。
(9)WMF格式:应用广泛,绝大多数Windows应用程序都支持这种格式。
(10)DXF格式:它是一种矢量格式,大多数绘图软件支持这种格式。
1.3.3 多媒体数据压缩技术和压缩方式
1.多媒体数据压缩技术
一幅640×480分辨率的彩色图像,数据量约为7.37Mbit/帧[(640×480)像素×3基色/像素×8bit/基色=7.3728Mbit],如果是视频(运动图像),要以每秒30帧的速度播放,则视频信号的传输速度为221.2Mbit/s。如果存放于650MB光盘中,只能播出23s,由此可见,视频数字信号数据量大,要求传输速度快。对于音频信号,若达到电话声音质量,每秒采样数据8bit,若达到高保真(Hi-Fi)立体声(如CD唱盘),则每秒采样数据44.1KB,若量化为16bit两通道立体声,则650MB光盘只能存放1小时的数据(44.1kHz×16bit×2声道=1.4Mbit/s),其传输速度为1.4Mbit/s。可见,数据压缩技术是多媒体计算机走向实用化的关键。视频和音频信号因其不仅数据量大而需要较大的存储空间,还要求传输速度快。如对于总线传输速率为150kbit/s的IBMPC或其兼容机,处理上述视频信号必须将数据压缩到原大小的1/200,否则无法实现。因此,视频、音频信号的数据压缩与解压缩是多媒体的关键技术。
虽然声音和图像信息数字化后都需要进行压缩处理,但其中矛盾最为突出的是图像信息的压缩,特别是视频图像信息的压缩。图像存在大量的冗余,可以进行压缩。压缩可以分为两种类型:一种是不失真的无损压缩,另一种是有失真的有损压缩。不失真的无损压缩固然受到欢迎,但其研究应用难度较大。
(1)无损压缩:它是利用数据的统计冗余进行压缩,又称为可逆编码,其原理是用同级压缩数据中重复数据的出现次数来进行编码,解压缩是对压缩的数据进行重构,重构后的数据和原数据完全一样。无损压缩的压缩比较低,一般为2:1~5:1,它广泛用于文本数据、程序和重要图像的压缩。WinRAR压缩软件就是按照无损压缩原理设计的,可以压缩任何类型的文件。
(2)有损压缩:也称为破坏性压缩,它是以丢弃一部分信息为代价,保留最主要的、最本质的信息,同时获得较高的压缩比。有损压缩后的数据不能够完全还原成压缩前的数据。它的压缩比可以达到几十到几百,常用于音频、图像和视频数据的压缩。
2.JPEG和MPEG压缩方式
目前最流行的关于压缩编码的国际标准有:彩色静止图像的压缩方式JPEG;彩色运动图像的压缩方式MPEG;电视电话/会议电视编码方式H.261。
(1)JPEG标准:JPEG标准主要适用于压缩静止的彩色和单色灰度的图像,一般用于彩色打印机、灰度和彩色扫描仪、部分型号的传真机。JPEG标准分为3级:
①基本压缩系统。
②扩展系统:它在基本系统上增加了算术编码、渐进构造等特性。
③分层的渐进方法:它通过滤波建立了一个分辨率逐渐降低的图像序列。
JPEG标准采用了混合编码方法。其基础是离散余弦变换(DCT)和霍夫曼(Huffman)变换,这是一种失真的(又称有损的)压缩算法,即图像质量和压缩比有关,压缩比越大,图像质量损失越大。由于JPEG算法中要进行DCT变换,涉及大量计算,因此需要配备专用的快速JPEG信号处理器,以减轻计算机CPU的负担。
(2)MPEG标准:MPEG英文原意为“运动图像专家小组”。由于ISO/IEC11172压缩编程标准是由该运动图像专家小组1990年提出并制定的,因此人们通常将该标准称为MPEG标准。该标准又分为1/2/4,其中MPEG-1用于普通电视,MPEG-2用于数字电视,MPEG-4为多媒体应用标准。MPEG标准具体包含三部分内容:MPEG视频、MPEG音频和MPEG系统(视频与音频的同步)。
MPEG视频是标准的核心部分。它采用帧内和帧间相结合的压缩方法,以离散余弦变换(DCT)和运动补偿两项技术为基础,最终获得了100:1的数据压缩率(MPEG-1)。
MPEG音频压缩算法则根据人耳的屏蔽滤波功能,利用了音响心理学的基本原理,即“某些频率的音响在重放其他频率的音频时便听不到”这样一个特性,将那些人耳完全听不到或基本上听不到的多余音频信号压缩掉,最后使音频信号的压缩比达到8:1或更多,同时音质逼真,与CD唱片可以媲美。
按照MPEG标准,MPEG数据流包含系统层和压缩层数据。系统层含有定时信号、图像和声音的同步信息、多路分配等信息,压缩层包含经压缩后的实际的图像和声音数据,该数据流将视频、音频信号复合及同步后,其数据传输率为1.5Mbit/s(MPEG-1)。其中压缩图像数据传输率为1.2Mbit/s、压缩声音数据传输率为0.2Mbit/s。