在传送数字电视的过程中,音频与视频的延迟不是一个新的问题。电视节目起始时,音频与视频是同步的,然而当节目最终分发信号时,音、视频以不同的方式、路径被传送和处理,因而它们经过了不同的处理延迟,导致了令人讨厌的视频现象——“唇同步错误”。大多数唇同步错误来自于演播室、卫星链接、帧同步设备以及数字视频特技机(DVEs)等所产生可预见的延迟,它们可以通过在信号的路径上增加固定的延迟来补偿。随着MPEG流节目的加入,数字视频信号路径中,潜在的延迟不断增加,这个视频信号受制于多重的编、解码压缩处理,所有的延迟产生累加,更多可变的延迟来源于复杂视频特技和音频特效处理,混合信号延迟的结果更加显著,到了足以使观众抱怨的程度。在1994年国际电讯同盟(IUT)成立了一个组织来调查A/V时基误差,该组织开发了试验条件和提议了一个计划来测试唇同步错误,1995年公布了测试结果,并于1998年推荐ITU-RBT.1359-1NT发布,对于电视观众,声音时间误差可靠察觉的阈值范围是:声音超前45ms,滞后125ms;可接受的听觉时间误差阈值范围是:超前90ms或滞后185ms;听觉时间误差从可察觉到不可接受的时间差是:声音超前45ms,滞后60ms。
一、人的视觉与听觉与音视频延迟属性
人们习惯于认为在看见某事件发生之后,才听到与该事件相关的声音,是由于声音的速度慢,而光的速度快,这种自然差别的一个典型例子是:在听到棒球被打击的声音之前,我们就已经看到了棒打击球的动作。然而A/V延迟归因于视频处理的结果:电视观众经历了在看见相关行为发生之前,就已经听到了该事件结果的声音,它是不自然的延时视频的知觉。在过去的多年中,我们对电视寄予了诸多的希望,包括增加通道容量,改进音、视频的质量,主要是凭借新技术的数字处理能力,然而影响电视节目质量的一个因素始终存在,即我们常说的唇同步问题,但是唇同步错误在模拟设备中出现已经多年了,在数字处理的数字设备中,甚至出现了更大的挑战。它正在变成电视节目制作与分配处理中的普遍问题。路由、分配增加了信号处理的复杂性,多通道音、视频信号的数字处理已经导致了广播设备系统内,维护音视频同步的问题增加,从小处而言,这些设备的某些部分产生了不明显的音视频延迟,从而在分配通道的终端,积聚形成了明显的错误,因此有必要在整个系统内多个点监测音频对视频的延迟,通常情况下,只要音视频信号被分离处理,在广播网内就会引入音频对视频的延迟,因为高带宽的数字处理,数字视频信号可以占有数场时间来产生一个输出,然而音频信号较之视频信号具有较低带宽,它只需很少的处理时间来产生一个输出,因而在广播设备的系统设计上,应该考虑到这个处理的时间差,以便在音频路径内插入固定的延迟,以除去音频超前视频的状况,典型地,一个熟练操作者通过观察与监听节目素材来确定是否存在错误,为了做到这点,操作者必须在图像中寻找可视的线索,来确定所听到的声音是否与该图像实时内容相关以及是否同步。最常见的方法就是:听一个人说话的同时,去观察他的嘴唇的运动来检验音视频是否同步,然而当在图像中没有可视的线索来确定唇同步时,诸如嗓音,对操作者而言就很难确定唇同步错误。
二、传统的方法及处理
传统测量唇同步是一个相当复杂的问题,传统的解决方法需要同时产生与获得音视频信号和它们相关时间分析,然而因为实况音视频节目的随机与动态性,传统的测试方法只能工作在“离线”模式,使用专门的音视频测试信号插入节目链的“上游”以便后期相对时间的分析。“离线”模式所需的测试信号由全场视频基础信号组成,它在图像的最黑部分与最白部分之间同步地循环,并带有一个在图像的最白部分开启;在图像的最暗部分关闭的尖叫的声音音调,以提供一个优良的音频对视频的校正参考。