孙季川:各位大家下午好!今天非常高兴能有这个机会在这里跟大家谈一下电视字幕和图形的新技术和我们公司这几年做的工作,之所以选这个题目是我们感觉到现在电视图文技术,特别是国内这个行业正在经历技术的革新,或者说要迎来新的时期,我的报告大概有两大部分,一开始先说一点电视图文字幕、图形,三维图形的技术,再说一下新奥特公司近一两年来有些比较新的研发成果,特别是一些产品对电视行业需求的应对。
先说一下图文和字幕的重要性,没有太多要说的,现在大家看电视节目,包括制作电视节目,没有哪个节目没有字幕和图形,而且是越来越好,越来越花,从制作来讲,基于计算机的字幕和图形技术15-20年前就出现了,应该说AVIT技术是进入广电的突破点,若干年前的字幕我们简单回顾一下。我试图做十几年前的电视字幕的样子,其实很困难了,出点锯齿和马赛克的效果都很难了。这个画面是10年前就已经进入的第二个阶段,比较成熟了,一直到现在很多电视节目仍然在用这一类的图形和字幕,而且用的很好,比较成熟。
我们这个行业要经历一种变革了,但这种变革是什么呢?我想给大家演一段小的视频,今天谈点技术,谈点规划,也给大家看一些图和片子。这段片子是在国外电视行业,国外电视台现在电视图文是什么状况,这是CNN的片头,他们日常播出都是这样的。这里三维的图形场景非常多,而且不是作为真正的简单虚拟演播室来用,是贯穿在图形、字幕等等方面,这是他们在报道巴格达的一件事儿,所有三维场景,还有直升机和三维地形的模拟,楼的模拟,他们说他们去袭击哪个地方了,后面这架飞机是假的,这个飞机是说我们有一个新闻事件发生了以后模拟一下,下面紧接着一艘船,油轮沉了,事件发生过程是什么样,最好的办法是做三维动画。
体育应用里刚才我们看到泳道上出现123的字幕,所有都是虚拟体育的做法,把虚拟演播室的技术用在了泳池边上,所有的图文和动画都跟着摄像机在走,如果看世界田径锦标赛可以看到田径跑道也是一样的,下边可以看到足球场。这是很典型的三维体育字幕。这是非常典型的把视频二维平面图形,包括三维的场景整个融合在一块儿,这是其他的三维场景。天气预报是用的非常多的系统,云彩、地形、地球、山体等等,这是比较平面的天气预报,这是作为虚拟演播室和虚拟图文在内的天气预报,当然还有很多信息的显示。后面两个大屏幕上,这是一个纯粹的虚拟演播室的应用,这上面有很多二维平面图文,实际上是非常好的三维和二维的结合,而且这些数字在变,都跟数据库连在一块儿,老头是在讲选举的过程。
同样的技术用在财经节目里也一样是可以的,这是比较通常的字幕,这块是财经所有的数据,都是从数据库出来以后实时更新的,而且所有的渲染,右边这块是粒子的效果,不断地流动,整个画面看起来非常绚丽和漂亮,传递很多的信息。典型虚拟演播室的应用,前面看到所有画面里都有非常多的虚拟演播室的影子,很多三维图形当背景,包括虚拟演播室里前景所有的字幕和图文也都在场景之内。
刚才看的这段片子给我们几个方面的启发,一是现在字幕图形的应用,当然效果不用说了,应用的范围非常广,涉及电视台制作的方方面面,包括新闻的直播、演播室,所有的综艺、体育、财经、气象等等都涉及在内,包括影视剧的制作和虚拟演播室的应用都可以,在这种岗位做制播可以,做后期可以,在编辑域、演播室和播出线全部含在集中,它的重要性非常大。
国内电视图文技术的需求,主要是随着技术不断地进步我们感觉主要有三点,一是图文播出的效果需要大幅度的增强,咱们国家的电视字幕做了十几年,为什么我们说要经历一种变革,我们感觉效果需要非常大幅度的提高,刚才片子里都在跑的东西,我们有很多电视台已经开始了这方面的实践,但是在整个行业之内还需要有更大的推动力来做这件事情。第二是针对专业的频道或者是专业的栏目要做一些专业化的包装工作,当然通用的字幕机打天下的时代早就过去了,需要有很多专用软件、专用的系统工具,应用不同的方面来做工作。三是高清不管来的早还是来的晚,总是要来的,高标清的兼容在电视图文方面也是非常大的要求。对于国内的电视机构来讲,我们觉得还有一种是2008年奥运会要在北京召开,所以电视机构总是要做很多这方面的报道,参与整个工作,所以我们觉得这方面也会有些新的需求。
发展的趋势,发展趋势在片子里已经盘的非常清楚,最重要的趋势就是三维实时的渲染和二维平面的图形,包括视频要有非常好的结合,而且渲染质量非常高,而且要支撑各种各样的图文应用,不像以前截然分开,字幕机是字幕机,虚拟演播室是虚拟演播室,主要要有非常统一的平台,基于三维引擎的平台做这件事情,从技术上来讲如果有下一代电视图文平台的话,这将会是它最大的核心技术和来点。说到计算机三维渲染还是得看点技术,大厦不能建在沙滩上,总要有比较稳固的技术,我们最大的基础是近年来计算机实时的三维渲染技术不断地进步,计算机的三维渲染技术不是什么特别新的东西,但实时性是很大的瓶颈,现在我们所说的技术进步主要是体现它高质量的同时还是实时的。
首先是一种全程的硬件化,二是在硬件当中有很好的编程能力,硬件不等于把它用死,还有很好的编程能力,图形处理器GPU的发展,二是驱动GPU总得有软件,一个是微软的D3D,一个是业界联盟构成了OpenGL,他们合在一块儿整个技术体系体现在硬件化和并行越来越多,渲染的东西越来越快,质量越来越好。
三维渲染技术的发展,第一代的技术是把CPU里的很多运算放到GPU里,让GPU承担更多的工作,把CPU腾出来,左下角的图本来有很多几何运算等等都在CPU里做,现在把它一并放在GPU里做,这是第一代GPU出现的标志,在1999年。第二代的技术是光让GPU做事情不够,还得让它做的比较好,主要是体现在两点一是并行处理,里面渲染变的很多,还有一种硬件可编程,第一代GPU没有太多编程的能力,渲染管线是死的,出的效果也比较死,把编程效果放进去以后,你编一点我编一点,最后这个效果会变得非常灵活流畅,非常多样性,而不是很死的东西。第三代的技术主要是大幅度提高编程的能力,它跟第二代从质上来讲没有特别大的区别,主要是在量级上很大的提高。编程能力增加以后,这个图里光影的效果,如果拿镜头拍可能很容易就产生了,拿计算机实时渲染是很大的负担。第四代技术是2005、2006年出的,在硬件上有很大的更新,配合的软件也有很大的更新,首先渲染的速度提高了很多,比如渲染的时候可能要切换很多的状态,现在状态不用切换了,节省很多时间,里面着色的流水线还有自动的均衡负载了,负载均衡非常重要,对小小的芯片也是一样的,这么一块地方老在工作,另外一块地方老闲着的话肯定不是一件好事,所以负载均衡上做的比以前好得多。
同时硬件各种指标,比如说硬件的计算器能处理的纹理数量、大小等等指标在翻倍增长,有的增长几十倍,有的增长一百多倍,所以它的效果是画面可以做的更精细。还有一点它把更多的东西放到GPU里算了,原来CPU算的东西,比如像几何顶点,以前比较复杂的几何顶点的处理现在都放在GPU里,像爆炸、毛发、火焰等等很容易渲染出来,最后是什么效果?我们要做到实时的渲染出现电影一样的效果。在前三代GPU的运算里,像这么复杂的一张图,有非常多的细节,有很多的水波和光纹,这个是比较困难的,但是在第四代的技术里做这张图很快,而且对于应用开发的人来讲也是比较容易的。
电视的图文发展,看一下国外同行业的,我做了一下总结,大概有几点。首先做这个事儿的公司比较多,业界这方面的公司几乎无一例外的都在干这方面的工作,技术水平确实比较好,三维渲染非常多,动态的效果也非常好,当然字幕和虚拟场景要合带一块儿,各种各样的应用,气象、资讯、体育转播都做的很漂亮。最后一点是跟渲染本身没有太大关系,但是很大的特点,就是设备联通和遥控能够飞机强。
我们应该做些什么事儿,现在计算机和电视的图形技术都在快速的发展,国外的设备已经进到国内市场,有一部分大台都买了国外公司的产品,比如欧洲公司的产品,而且用的很好,大家都看到了它的效果。说明一件事,国内用户对这方面新型的图形设备有很迫切的需求,我们还是相信国内的企业在这方面肯定要感受到一定的压力,同时这方面需求里还要提到2008年的奥运会,所有这些事情都决定了我们必须要做一些事情,不能只看着这件事情任它发展。
新奥特公司做字幕机起家,第一代做NC4000,第二代做NC8000,现在做A8、A8FX,还做NAET虚拟演播室,包括二维平面渲染技术,包括三维空间渲染技术都有很多,尤其很可贵的一点是我们在这方面得到了广电广大用户的认可和支持,在这种背景下我们不仅是考虑,而是实施一种新一代的国产电视图文平台,准备陆续推出这个产品。
下面给大家说一下我们正在说的事儿,我们叫这个方案马里亚纳,正式名称叫做高标清三维电视图文制播平台和系列产品。这个项目是在2005年下半年,将近两年,提出这个设想,2006年开始做这方面的工作,现在已经做了一年半的时间,取得了比较多的成果。项目目标,我们为什么要提出这个项目,我们说了市场要求和技术进步等等,这就是我们为什么要提这个项目的目的,它的重点应用列在后边三点,很多人知道新奥特公司准备在奥运会的时候做现场中文大屏显示项目,马里亚纳的第一个定位是要做显示项目的核心设备,跟电视字幕转播很类似,电视设备可以用在现场。第二,我们希望能够为国内的电视机构进行奥运会的转播和报道提供有利的新型图文包装工具。第三,由这两点发展开去,能够成为电视机构日常节目制播的下一代节目平台,跟我们现在推出的A8和虚拟演播室一样,成为大家日常应用的工具,但是是会带来很多新效果的工具。
整个项目的技术特点,第一肯定是软件的结构,开放式的,插件式的。第二个是今天报告的主题,高质量的,实时三维场景的渲染以及它和二维图形有机的融合。第三是在播出上做很多工作,不能只渲染死的场景,播出必须非常灵活,在列出来的三、四、五这几点都是讲播出。第六点肯定是要支持高标清并存的硬件平台,后面都是老生常谈的事情,软件肯定要丰富,人机界面肯定要友好。第七点给大家简单介绍一下奥运会的数据接口,所有的数据库支持是通用的技术之一。整个系统单机设备早就不是孤岛,要网络化的应用,当然它还有点前景,应用范围不止是用在现在高标清的平台,还会有其他的多媒体发展。
先讲最关键的是高质量的实时三维场景的渲染,这个系统里有个引擎,我们叫它5D,三维空间加时间,再加HD,把D放在一块儿就叫5D。这个引擎整个是给予图形卡硬件形成的,同时基于GPU的编程是技术关键,这里有些关键的技术,如果没有这些关键技术东西出来以后看上去很平淡,是三维的,但是该亮的地方不亮,跟三维没有关系,要突破这种事情的话必须得采用关键技术。
第一是片断光照,右边的茶壶很亮,左边茶壶是传统的渲染管线渲染的,要么很暗,要么一起亮起来,右边是用CPU编程做了算法的改进,能使局部的高光变得很亮,这样三维渲染出来才会漂亮。
第二个是阴影,阴影在计算机图形学里是挺大的难题,尤其是实时渲染阴影,要投射、反射,计算很多阴影的软度,实际是很不容易的事情,在我们引擎里同样是用GPU编程的办法,改变了传统渲染管线里面的做法,最后达到的效果就是这样的,右边的图是我们自己做出来的,一是阴影的范围很大,可以有很多物体投射一块儿,另外是软编效果非常好,最重要的是实时,这些事情离开实时对电视都没有太大的意义。
反射和折射,这是兔子还是马,反正可以看到周围房间的场景都投射在动物的身上,真正是模拟现实世界里的反射和折射的光的效果,没有这个东西很多场景会变得很暗淡,没有玻璃的效果,没有金属的效果,亮晶晶的东西很难出效果,这里做了很多的工作。
等离子的玻璃,右边有一个等离子产生的图形,跟左边反射的效果叠在一块儿产生了右边等离子玻璃效果,要实现超现实的玻璃反射效果,实验室中一般没有,除非房间着火了,我们叫它超现实的玻璃反射效果。
凹凸效果,这个应用范围非常大,沙发平面,地板的纹理,大到地图上中国的标志,青藏高原的凸起,所有都离不开凹凸渲染。凹凸做起来不是那么复杂,两张图合在一块儿,其中一张图提供高程信息,两张图一起做纹理,给三维引擎渲染。
反锯齿或者反走样,这是原图,没有任何的反走样,它在显卡支持两种,一种是4倍的采样,一种是16倍的采样,实际上反走样计算量很大,但这里有一个窍门,做标清的时候可能需要很高的反走样效果,高清本身就非常细了,也许用42就可以了,正好两个数据做均衡,也许最后高清没有他们大的瓶颈。
Alpha,不管用CPU还是GPU来做效率都不是特别高,在我们的引擎里有一个专利技术,是用GPU提供的固定渲染管线,我们做了一些算法的改进,获得了RGB和Alpha正确输出。关键在于用固定的管线,走固定管线总是要比自己写很多东西快得多,还有效率的问题,既要正确又要有效率。
说到效率,从整体来讲是优化优化再优化,因为你还得处理高清,有时候要比高清更大的东西,优化主要体现在三点,一是纹理,二是渲染状态,三是GPU的编程,最后达到的效果,现在我们做了测试,当然测试本身是比较有限的,现在我们发现达到什么效果呢?我们渲染高清图像的时候仅比同样场景、同样内容的标清多10%不到,所以优化做的是非常成功的,同时也说明GPU本身硬件渲染能力非常强,不像画面增加5倍时间也要增加,不是那样的,增加的非常少。
播出,一是多场景,二是多层次,还要多实践,最后达到什么效果呢?除了音频编排好的东西还可以做互动式的,去年看中央5台转世界杯的时候,整个播出,特别是足球场的那些东西都是互动式的,现场操纵的。还有大家经常看到的插播,还有远程控制的分步式控制播出。比如计算机在控制这个画面,有一个画面在跑,前面又多了一层,同样一个机器出来的,跟后面的三维空间没有交叠,两台机器通过网络来做,它可以给场景发一些命令,把它的数据送到同一个场景,大家合在一块儿播出去,这肯定会有非常多的应用。
另外一个例子是做体育现场直播的时候,传统做法是机器本身就在转播车上,新的做法里有这么一个事情,场馆里有两台控制机,转播车上放一台渲染机,通过场馆里的控制机控制转播车上的渲染机,而且不止一台,有几台,最后达到效果送出去。这里还有高标清平台的支持,一个是CPU,一个是GPU,还有一个是IO,GPU和CPU之间肯定要通信,渲染本身在高清上没瓶颈,但是瓶颈在这儿出来了,IO的时候通过总线会比较慢,但马上会出现一种新的技术,GPU显卡和IO卡之间会有直接的通信,这个技术一旦出现刚才我们说的瓶颈就没有了,做非常稳定可靠的现在是可行,以后会做的更好。
应用系统包括字幕、在线图文包装、虚拟演播室、虚拟体育图文,这是我们要开发的新的方向,包括体育节目的转播,新闻,资讯,地理等等,这些系统都是我们要做出来的。栏目包装里在线栏目包装肯定是我们国家电视发展很大的趋势,现在大家都已经开始做了,摘了中央电视台在做节目包装系统的设计思路,这对电视台的形象提高和品牌包装都有战略意义。另外整个应用里所有东西肯定是基于模板的,没有疑问,有模板制作的机器,有数据存储,一直到播出线上的机器,有播出软件利用它的模板播出。
这是新的系统做出来的在线包装的图,这两个是视频,下面是一些字幕。
网络化应用里这也是很清晰的思路,除了点对点的网络之外,还要做从制作域通过集中的分发管理,数据库管理到播出域的网络化构建。体育方面这是新奥特的强项,新的系统里肯定会有更大的提高。
奥运现场,现场视频大屏和公共节目牌,主要是说数据库的连接,奥运现场成绩系统和通信数据系统,新奥特的系统,现在新奥特系统在奥运整个场馆网络里是内置的一部分,我们实时获取所有比赛的数据,包括运动员和官员的名字,实时比赛的数据都是通过这两个系统直接传到我们的系统之上,我们的系统会利用这个数据做播出。等我们真正有发布的时候会给大家做更多的介绍,当然我们承担了它35个大项,奥运会38个比赛项目。
我们还要做更高质量的虚拟演播室,虚拟演播室质量体现在什么地方?一是三维场景渲染,还有更高的定位技术和传感技术,另外还有支持字幕和平面创作的功能,这些原来在虚拟演播室里没有现在这么强。雅典奥运会的时候虚拟演播室的渲染质量,这是新的渲染质量,现在的渲染质量比以前有比较大的提升。
虚拟体育图文方面我们会开拓新的市场,主要是想做贴在泳道上的东西,包括贴在球场上的东西,这方面作为国内在线图文包装来讲,根据和用户的交流,认为算是比较迫切的需要。
这是我们在CCBN的时候做的,头一个是三维的演播室加三维图形和二维图片,比如片段光照、纹理贴图,这些东西都反映在场景当中了。这是二维的字幕体现在场景当中。地板上有光在不断地流动。这是电视台的客户,他们用我们旧的虚拟演播室系统做了一个场景,同样的场景在新的里面渲染出来感觉截然不同,原来所有丢失掉的细节现在都看的很清楚,这是石头的质感,这边是纸的质感,这个灯是玻璃,这个地方有点像世界杯转播时候的足球场,这是体育图文典型的画面。紧接着是所有运动员的介绍,这也是用纹理的贴图等等算出来的,如果没有这些算法的话整个场景会看着比较暗淡,加上这些算法以后场景会变得比较漂亮一些。
这是另外一个虚拟演播室的场景,是另外一个电视台的客户做的,大家看下来的玻璃,这是完全透明的玻璃场景,前面可以做图文显示。这是纯粹的二维平面的,但是在三维空间里运动的,比如说天气,数据的统计,有用户看了这个表以后问是不是做成F1了,现在F1里油量表是这样的,所有的东西都是实时的,一帧一帧的渲染,不至于先做好一个动画在这里播,这个系统本身都是一帧一帧的做,现场数据改了以后马上输出的东西就会变化。
这是四段视频,这个边框有折射和反射,它在通道里跑的时候可以看到边框上反映通道里的折射和反射的东西。
这是另外一个虚拟演播室的场景,上面有完整的平面二维图文,跟场景合在一块儿,是无缝的结合。地面上的纹理是刚才说过的凹凸贴图,能够把桌子凹凸的质感和地面凹度的质感反映出来。
这是典型演播室的新闻包装,有两个视频进来,下面是字模在不断地翻滚和变化,右上角可以打一个台标,视频可以是计算机回放的视频,也可以是输入的活动视频,对新闻来讲输入活动视频是比较多的。这是天气预报的系统。这是整个三维字的渲染,有二维的字和三维的字,同一个空间里可以互相遮挡,互相交叠做各种各样的运动。
这是现在做到的事情和正在研发的一些成果,在这儿想做一点展望。图形发布的平面不仅仅是高清和标清的平面,它对于移动的手机、机顶盒,包括现在的大屏,互联网IE的浏览器,包括车载的视频,这些平面实际上都是电视图形可以去的地方,肯定会找到它的用武之地,这就意味着在引擎技术上要有更多的改进,支持清凉级客户端的渲染技术,比如要写IE的插件,利用本地的G3D也好,OpenGL也好,从未来的方向来讲多媒体发布肯定会是电视图形的方向之一。
刚才咱们说了2005年提出这个项目,2006年开始实施这个项目,现在是收获成果的时候了,所以我们计划在2007年BIRTV之后陆续推出我们的产品,包括字幕、在线包装等等各种各样的专业产品。希望能够成为客户非常好的新一代的强有力的工具。谢谢大家。