快捷导航
查看: 213|回复: 0

异视科技Alex:《VR相机的难点》

[复制链接]

大家好,我是来自于异视科技的徐俊峰,Alex,我们今天跟大家讲一下,虚拟现实的相机相关的技术和难点,今天硬货还蛮多的。这个是我们今天大概的一些内容。我这边放了一个“我”,这个比较奇怪,我要讲一下。
我中文名叫徐俊峰,大家都叫我Alex。首先,今天非常高兴能到南大来给大家做这样一个分享,南京是我的第二故乡,我在南京生活了有好多年,七八年吧。我也是来自南京大学,下面有几个关键字,DII,强化部,现在改名叫范亚明学院,然后EE,Physics,声学所,我在这些地方都生活了很长的时间。
异视科技呢,我要重点讲一下,其实我们这个Horizon-X公司,我们不是一个做虚拟现实行业的公司,我们其实做的是透明的显示屏,在车上的,就是大尺寸的抬头显示器。然后,其实是更加偏向于增强现实。我们可能还会,近期内会推这种空气里面的全息成像,这些都是跟透明显示相关的,而跟VR或者是全景并不是完全一样的。VRCORE的刘总因为跟我很熟,她知道我之前花过比较多的时间去研究过VR的成像技术,所以说呢,她就请我过来跟大家分享一下,我对于VR这个行业,或者是VR的video,或者VR camera的一些我自己的看法。
今天来了很多人,大家好像对这个行业还比较熟悉,所以说,我简单讲一下history,可能有些人对VR这个行业不是很熟,其实早在上世纪六十年代的时候,大概五十年前的时候,全世界第一台HMD,就是头盔式的显示器就已经有了,老美在那个时候就开始做这个事情了,不过没有现在这么便携,那么后来七十年代到九十年代呢,这个技术在非常缓慢地发展,一直到07年的时候,Google的街景地图大量地采用了360度全景的2D照片,方便大家在一个陌生的地方去看周围的环境,这个时候我认为是全景图有了一个比较多的应用。那么同年的话,苹果的IOS和Android在那个年代也开始有了,正因为这两个智能手机的发展,然后给大家带来了视网膜的显示器,超高分辨率的显示器,给大家带来了…尤其是iPhone,给大家带来了非常小型化高精度的陀螺仪,所以说呢,就是因为这两个技术的发展直接导致了2012年Oculus Rift做了一个VR的头盔。
其实在大概08年、09年的时候,那个时候我也在搞VR,那个时候的VR的话,我们当时在做的,是把整个屋子各个墙都做好至少两个投影仪,然后呢,屋顶、地面、四个墙,六个面至少12个投影仪,然后每个人脑袋上都长一个小天线一样的东西,然后在屋子里面走,用传感器去探它,那非常昂贵,而且只能一个人在里面走,但是效果很好的。它是,你走到哪里的话,都能看到自己的手,但是非常不实用。
那么Oculus Rift呢,它用一个很便宜的方法,它可以把几百万的方案变成几百块钱美金,那么随后14年它被Facebook收购了,同时三星也跟着掺和这个生态链,HTC,Sony,微软,大家都开始做VR以后的话,逐渐的这几年,四五年的时间,虚拟现实就变得特别特别流行。那虚拟现实的话,简单分一下,分成做硬件的,做hardware的,做内容的,做平台的,那么我们今天,因为我是理工男啊,我是做技术的,所以说我们今天主要讲一下硬件这一块,和相应的算法。
VR的video,或者是全景的video,全景的视频,我个人的理解,我给它总结了几个词,VR的视频,在所有的VR应用里面,包括游戏,包括CG视频,包括录制的视频,包括一些…whatever,VR视频是最便宜的,最成熟的一个技术,而且2016年,甚至2015年,一个2k的手机配上一个几块钱美金,或者几块钱人民币成本的VR头盔,你就可以看到非常好效果的一个VR视频,已经到了这个时间点,而且呢,做VR视频很赚钱,这是非常非常重要的。就是它的商业模式很清晰,所有的视频网站都可以通过卖VR视频,卖IP来挣钱,所以说这一些加在一起的话,我认为VR视频是最快最简单最直接的一个,最近能够推广开来的一个VR的应用,那么我们讲技术吧。
这张图,可能很多人都是做VR的应用开发,或者是做游戏的,也有做特效的。那么我们把VR整个一套硬件的话呢,分成人、硬件和软件这三大块。
首先我们对虚拟现实的这个反馈,我们对这个世界的感觉主要是人脑。人脑呢,我们有五官,有手,有眼睛耳朵有嘴巴,我们的输入端的话,是通过人脑控制我们自己的五官,尤其是手、身体、嘴巴,我们在运动,所以说通过各种传感器,键盘、鼠标、遥控器、头盔、麦克风。通过这些传感器,有一些小小的硬件,然后到连到桌面端的比较强大的硬件,然后再到Kernel层,再到Middleware,然后再到我们的应用层,比如说游戏,那么反馈回来以后,我们人在做轻微的一点点运动的时候,这一套流程要串行的走一遍,回过头来,游戏或者应用再到Middleware,再到Kernel层,再到硬件,每一步都是串行的,都是有些许的时的,需要很大的运算量,最后呢,我们再通过CPU、GPU再算出比如说2k的、比如说4k的、8k的,很高帧率的画面传递给我们的显示设备,比如说显示器,比如说VR的头盔,比如说这个音箱或者是耳机,对吧。比如说有各种各样的体感的设备,那么最后再传递到我们的眼睛耳朵跟手和身体,再反馈到我们的大脑,这是一套完全没有办法投机取巧的一个串行的这一套系统,需要比较长的时间和非常大量的资源。所以说这就是为什么大家还在想办法去解决VR的硬件的问题,改进算法,改进硬件,改进我们的零部件。
那么同时呢,其实还有一个问题,就是前一段时间在网上非常火的,关于对焦的问题,虚拟现实的显示设备,它的对焦距离是固定的,像美国最火的一个科技创业公司叫Magic Leap,它们是光场成像的,它是带声路信息的,它不但是双目的,有立体的感觉,它实际上就是立体的图像,所以说如果解决了一个成像的距离的问题,你会不但觉得它真实,而且觉得非常真实,就是它会把你的眼睛和你的大脑完全的统一起来,这个问题我们现在不讨论,因为现在的VR硬件根本解决不了这个问题,这个是一个非常悲观的,但是不影响我们VR事业的发展。
我认为我们不需要非常完美的硬件,我们也可以体验有很真实感觉的虚拟现实的内容,比如说我们现在在看3D电影的时候,其实电影对焦永远是在这个屏幕上的,它没有远没有近,但照样你会,能从头到尾看到一个电影,也不会吐,也不会有非常不良的反应,也可以起到一点娱乐的效果,这种很深层次的技术问题我们今天先不讨论了。那么久把这个有一点点缺陷的,VR的这套硬件,它会很贵会很慢,然后呢,就是很麻烦吧,这套系统,那我们再来看一下。
这是普通的VR应用,需要渲染的,需要游戏或者是,需要渲染的一套设备,然后再看一下VR视频,在这个情况下,我们认为VR视频已经被拍摄好了,3D的或者是2D的全景视频,或者是我们用电脑CG,就是用电脑做的特效的VR的视频。
那么在这种情况下呢,我们的视频已经录制好了,我们的头在动的时候,我们身体在走动的时候,我们会看到各个方向的360度全景的视频,可能是2D的也可能是3D的,这个时候视频解码仪就进行了,这两个是并行了,这个时候假设这边是我们录制好的硬盘里面的100T的VR视频内容,它已经在解码,那么,我们现在计算机的解码是非常非常厉害的,硬解码,软解码也…如果电脑够快也很厉害,就是我们现在一个iPhone这样的手机,甚至像小米一样的几百块钱的手机,都可以很轻松的对4k的分辨率做一个硬件的解码,几乎没有任何的延时,将来我们一个可能几块钱美金的CPU也可以对8k的视频进行很快速的一个解码,所以说解码很便宜很快,现在大部分手机都可以做4k的解码,甚至像高端手机已经可以做4k的编码,就是说你可以做4k的录像,那个更难。
那么视频,我们头在动的时候,这些图像已经解码好了,甚至10秒钟以后的视频都已经解码好了,等在那边等我们去看它,那么这个时候,我们的头在运动的时候,比如说我在看这边然后回过头来看大家的时候,这个视频已经在那边了,根本不需要硬件去做任何的处理。而且这个硬件是你已经买好的,2000块钱的或者是999的那个智能机,这个时候我在看这些的时候没有任何的延时,因为它已经准备好了,所以说相比于VR游戏的话,VR视频需要非常非常少的硬件资源,还很省电,那同时我这个手机还带陀螺仪,还能对动作进行采集,也不延时的,这个是几块钱的一个芯片,我们不需要1000美金的一台台式机。
那么这个时候呢,我们需不需要买一个VR的头盔呢,需不需要花几千块钱或者是上千美金去买一个VR的头盔呢?不需要,我们只需要两片放大镜,一个纸盒子,那纸盒是不好的,两片放大镜、一个跟手机匹配的比较好的,能调两个眼睛之间瞳距的一个,能调对焦能调瞳距的这样一个塑料盒,然后你把手机放进去,那最典型的一个代表就是三星的Gear VR,你就可以非常流畅的去看一个4k的视频,那三星的Gear VR第一代的话,可能它只能解码2k,可能第二代的Gear VR应该是可以解码4k的,我不知道它后面的硬件有没有update,很轻松的可以解码4k,这个就是整个一套设备。
那你需要花多少钱呢,可能你不需要花钱,可能一个视频网站,它会送你一套价值几块钱或者十几块钱的一个头盔,根据你手机的型号,为了体验好,根据你的手机型号去送你一个定制的头盔,那所有的硬件、所有的软件都在你手机上,这就是VR视频,所以说我们可以看到,VR视频比VR游戏要简单,而且其实它的硬件,百分之九十以上成本的硬件已经在你手上了,这就是为什么我说非常便宜,非常成熟,然后时间点也很好。其实我已经有硬件很长时间了,它还很赚钱。
那么,我就不谈太多的商业模式,我们就聊硬件。这块我们开始讲相机,3D的和光场的全景的相机,我自己的理解,好像是某一个大佬也是这样说的,其实虚拟现实的相机不等于全景相机,如果你一个全景相机,它没有立体感,它是2D的,像这种的话,最简单的,好多GoPro拼起来的,3D打印弄个支架拼起来,然后软件算一下,缝合一下,或者是一个理光的THETA S,或者是各种各样山寨的产品,它缝合出一个全景的2D的视频出来,它并不等于虚拟现实。
为什么呢?因为它没有沉浸感,它有一些沉浸感,它有点像2D的IMAX,比那个要好一点点,但是它没有立体感,你没有在里面,没有距离的感觉,所以这种东西我们称为2D的全景相机,这个是时下可能是百分之九十九吧,在市面上你们能看到的都是这种东西。最早就是,还有在比如说我们这个会场要做一个全景图的拍摄,我们可以买一个单反,用一个云台去转,转完了以后去缝合起来,那叫全景照片,它一个相机一个镜头就够了,这个我们也不讨论了。
那么我们现在来讲比较有技术含量的东西,3D的全景的相机。我们可以认为它算是一个基础款的一个VR的相机,但是这种东西很少,那么考虑到我们人在看360度,其实上下还有180度,都要有立体感,所以说我们冲着任何一个方向,它都需要一对镜头,那么这种是相对比较聪明的一个做法,还有比较笨的一种做法是,冲任何一个方向都有一对平行的镜头,那么这个典型的代表比如说是Jaunt VR,那么还有Nokia OZO,Nokia OZO的话,它只有180度,它只能看到前面,它后面没有,比如说这两个镜头是管右边,这两个镜头管前边,这两个镜头管左边,后面就没有了。这就是所谓的3D的全景的相机,这个比较复杂。
那么最复杂的,这个叫LightFieldPanorama,这个是什么东西呢,这是一个比这个还要复杂的,比如说这个相机(3D全景相机)我可以看各个方向,我都有立体感,对吧?那这个相机(Light Field Panorama)的话呢,什么叫光场摄像,如果一台相机有一米或者有两米这样的一个尺寸,那么它这个相机的表面会有很多的镜头,里面可能甚至还会有其他的micro LENS,有很多很多的小镜头,它会把各个方向的、各个角度的光线都会收进来,那你体验这样的VR内容,你会是一种什么样的感觉呢?
你可以像普通的3D相机一样,你可以转,你的脑袋可以左右转,可以上下转,可以这样转,这个还不够酷,什么样叫够酷呢,比如说我躲到这个讲台的后面,你们想要看到我,你可以探过头,可以看到我的身体,就是电影里面本来会遮挡你视线的,已经拍摄好的内容已经完全不能遮挡你了,你想要看到那个人后面的东西的话,你可以在里面动一下,那你运动的范围当然是会受限制的,因为毕竟你没有从那个地方去做拍摄,移动的范围就是这个相机的大小。后面我们有一个比较详细的介绍。所以说,这个是一个更加虚拟现实的一个视频的录制设备。
我们建议补看一下这个2D的全景相机,一般的全景图出来是这样的格式,2:1的格式,比如说4k的话是4096*2048,比如说2k的可能是2048*1024,8k的类比,这是一这是二,它可能是两个鱼眼镜头拼起来的,比如说理光的THETA S,它有可能是4个相机拼的,有可能是6个相机拼的,有可能是8个,有可能是很多很多相机,这是我在对一个画面进行分割,做了一个示意。这是普通的2D的一个全景相机,这是一个普通的3D全景相机的示意,刚才这个我们讲到,比如说OZO,180度全景,这是Jaunt早期的demo,这是Jaunt最后的JauntNew,有很多很多的镜头,下面也会有镜头,那这个是比较笨的。
这是三星做的一个渲染图,不知道它有没有真的去这么做,它的每一个方向都有一对眼珠,这是眼睛,这是右眼,这是左眼,这是左眼,这是右眼,它每一个方向都有两只眼睛,比较笨,但是它看上面的话只有一只眼睛,看天上的时候只有一只眼睛。
ok好,那么我们讲一下光场相机,这是我画的一个简单的示意,这是光场相机的体积,那么理论上来说,蓝色代表,比如说我看正前方,那这是正前方的四个立体的物体,红色是代表我往右转了90度,我向那边,都是有立体感的,但是呢,这就是普通的3D全景相机了。那么光场相机比它厉害在哪里,它可以…我往前看的时候,我可以从左边往前看,也可以从右边往前看,我从这边看的时候,我相对能看到这个物体后面这个空间的东西,如果有遮挡,比如说我的手在这个地方,你在这个位置上可以看到的,但是你在这个位置就看不到,这就是光场相机比较牛的地方。
好,我又复用了一下前面那张照片。我们现在讲一下拼接,如果大家有问题的话,后面可以问。我们讲一下拼接,听上去好像VR的相机,2D的也好3D的也好,除了光场,好像挺简单的啊,就是把很多的摄像头拍摄的画面缝合到一起,缝到一个球上去,就像我们在缝足球或者是缝篮球一样,听上去挺简单的,但实际上真的有那么简单吗?你看这个就很简单,左边和右边缝到一起去,四个就四个缝到一起去,八个就八个缝到一起去,似乎很容易,那么我们来看一下。
这页比较关键,大家仔细听一下,假设这是,我们讲最简单的两个镜头的情况,假设这是一个理光的THETA S,这是理光的一个双镜头,左边和右边,我们要关注的是什么呢,这个点,镜头进光的这个点,另外一个镜头进光的这个点,光线是这么进去的,你会发现两个镜头之间是有距离的,任何一个全景相机,除了一种特殊情况,后面会跟大家讲,任何一个全景相机,它两个镜头之间都是有距离的,你不可能把两个镜头放到同一个点上去,那么你在拍这个物体的时候,在拍这些物体的时候没有关系,因为这个镜头看不到这些物体,那么这个镜头可以看到这个物体,你缝合的时候不用考虑这个物体。
但是呢,当你的物体出现在你缝合的线上的时候,你会发现,如果我认为它是180度,它是180度,你认为它可以很容易的缝合到一起去,你就大错特错了,为什么呢,你会发现当你的物体离得很近的时候,尤其是当它的尺寸可以跟这个相机的距离,可以比拟的时候,你会发现180度会漏掉很多东西,这些你如果180度缝的时候,中间这一溜,比如说如果相机这么大的时候,这么大的物体(与相机相似大小的物体)全部会消失掉,那你为了把它给拍进去怎么办呢,你需要超过180度的去缝合,这样的去缝合,那你就会把这个物体缝合的很漂亮,但是这个时候同时又带来另外一个问题,什么问题呢,这个物体(大于相机的物体)你在这个相机里面,这样缝合的时候它出现了一遍,这样缝合它又出现了一遍,这个物体在全景图里会出现两次。
这个还不是最糟糕的,最糟糕的是什么呢,最糟糕的是,整个物体离它有很多很多的距离,它的距离是连续的,有离它半米的,60公分,70公分,80公分,85公分,95公分,93公分,105公分,它的距离是连续的,离它的物体是随机出现在任何距离上的,那么你在处理的时候,你有的时候需要比如说183度,有的时候需要184度,有的时候需要181度,你去缝合它,但是无论你挑某一个你认为最佳的角度,它后面的物体一定会出现问题,如果你挑这个物体缝合的最好,前面的会…比如说你挑这个(物体A)缝合在这,这个物体(物体B)你只能,上面相机只能拍到这个角(上面的角),下面相机只能拍到这个角(下面的角),这个物体(物体B)就缺掉了,那么(如果)你把这个物体(物体B)拍的很好,那它(物体A)就会出现两遍,它(物体C)也会出现两遍,后面的东西(较大的物体)都会出现两遍,这就是最简单的一个2D全景相机的缝合的难点,那么现在来看一下。
我们看一下,这是一个最简单的被很多人吐槽的,用鱼眼镜头,有一些人认为用鱼眼镜头去做全景相机不太好,为什么呢?因为鱼眼相机变形比较严重,色差比较严重,解析度比较差,亮度不均匀,有很多很多的问题,所以说大家有的时候会用四个镜头,有的时候会用七个,有的时候会用更多,他不是为了追求3D的效果,就是为了追求成像质量,大家认为小的FOV的长焦的镜头成像质量会比超广角镜头成像质量好,大家会发现,两个镜头就会有,这边会有,这边会有拼缝,四个镜头就会有四个拼缝,那你有几十个镜头就会有几十个拼缝,那你每个拼缝,刚才说的问题都会出现,而且你的镜头越多,你的相机就越大,你的相机越大,你的镜头之间的距离就会越长,镜头之间的距离越长,你需要处理的问题就越多。
所以说现在业内是怎么妥协的呢,两种方法,一个是把相机放远一点点,拍很远很远的东西,本身相机的分辨率就比较低,那我们近处就不要放东西了,比较笨的方法。第二个方法,什么呢,我放在这个地方,然后,最好画面不要有太大的变化,我去修它,后期一张张地把它修出来,这个是第二个办法。
大家都知道,我蛮喜欢理光的THETA S,尽管它的sensor不太行,它是有原因的,THETA S是市售的产品里面,缝合的最好最好,最完美的一个产品,它是怎么解决的呢。
它就是把这两个镜头拉的特别特别的近,大家都知道鱼眼镜头是很长的,但是它把两个很长的鱼眼镜头做到一个非常薄的相机里面,它怎么做的呢,大家可以看到,这是它的镜片,鱼眼镜头有很多镜片,它中间用了一个prism,用了一个分光棱镜,它把它的光进行分光,把它本来在这个方向上有很长的长度呢,比如说这是z方向,它分到了x方向,两个CMOS在这,那比较笨的做法是,这是CMOS,这是一串镜头,这是CMOS,这是另外一串镜头,中间可能还要加散热,这是理光的一个做法,叫什么呢?这个它有一些没有显示出来。这个叫什么呢,叫越薄越好,这个是一个旧版的PPT,就是我们可以把这个相机的镜头的距离缩的很短,越薄越好,还有一种做法,什么做法呢?就是,我换一个PPT啊,这叫越薄越好,把相机的镜头做的很近很近。
还有一种方法叫什么呢?叫VirtualCamera,但这个Virtual Camera跟那个JauntVR的那个Virtual Camera不太一样,有点类似于这个原理,理论上来说,这两个相机的镜头在空间上出现在同一个点的时候,你去拍摄的时候,它就没有距离的问题了,因为镜头在同一个位置,但两个镜头不可能….在我们这个宇宙里面,两个实体不可能出现在同一个坐标里面的,那怎么办呢?
那我们做一个假的相机让它出现在这个坐标里面,怎么做呢,比如说,我在这边(A处)放一个45度的反射镜(反射镜1号),或者是一个多少度的反射镜,那么我的相机(相机甲)就会拍这个反射镜(反射镜1号)反射过去的内容,那我拍摄的内容等效于我这个相机(相机甲)在这个地方(A处)拍摄的内容,它(相机甲)就看(拍摄)这边(与相机实际摆放方向相垂直的方向),然后我再把这个镜头(相机乙)放在这个地方(反射镜1号背后),或者是说呢,我把这个镜头(相机乙)放在这个地方(B处),然后在这边(A处)又放一个45度的反射镜(反射镜2号),它们两个(相机甲和相机乙)等效的那个空间的位置是相同的,你可以把一个实体的相机和一个虚拟的相机,或者把两个虚拟的相机放在空间相样一个坐标,但是,这个方法一定是有缺陷的,如果没有缺陷的话呢,我肯定这个时候已经把它生产出一堆来让大家去拍VR视频了。
任意用反射镜的,它都不可能拍到所谓的360度全景,因为你一个镜子需要无穷大才有可能cover 180度,这个大家回去可以想一想。那所谓的最终极的解决方案就是做实时的3D的扫描,就是说你把你的周边的物体全部扫下来,那你就不存在这个距离的问题了,因为你扫的它是在立体里进行,那这个问题…实时扫描会有什么问题呢,为什么大家现在没有在做它,实时扫描的问题是,它的运算量比较大,然后成像质量非常的差,然后如果不加结构光,不加辅助光源的话呢,是没有办法做很高精度的扫描的,那么加了光源以后你也只能扫近处的,远处的扫不了,等等,它会有一些其他的问题,那还有一种做法,我个人觉得这个还不错,就是分层缝合,但是非常非常的难,就是你在缝合的时候要分很多层,你不同层次去把它缝合到一起去,这个里面牵涉到很复杂的一些算法啊,牵扯到一些公司的商业机密,我就不说太多了,我觉得这个方法还不错。
因为今天时间关系,其实还有很多很多的,关于VR相机的一些技术的难点,和一些相关的需要解决的问题。这个我还需要换到刚才的PPT上去,不好意思。VR的相机除了刚才讲的比较重要的那几个技术点之外,它还有一些很现实的问题,比如说,每一个镜头,尤其是VR相机里面用了大量的超广角镜头,超广角的摄像头模组,每一个镜头它都有可能会发生一些色彩的不一致性,就是说你同样一个镜头和一个CMOS,它由于CMOS上面的microLENS的限制和镜头的配合,你拍同样一个白色的画面,它可能的色彩是不均匀的,中间和边缘的部分,色彩是不均匀的。
那么还有呢,有一个叫做LuminanceConsistency的问题,刚才这个问题是跟sensor,尤其是跟CMOS比较相关,和LENS也很相关,这两个配合的问题,那还有一个Luminance的问题,什么叫做Luminance,通俗一点讲就是你的亮度,你在用一个超广角相机去拍照的时候,极大的可能性,或者是说必定会发生的是,边缘一定没有中间区亮,这是一定会发生的,那么越长焦的越不会出现这个问题,但是现实的情况就是,很多VR的相机在用广角和鱼眼的镜头,所以说,这个问题会出现。
那么还有一个叫Sharpness,就是锐度的问题,所有的相机,所有的LENS,在做设计的时候初期的时候,你的中间的锐度一定是最高的,如果这个设计师很正常的话,它的中间锐度会比较高,你的图像的边缘部分锐度会很低,术语叫MTF,就是传递函数不一样,所以说你的相机在缝合的时候,你会发现,某些地方会很清晰,某些地方不清晰,某些地方黑白分明,某些地方就比较模糊,你用设备去测的话,一定会测出非常大的差异。
那我再讲一下这个怎么解决,这个是可以通过硬件实时处理或者是软件算法去弥补它,有一点像差异化的调白平衡的感觉,这个(Luminance)是差异化的调亮度,Sharpness的话,就是差异化地调锐度,这些都是会牺牲画质和降低整个产品的宽容度的。还有曝光不一样,什么叫曝光不一样,因为你一台相机有非常非常多的镜头,那么每个镜头冲的方向不一样,理论上来说,让它自动曝光的话呢,我拍灯,灯会相对比较暗,周围会更暗,我拍下面的,拍黑的地方,黑的地方会比较亮,周围亮的地方它会更亮,那么如果我全局用同样一个曝光的一个参数的话呢,你会发现它还是不一样的,因为你的硬件不可能是一模一样的,你的系统可能会有差别,所以你要对每一个镜头进行调校,有50个镜头100个镜头就要对100个镜头进行调校,调到它的曝光值一定是一样的。
假设我们已经解决好了,每一个镜头,每一个模组它的曝光都是非常完美的,这时候会出现一个问题,就是超高的动态范围的要求,什么叫超高的动态范围呢,就是说VR的相机的话,比如说我们在这个地方去拍一段VR的视频,把今天的这个公开课录下来,那么我因为是360度*180度,这个球形的一个录制,我们会看到,拍我的时候,我可能不太白啊,我比较黑、比较暗,然后呢,在拍那个灯的时候,和窗户的时候它会很亮,我们两个的亮度的差异太大了,所以说它不可能把我们两个拍到一个同样的画面里面,还比较协调,所以这个时候你只能把我拍清楚一点,把窗户外面和灯牺牲掉,否则大家就看不到我了,这个是比较容易的场景,那更多的场景是什么呢?
更多的场景是室外的场景,室外的场景很多时候都会有一个太阳,那即便没有太阳,它会有一个天空,它的亮度是非常非常高的,那么我们的人类宜居的环境里面,它会有大量的阴影的细节,比如说树荫下面,比如说一些植被,大家如果去西部旅游的时候你会发现,天特别漂亮,地也特别漂亮,树也很漂亮,人也很漂亮,你拍起来的时候就会很难看,为什么呢,因为天太亮了,你把天拍的很蓝的时候地就是黑的,把草拍的很绿的时候天就是白的,这是动态范围的问题,那么VR是对动态范围要求最高最高的一个应用场景,因为它永远是有天有地的,那么这个是需要怎么解决呢,需要sensor,比如说需要Sony大法,需要最牛的CMO sensor。
那么剩下的还有什么问题需要解决呢,有一个比如说叫Real-timeStitching,就是实时的一个图片缝合的问题,为什么呢,尤其是3D的和Light-Field,它可能有无穷多个,它会有几十个甚至上百个需要缝合的线,是有层次的,是有深度信息的,为什么需要做这样的一件事情呢,因为我们将来会,有可能会有很多的导演会拍一些VR的电影,VR的视频,VR的广告,VR的…,whatever,这个时候他需要,拍的时候他需要看一眼,他需要有一个监视器去看,如果你当时不能缝出来的话,导演就会心里很没底。
那如果你要做现场直播的时候呢,你当然一定要缝合,你不缝合起来,你是没有办法做现场直播的,如果比如说我们请了大牌明星去拍了一段视频,没拍好,那你缝合好了事后一个月以后发现不行,我要补一个场景,那成本太高了,需要把所有人从世界各地call到一个地方来,然后再补一条画面,这是不现实的,如果大家都很好,有一个人把眼睛闭起来了,这都是接受不了的。
所以说实时的缝合,尤其最难的是3D和光场的全景视频的实时的缝合是刚需,但是又非常非常的难,因为它需要非常强大的一个专用的芯片去做这件事情,或者是用软件去做实时的缝合,都是比较困难的,那么将来呢,网络的传输速度也很关键,为什么呢?因为VR视频,它的4k视频,它的8k视频,可能就只能勉强相当于我们的720p视频的分辨率,因为你的4k视频分给了360度,所以说分到我们平时看,可能也就只要看60度70度,最多是这样的,那么60度70度,360度(这)就是它的六分之一,60度是360度的六分之一,那么我们4k的话,除以6是多少,大概在600、700的pixcel,600、700的pixcel相当于DVD,还相当不了高清,就是720p,那么8k的话勉强相当于720p的那种感觉,你在看一个720p的电视机,那可能需要更高你才能达到1080p的分辨率,如果你看习惯了4k的电视机的话,你看VR的视频,它的画质就是一塌糊涂,这是很现实的。
我们现在网络直播的那个VR视频,是非常非常低分辨率的,1080p的,如果是1080p的话,就是1920*960的分辨率,非常非常差,1920除以360度,你可以看到的画面肯定比VCD还要差,如果我们要传这么高分辨率的视频呢,录制和播放都不是问题,硬件不是问题,传输是最大的问题,你传不动。
如果是光场的话会更可怕,它会需要无数个这么高分辨率的视频,那么还有一个音频,audio,音频信号的采集,最近经常会看到一些新闻,某某某公司在做VR的音效的制作,有什么什么技术,那么那个很多是偏硬件,偏耳机或者是偏一些算法,比如说我在游戏里面,我在走动的时候,我走到这边,我走到前走到后,我的声音会有一个位置,我会模拟音源在那边发出一个信号,但是我回头的时候,我会感觉到定位在那个地方,你如果戴一个双耳的耳机,如果你软件做的好,双耳耳机你可以模拟出来它是在哪个方位。
但是呢,我们现在在讲是VR的相机,VR相机是不一样的,VR相机你放在这边录制的时候,比如说Nokia,它在每一个camera旁边都放了一个麦克风,那它不能真实地去做一个立体声还原,这么样一件事情,它最多相当于一个不带立体声的,带方向的一个音频的录制,那你如果还需要有立体,还需要带各个方向,它很像一个3D的VR的相机或者光场的相机,如果你还要在那个范围里面,你还有前进和后退的话,所以说它就需要很多很多很多的麦克风,因为人的耳朵是一对的,需要很多很多的麦克风,而且人的耳朵不单是一对,而且还有前后,去做这样的一个音频的信号的拾取,也是稍微有点麻烦,但是这个问题是可以解决的,但是目前我看到很多公司还没有在做这一块,因为整个这套相机的系统,很多人都解决不了这个问题。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ