快捷导航
查看: 406|回复: 0

秦凯 《VR&MR中下一代交互技术的应用》

[复制链接]

我今天讲的,交互技术分成四个大方向,第一个就是现在特别是在PC端比较成型的手势和动作为主的立体交互,第二块是一个比较新的技术,英特尔跟英伟达他们都在研究的,视觉交互技术里面的SMI,就是眼球追踪技术。第三块的话就是SLAM技术,其实它跟Project tango技术非常像的,我在这里待会把Project tango和SLAM技术一起来讲。最后是比较尖端的技术,像实时视频的交互技术跟多重感官技术。
手势和动作为主的立体交互
其实目前已经落地的产品里-面像HTC Vive,Oculus CV1, 包括Sony的PS VR,目前来说很多人很容易理解的,它都是基于Outside-in这种解决方案,打个比方以HTC的Light house空间定位解决方案为主的话,它可能有一些外部的发射器,手柄本身作为接收器的同时,它通过数据跟光场信息的处理,可以精确定位你的手部交互和甚至空间位移,那整个交互其实从这一块来讲的话,我们把它定位成动作捕捉,
动作捕捉目前从原理上来看的话其实它是分成六大块的,第一种是光学式的,就刚才我讲的三大头显厂商其实都是光学式追踪解决方案的,像HTC Vive、Light house,就是光场追踪解决方案,那Oculus CV1用的是红外追踪解决方案,Sony用的是Optical Tracking的解决方案,就是光学追踪这种解决方案,那待会我也会大概去区分一下它们的技术的区分点。第二种是机械式的,机械其实可能在游戏,或者是2C行业接触的比较少,更多的可能是在一些行业应用里面,比方说飞行员的驾驶舱,包括一些力反馈的重度的设备,就是之前我在美国有接触过像斯坦福实验室里面,比方说要模拟工人去锯树,或者深度的定向行为反馈的解决方案在里面,它都属于机械式的解决方案。那电磁式和声学式其实很早以前就有,但是它现在并没有成为主流,声学式目前我知道海外跟国内一小部分团队也在做这方面的研究,就是目前所说的超声波定位,如果声学式的定位更加成熟的话,它比现在的light house,就是光场,或是这种outside in这种解决方案要非常的好,因为这种声学式的解决方案,它不需要更多光学摄像头架设在空间场景里面,从成本还有空间位移的精确度上比光学定位要好。那视频式的话,简单来说就是摄像头的深度感知,比较知名的像,类似于uSens,应该算是海外跟国内它都有团队在做,代表像uSens是用摄像头加特定的算法去设置手势的一些运动轨迹,就是运用摄像头实时绘线,它会把你的手部先按照摄像头特定的算法然后去识别手部动作,然后表格去打一些基础像五根手指的话就是五根线条,拿过去识别这五根线条在空间里面它是弯,是有抓握东西也好,是有位移也好,不过这种视频式会有缺点,就是它只能识别摄像头正面,横向120度上下90度左右范围,出了这个范围以后,它就识别不到手势的,而且,目前据我所知,包括uSens他们做的手势识别,在手部侧对摄像头的时候可能会由于遮挡的原因,可能会造成部分手指的识别的不灵敏。最后惯性式的,国内比较有一家比较知名。叫诺亦腾,他们就是标准的这种惯性动捕解决方案,通过身体上绑定手套、腰部,胳膊上的绑定,很多以蓝牙通信协议为主这种内设九轴陀螺移动模块去绑定你每个骨节它的运动轨迹的变化,那待会我也会大概去说一下这些区别。那目前像诺亦腾这种惯性式解决方案,它真正找到的应用场景主要还是替代原本在电影拍摄里面就是,光路加演员身上加很多光标的mark点,它现在主要是在这个领域找到了一些突破口。

除了按照原理上来分,其实对于大部分人来说,从捕捉方式上去分可能会更好的理解,一种叫Outside-in ,一种叫Inside-outOutside-in顾名思义,我们可以看到,像通过外部光学摄像头也好,或者红外发射器也好,然后在通过手柄上面去做接收源或者发射源,像索尼的PS Move,它其实是一个接收源,手柄是作为光学发射源的,Outside-in这种解决方案其实在三年前,特别是以色列跟捷克的团队就已经很成熟了,所以像HTC Vive也好,他们这些解决方案也是通过投资并购来实现的。那我今天主要讲的可能更多的是Inside-out基于下一代的VR和MR的交互技术为主,那Inside-out顾名思义它是不需要一些外部设备的,它可能通过一些具有Projecttango或者Slam,或者这种深度感知,摄像头通过设备的内部本身,会有一个双入摄像头加RGB的感知元件,这样他可以以最低的成本去感知用户在空间里面的位移,不需要任何外部的光学设备,或接收器的架设,而且现在Inside-out这种解决方式成本要远比Outside-in要低很多,目前收到的像这些深度感知的摄像头也好,这些设备的话可能成本就是在几百块钱人民币左右,那目前来说已经真正投入市场的这些消费级的,PC级的VR产品,更多的是用Outside-in的这种解决方案,这种解决方案的优势就是能在一定范围之内精确定位用户在里面的位移或者是游戏、应用里面的手部动作,但它也有缺点,像Light house里面,这种光场追踪是非常害怕有遮挡物的,如果两个玩家同时在光场里的话,如果一个玩家移动到另一个玩家身前挡住了他手柄的光学接收源的话这个手柄可能就会漂,就是无法识辨出玩家的所有交互动作,所以就是说Light house作为当下,特别是单机的VR整体上来说,是一种好的解决方案,但是它一旦涉及到这种复杂的场景,或者是变得像移动VR或者像多人的这种即时协作,或者对抗性的这种场景里面的话,它就不是一种好的解决方案。那OculusTouch用红外的这种的解决方案依然跟Light house 有相同的问题,而且目前Oculus Touch还并不能像Lighthouse 那样支持,Lighthouse应该现在最大支持6*6这种范围,这种多空间的解决方案Oculus也在做,那我知道它应该在今年年底的时候会支持它的两个桌面级的,发射器的解决方案,但是据我所知,应该也只是两米到三米的空间范围在内,那所以 PS Move的话就非常明显,它只支持正面一百八,也就是说它前面有一个双目的光学的感知设备,它的两个手柄上面各有一个发光的灯泡,就是光源的颜色也并不太一样,通过RGB这种识别的话,它只能感受到就是玩家正向面对PS Move的这种动作识别,所以如果这里面,如果今天有开发者打算上PS VR的话,它的设计理念是全部只设计前180的,背后是不会设计, 包括玩法设置一类的,是不会引导玩家向后转的,因为向后转的话它的手柄的交互,包括它的位置是无法正常识别出来的。刚才是第一种outside in交互的解决方案,那第二种是我们现在研究比较多的,就是以Hololens,Magic Leap为代表的MR的操作平台,其实就我个人理解,可能随着VR的不断的快速的发展,后期AR它不会是一个独立的领域,它通过AR,通过重度SLAM技术的结合,或者tango技术的结合,包括其他一些深度学习,可能会直接过渡到MR的阶段,VR更多可能定位是在互动娱乐,MR可能更多是在半应用领域里面会比较多,那最后一种的话,常见的就类似于kinect和Leap Motion这种红外的手势识别的设备,那这种设备的话其实现在来说已经非常成熟了,而且价格也比较低,但是有一个硬性缺陷就是功耗非常高,没办法放在移动端去用,而且手势识别的精度和范围相对来说比较差,就是特别是Leap Motion只能正向识别一米范围之内的手势,而且就是你的手势必须是正对或者背对,就是以这种手势平铺的形式去识别的话会比较准。再有一个就是就我们目前做了一些实验,包括跟一些内容开发者还有跟一些VR的用户去体验,他们会觉得就是玩游戏当下HTC这种手柄的解决方案是最好的,是因为这种空间的这种摄像头深度感知的技术如果用在游戏里面它的耗能是非常高的,因为我如果在游戏里面挥剑或者是做一些高速运动,它识别没那么快。再一个就是像《the lab》里面,射箭是有震动反馈跟声音反馈的,那玩家可能需要手部的反馈去支持,增强沉浸感,而且就是Leap Motion这种红外识别,特别是手势在大部分应用里面是没有任何意义,就是我们在做研究的时候,就是玩家包括游戏开发者,他不可能针对每一个手指的这种特性去设计这种特别复杂的交互手势,所以Leap Motion虽然说技术很成熟,但它目前还没有大范围普及,暴风魔镜跟LeapMotion合作开发了一款移动版的Leap Motion,它就是把PC版的移植到移动版去,那我个人而言,我觉得它可能在类似于社交类的这种弱交互的应用里面可能会有一个比较好的体验,再一个它发热是非常严重的,大概五到十分钟以后是非常烫的,所以的话可能他这块还是有很大的空间需要去改进。
第二部分我讲的就是以Hololens、Magic Leap为代表的下一代未来人机交互的发展趋势,那Hololens的话其实它的交互就是分为三大块的第一大块就是GAZE,就是以注视为主,其实注视的话它跟我后面讲的SMI技术并不一样,现在已有的VR头盔利用这种陀螺仪的感知,它可以当每个人去看向一个方向的时候,其实你的头部会发生轻微的偏移,现在这个九轴陀螺仪的话,对位置的捕捉是非常精准的,所以通过这块给用户的错觉是我看向哪里,然后我的光标就走向哪里,其实它还是针对你头部的一个轻微的运动跟位移来实现出来。那第二块手势,其实这个手势跟Leap Motion或者是uSens是非常像的,比方说Hololens的开机手势,就用户将拳头伸在面前,做一个五指张开的动作,它就类似于一个bloom,一个开机的画面,比方说我要开始或要准备的话,就是先是伸长食指,然后弯曲一下,再回复,那就是以点击为主,那双手的手掌直接平拉就是以,比方说这种视频尺寸的放大啊或者是一些位移为主的。那第三块语音,目前他们在语音识别上面只能识别一些字符令比较短的语音,比方说“打开”“关闭”还有一些启动哪个应用,这块是比较弱化,因为Hololens它是没有外部手部的控制器的,所以非常弱化用户在这块的交互复杂程度,但是VOICE这块就我们了解,包括海外跟国内就普遍认为它不太适合在游戏里面去用,因为游戏的体验是一个非常高耗能的体验,比方说用户攻击、开火一类的全都靠语音识别的话可能是非常累的一个解决方案,可能你打一把LOL可能要喝一瓶水。
那在未来的话,VR跟AR系统中的人机交互其实可能还是以多样化的手势识别辅助控制器为主的。就是之前Google在I/O大会上发布DayDream,DayDream的意义其实更多是在给移动端VR做一个标准,它从底层的雏形算法,到匹配的光学系统,还有对于手机性能的这种标准化设计,最重要的是它也给移动端提出了一个这种交互手柄的解决方案,那这样的话其实才会,特别是对移动端有大的改进在里面,因为,我14年15年做VR的时候感触很深,早期做VR内容,目标是以做出来为主,确实我不管用户晕不晕,反正大概感觉这是在VR里面体验一个过山车就可以,那我当时印象很深14年年底体验早期像3Glasess D1,还有Oculus DK1,我看三分钟过山车要吐半个小时。然后等到15年年底到16年上半年的时候,其实更多的团队就是在拼美术,在拼视觉,那这样的话其实是一个市场也可以说是头盔的清晰度包括显卡的一个升级的需求,但之后其实之后VR更多的发展,可能还是,不仅仅是游戏团队,包括其他的VR内容应用团队对交互的深度理解,因为我们仔细想一下,就是每一代平台包括以前的PC或者移动互联网,其实它每一代平台的互动娱乐的产品或者是各种应用的话是完全基于这一代特性为主的,比方说在PC端起来的office ,或者在PC端起来的各种类似于MMORPG也好,CS这种的游戏,它完全基于鼠标键盘这种可以快速操作快速打字,那可以说在移动端没有一个office说,移动端的WPS,或移动端的office会起来,就是因为移动端的用户是高度碎片化的,而且它的交互并不支持特别快速特别复杂的,所以在移动端最先起来的应用反而是类似像愤怒的小鸟,或者类似于像天天酷跑,甚至早期的捕鱼达人,那就我个人理解的话,其实VR跟MR当下也到了一定程度,就是其实国内跟海外的团队,单就从引擎的理解,或者是美术的功底来说,其实差距并不是非常大的,但是我看到特别是在今年六月份开始,海外一些比较有经验的VR团队,其实他们的画面跟场景做的是非常轻度的,甚至主要以low poly或者以低面的模型分割为主,但他们对HTC或者下一代VR的这种交互设备理解非常深,他们用的所有的玩法,其实都是基于下一代交互为主的,因为我们设计游戏也好,设计应用也好,有一个非常根本的,就是你整个游戏的玩法,整个游戏的故事线其实都是基于这个设备它的交互设备来去做的,那所以就是说,VR当下的话可能更多还是内容团队如何去真正的去挖掘出交互设备在VR应用中的各种的使用的新的场景
视觉交互的眼动追踪技术,那这一块的话更多的是下一代,我个人认为是消费者版的VR设备普及的一个关键性技术所在。眼动追踪技术早期其实是有团队在研究的,但是它的需求基本为零,是因为早期不管是游戏还是视频,它的体验都是基于电脑大屏幕,或者大众平面屏幕为主,所以用户只要面向屏幕是能看到他所需要的视觉信息。那在虚拟环境下以后,就是眼睛,包括眼神,还有头部转动的方向,决定了用户他要看360度里面画面的哪一块,包括他希望在体验中,比方说我们的抗眩晕也好,我们的一些更加真实的场景渲染,以增加用户的沉浸感,当下虽然头盔做了很多克服眩晕感、稳定帧率,但是从头盔层级来说,就是我15年做头盔,知道如果从硬件层级克服眩晕感的话,最主要解决四块第一个就是屏幕的清晰度,因为清晰度越低,用户肯定会晕。第二块刷新率,目前VR最低的底线是75赫兹,低于75赫兹体验会非常差,像Sony、HTC利用插帧技术,本身这个屏幕可能只有75赫兹左右,但是他通过显卡预判下一帧可能渲染的画面是什么,然后提前去预渲染,给用户的感觉像是90赫兹,甚至SONY的PS VR号称120赫兹,我知道它有50%的刷新率全部是靠预判,就是插帧技术去做到的。那第三块延迟率,延迟率是通过三块来显示,一是屏幕,现在VR都用OLED屏,是因为OLED屏用的是非余晖成像的原理,打个比方,我们大部分的手机屏幕是LCD屏或者是其他的,成像的时候是以里面的晶格,通过这种特定的提前算法排布好,通电以后显示发亮,通过不同的RGB颜色排布,但是这个是有余晖的,就是它有一定的消失的时间。一般LCD屏是在20毫秒以上的,所以用户在快速转头的时候,如果屏幕余晖比较高,就会出现拖影或是模糊,这样用户会很容易晕。再有就是它的桥接芯片,数据线的传输,还有图形显卡的处理。就打个比方,屏幕是LCD屏的话屏幕余晖最低15毫秒左右,但桥接芯片,就是屏幕成像的一个算法的桥接芯片,耗时至少3到5毫秒,包括数据线,哪怕用进口的数据线,延迟也基本上要在3到5毫秒左右,显卡的延迟其实是最大的,画面越复杂延迟越高,那整个加起来是一个单向的,那真正的延迟就是用户从转头开始,屏幕成像,然后桥接芯片计算,然后传输,头部转动的位置,加所有的信息,发送到显卡,显卡渲染好,再将画面返回到头盔,这是一个完整的延迟的一个流程,那哪怕是OLED屏,延迟还是比较高的,哪怕体验HTC或者Oculus CV1,当快速转头或跑动时,就会感觉非常晕,就是肉眼虽然感觉不到,但是大脑感觉到的延迟,大家感觉非常晕的,而且还有一个问题这种情况显卡的负担会进一步去加强,这就是为什么现在特别是PC VR技术已经很成熟了,但是为什么不能向消费者,大众去普及,需要八九千,上万的电脑去搭载,就是因为延迟对于显卡的消耗是非常强的,那克服这点的话最主要就是两块,一个是硬件头盔本身在开发的时候,它在硬件选材,算法上面要尽可能降低,对这种图形GPU以及传输这种消耗,第二个就是GPU本身的升级,像NVIDIA,他已经发布的1080,包括未来要发布的一些新的显卡、技术,为VR下步做更重度的沉浸式的体验提供一个更好的基础,但是仅仅依于这点的话,VR技术还是没办法向大众普及的,因为用户始终都是会发现,当有更好头盔的时候它需要有更高配置的电脑,一直处在一个很小众的市场,那就是现在海外,海外其实就是已经有在研究这个技术,叫注视点渲染技术
注视点渲染技术
它在镜片上加可以做动作捕捉,像motion tracking 这种传感器,去捕捉用户的眼球追踪的方向,当时英特尔在阿纳海姆大会上面,展示了一个它非常初级的SMI眼动技术的工程机,用的是Oculus DK2。那SMI技术简单来说就是,人眼摄取图像信息的话,大脑为了保护你不要down机,在你看东西的时候会做一些处理,比方说,一个很大的海报,你看过去会清晰的知道这个海报大概讲了什么,但是你要看上面的文字要获取文字信息,或图形信息的话,你只能看中间一部分,可能就20%左右的范围,就是因为人脑在看一些这种画面,如果是真实情况下的话,你不可能像看过去以后整个画面都是完整的,那现在VR是不能做到这一点,就是当用户看向一面的时候,他是完整的把整个场景360全部渲染出来,这样的话其实用户身后的180度的环境渲染都是浪费的,而且对于用户来说他可能只能看到中间镜片60%的这种范围,而且现在的镜片哪怕是用菲涅尔镜片,像Oculus跟HTC用的新一代的镜片,它的光学畸变损耗相对来说还是比较高的,这就是为什么大家在看VR的时候还是感觉并不是那么的真,就是因为它通过这种高畸变的镜片,会把屏幕本身的晶格感放大,打个比方,4k电视大家可能从远距离看,清晰度非常高,很艳丽,但是如果你拿一个放大镜放在屏幕前面的话,其实你清晰的能看到它上面的晶格感的,那这样用户在体验的时候是很容易晕的,包括对图形显卡的消耗非常的重。
那注意点渲染技术简单说它把整个画面分成三部分,视觉的最外围,蓝线之外,通过一些算法,只渲染20%,只把大概的形状、颜色渲染出来即可,再有蓝色线圈到白色线圈这块大概有30%的视觉区区域,只渲染35%到40%的图形上,保证模型的大体的形状,包括每个叶片,打个比方说的话,这一盆花的话,花盆的颜色,光照的阴影,以及叶片的材质感,它能基本的渲染出来,但不会特别清晰,那在白圈里面是整个画面的30%左右的位置,它百分百渲染,那这个技术的话首先他能最大限度的完成两件事情,第一个就是当下VR的眩晕感如何去克服,因为就像我们刚才说为什么人跑动的时候在VR里面你会觉得晕,其实身体的不协调只占中间的很小一部分,因为我之前像跟海外的Omni包括国内的KAT去做一些合作的时候,我会发现在跑步机上玩CS玩半条命一样会晕,而且晕成狗,就是根本打不了人,就是因为毕竟是一个虚拟的场景,你的身体,如果你的腿动,完全不能跟正常的场景去匹配的话,你的小脑还是会感觉到欺骗,而且头盔在渲染场景时延迟非常严重,就是说你哪怕身体整个动作跟虚拟都完全匹配,还是会晕。所以打个比方,我们在真实跑动的时候,你的视觉为了降低你的眩晕感,你在跑动的时候有没有发现周围的街景,并不是很清晰,就跟你坐汽车,或者坐火车的话,你去看两边,用力去盯两边的景色,你也是看不清楚的,但在VR当下不会,只要判定以头部转动,当下这个场景会百分百渲染出来,然后按照尽可能最高精度呈献,但是这样显卡负担很重。那第二块的话就是通过这样的SMI技术的话,它会大规模降低对显卡的需求,如果这个技术普及,VR哪怕用4K的OLED屏或者单影4K,其实它不再需要去对显卡进行大规模的升级,更多的是显卡它本身对VR的一些底层算法的架构的支持,对未来VR的普及、移动VR、MR设备的普及会有一个很大的帮助

注视点渲染除此之外还有一些比较实用的地方,当用户在虚拟环境里面,低向一个方向去看的时候,他在里面最清晰的这一部分,它会渲染的非常真实,这样的话未来就能做到以假乱真,当下VR很多的内容开发受限于硬件设备跟图形显卡,都选用的是以二次元或者魔幻为主,真正做到次时代级或者做到重度的显示画面的团队非常少,为什么,就是因为当下如果要做这样的游戏,非常难把眩晕感跟延迟、显卡的消耗降到最低的,包括像Blackshield,其实他在做这个VR软件,他在Unreal开发时期,他在整个场景上会做一些取巧的方式,就是玩家的手部,包括它的道具,它的模型做的非常的细,就是非常非常的细,但是远处的场景,大部分也是靠贴图、粗模去做的,通过这样搭配,给用户感觉是非常流畅的,但是比方说他真正要做到像GTA,做到次时代级游戏的情况下,它本身的显卡需求是非常高,而且画面里面出现类似于爆炸、光照、闪电,这种特效发生很可能会出现像掉帧、卡顿的现象,只要一卡用户就会晕。
SLAM技术
SLAM技术和Tango技术可能很多人有听说过,SLAM技术的话也叫CML技术,简单来说就是SLAM技术通过不需要任何的外部的设备,比方说我需要在头盔里面打一个双目摄像头情况下,它能快速的给这个场景做快速扫描,然后快速建模,然后他们通过光照,光学包括墙壁材质的反馈,快速的去反映这个场景里面所有障碍物的形状、材质包括这个场景的大小,包括人在里面移动的时候他也能快速的识别人移动的方向、位移,距离。其实SLAM技术在海外已经有20年了,在国内有部分团队在用,最早可能是在无人机和AI机器人里用的比较多,他们用的SLAM技术是很初级的SLAM,并不是我待会要讲的那些重度的SLAM技术在里面,那当下真正接触到SLAM技术的AR团队可能比VR团队更多一点。我以最通俗的方法去解释什么叫SLAM,打比方,如果有一个机器人,他站在房间里面的话,其实他的两个眼睛是不能像真人一样去通过大脑去判断这个场景是什么的,所以他要判断这个房间里面首先他的空间位置有多大,其次就是他的空间有多少物体,这些物体哪些是桌子,哪些是板凳,然后他在这个物体里面分析出这样的场景以后,他清晰的明白哪些物体是可以穿过去的,比方说地毯跟地板的材质是并不一样的,桌子跟地板材质也不一样,如果他不能准确识别这两个物体不一样的话,他可能会误以为地毯跟桌子一样都是无法通过的,那这样它是没法走的。SLAM技术的话其实可以简单跟大家说一下,如果这个场景里面有跟多物体包括人在里面,其实他用的是这种光谱分析的方法,其实它本身SLAM的硬件设备是有两个双目摄像头,RGB感知的camera、还有一个红外的探头在里面,那么他会在这个空间里面快速的线扫描以后去以颜色区分物体不同材质的,比方说他会给桌子给红色,地板相对来说他的温度比较低,可能会以黑色为主,那人体相对来说就比较热,可能会以橙色这些为主,然后他通过对于颜色跟匹配的这种材质算法、空间算法来去判断这个物体在场景里面他到底是什么。那这样的话其实对于当下的VR或者MR来说,在未来有很大的一个帮助,比方说我们现在在做的两个CV,我能通过一些特定的算法然后配合一些一两百块钱的体感设备快速扫描用户脸部,然后做实时成像,那这样我们以后在玩VR游戏的时候可能你里面做的就不是一个开发者能做的一个VR 的替身,而是你自己如果要选择你自己的真面目去展示的话,他其实可以做快速成像处理的包括后期如果做VR的内容或者是MR的内容的话他可能并不需要像引擎那样就是一步一步通过材质,纹理,包括整个模型建模去做,他可能需要SLAM技术快速扫描,快速成像,就是一个完整的模型出来。再一个就是SLAM技术其实更多是Inside-out 这种大的雏形的基础架构,如果Inside-out技术目前其实像联想他已经有一款手机搭在Project Tango的,包括未来的移动VR可能更多会用SLAM的技术,这样他会解决三个问题,一是空间位移,就当下移动VR他做的足够的便携性,没办法像HTC去在场景外部架设光学或者Light house这种探头的,那通过Inside-out这种技术的话,可能要几百块钱的硬件解决方案,用户就能随时随地的在游戏应用,或者是其他VR,MR应用里面实现走动。  第二就是手势识别跟一些感知,就SLAM技术打个比方,像Magicleap他为什么会吸引这么多的投资,就是简单的VR只是做图形识别,比方说有个卡片或者有个图形,我提前输入到我的APP里面,那我判定一个图形以后就自动叠加一个模型在这个卡片或者在这个图形之上,那SLAM技术并不是的,比方说我通过Hololens也好,或者通过其他的设备也好,当我判定这是一个桌子的时候我在上面即时投射一个花瓶,但是人是在动的,就是你可能通过你的身体不停的去转,这个模型本身相对于你是不能动的,就是他的绝对坐标应该是以桌子整个空间为参照物为主的,而且作为SLAM技术他要判断比方说这个房间他的光线照射的方向,因为如果我投射了一个花瓶在桌子上面,但是他的这种阴影的方向跟现实的物体不一样的话,用户会感觉非常假,所以SLAM技术特别是在后期MR上,他的应用空间会非常的广。

那因为时间有限的话,SLAM很复杂我就大概简单说一下。下一个是Project Tango,Tango技术的话可能更多是为移动VR、MR做准备的,那Tango的话现在主要有三个功能,一个是Motion Tracking就是运动追踪,另外一个就是区域学习,然后还有深度感知,那Motion Tracking跟SLAM技术非常像的,在一定场景里面不通过外设情况下做运动位移,而且非常精准的,前段时间火的Pokemon Go,其实他并不算一个AR的游戏,他其实是图形识别加LBS的一个游戏。那Motion tracking他能做的就是当你从室外走到室内以后,其实GPS是没办法精确判定的,那谷歌为什么要做这项技术,就是当用户通过LBS,他可能走到一些特定的范围之内,去识别这个用户位移的时候,他可以通过Motion tracking在室内同样做这种精确的位置追踪在里面。区域学习,他通过光学源的分析,包括材质分析,会区分室内的桌子墙壁沙发等等,然后做一些准备,包括我们后期做VR应用到人工AI,更高级别的AI的助手、NPC的话,他可能会自动去识别这个场景,比方说能坐在桌子上,沙发上,但是并不可能坐在天花板上。再一个就是深度感知,深度感知其实更多就是我刚才说的像结构光跟一体声,那projectTango在深度感知这一块目前来说是比较低价的,就是Tango的摄像头如果大规模量产的话其实成本就在几百块钱人民币左右,而且Tango技术有个特点,本身功耗是比较低,而且他的算法其实并不是对手机GPU的负耗相对来说要比之前的Light house也好,或者其他的成像技术来说要低很多。那简单来说就是像ProjectTango的话它能做到室内的地图快速实时扫描跟成像,那我们比方说做一些VR的应用、游戏的时候,可能就不需要特别多的美术团队或者是模型团队去做,只需要有搭载这样的设备,快速扫描成型,它最有可能改变的就是当下比方说VR家装行业,类似于VR旅游,VR房产,当下做像国内比较知名的指挥家,美屋365,他们其实做一套VR房产,如果用Unreal引擎做的话,成熟的团队四到五个人大概两周到三周的时间才能做一套房产出来,如果用Tango技术的话,会大大降低模型的制作工艺和成本。那第二块的话就是在VR技术里面,包括后期的PC VR,都可能去改变他现有的用户的交互跟定位的方式会解决我之前说的Lighthouse不能实现多人的同步交互,因为可能会出现遮罩(10:10),遮蔽物,包括他对空间只能限定在4*4范围内,而且不能精确的去判定空间,打个比方,如果我4*4范围内有桌子有书架,但是在HTC的空间定位里面是识别不出来的,它默认在4*4里面就是一个平坦的地方,你在里面可能戴上头盔以后你也看不到,就会碰到桌子,摔倒。再一个就是在AR,AR里面更多的通过这种深度探测器,打个比方,我通过一个pad去照射到这个房间里面面,那我在房间里面通过pad的屏幕看到以后,会给房间里面投射一个沙发,那我把沙发投射到远处的墙壁,那沙发的尺寸应该是要缩小的,包括它的整个的这种朝向,都会根据你放的这个室内空间的位置做相应的改变,那当我把这个沙发拉近,拉到脚下的时候,它的尺寸应该变大,所以它都是需要这种类似于tango技术去感知场景的深度,跟做深度学习。

实时视频交互和多重感官
那第四块是相对来说比较尖端,而且目前来说并不是很成型的技术,就是实时视频交互和多重感官。目前其实在海外来说已经有一个方向,海外基本把360全景视频不定义成真正的VR视频,那它只是作为全景视频为主的,真正的VR视频就是包括Oculus现在研究方向叫互动式视频,用户在VR的360视频里面,首先它应该通过一些机制是能跟视频做深度交互,或者它能影响视频结果的发展,或者能跟视频中的演员做一些提前预判好的交互在里面,现在才叫VR视频。那海外有一些团队就是在怎么去提供更加真实的VR沉浸技术,比方说多重感官技术,刚才我们也有说到,HTC当下的话只能满足用户在4*4的范围里面去走,那这样的话其实它大大限制了游戏的可发挥空间,因为现在HTC的游戏基本是站在原地,地面射击,这样的话就是说你没办法在HTC上面做一个守望先锋,你也没办法在HTC上面去体验现在新的玩法游戏,所以说比方我去CJ或去海外的那种展会我会发现,四五十家内容团队有80%是做各种拉弓射箭或者开枪打僵尸的,就是地面的,还有10%是做那种探索类的,就是你站在原地通过瞬移在场景里面做这种漫游探索,还有10%就是做各种乱七八糟你也不太明白到底是怎么玩的这些游戏为主的,为什么这样,最主要的原因还是因为现有的HTC Vive的空间定位,它限定了很多新的创意是没办法以现有的技术来做的。那包括海外比较知名的Omni的跑步机,14年7月份在kickstarter做众筹,然后两年后的今天依然没有发货,就是因为Omni的跑步机它真正的话也不能解决用户的眩晕感,同时上手难度比较高,就是我用Omni的话,大概要训练两个小时以上吧,才能在Omni上走动,注意是走,不是跑,因为跑得话健步如飞,估计要练一周以上,而且我我不认为它会大规模普及是因为我在Omni上面大概跑15分钟以后基本上就已经汗流浃背,因为它是把你的腰架空以后,你在一个很滑的凹形平板上跑,首先腰上一直使劲保证不侧翻,保持重心稳定,走路方式跟正常走路并不一样,比方说你要往前走,正常应该是你要往前迈步,但在Omni上面你要身体重心前倾,然后你带上头盔以后你会发现你是不敢前倾的,更不敢后仰,因为你会害怕摔倒。

那所以海外他们在做就是说视觉欺骗,就是在一个无限大的场景里面,特别是主题公园,当下国内的主题公园基本上是模拟海外在15年有一家公司叫做The Void,利用Opti tracking这种解决方案做这种大范围两百平也上空间定位的解决方案。但是现在海外最新的麻省理工研究所在做的就是,当你带上头盔以后,其实也是分不清东南西北的,就是我让你走曲线,只要在VR的场景里面你走的是直线的情况下,你依然认为你是往前走的,那所以他在场景里面通过一些墙壁的这种圆形的设置,包括导轨跟内容的高度配合,他们在探索如何在有限的场景里面实现这种大范围的主题公园的体验,比方说在主题公园里面,200平以上,你可能有很多个场景,你要用很大占地面积,但通过这种技术解决方案的话,可以在有限的场景里面尽可能让用户自由行动,然后去探索这个场景里面所发生的所有的事情。
海外现在也有一些团队在做这种用户的嗅觉,就是大家说VR要提供沉浸感,那交互里面,其实嗅觉也算交互的一种。就是现在国外比较成型的一个方向就是在头盔下面安装一些嗅囊,大家可以看到上面有很多管子,每个管子后面跟一个不同的气囊,比如说臭味,香味,用户在虚拟空间里面通过拿一朵花,提前会有一个SDK,然后去识别拿起这个花的时候,就去喷这个香味,如果踩了一坨shit的话,可能就是以臭味为主。那目前这个技术可能,它只是一个探索性的,不一定能代表未来,但是也给VR和后期的MR提供一个方向就是真正的虚拟现实,或者是混合现实也好,它能给用户的沉浸感是全方位的。
海外的团队在研究的叫MIT视频实时互动技术,一个人在通过AR眼镜看视频的时候,能跟视频里面的部分场景的物品做深度互动,抬手的时候会影响树的摆动,通过鼠标或手指的滑取,影响弹簧人弹的这种形变,它的技术其实是通过特定的算法在你实拍的时候,他拍摄的第一帧是不动的,然后通过你手部滑动的位置,和位置拖动的算法去判定你比方说你的拉力有多强,你拉的方向是以哪些为主。那这个技术的话就是目前来说还非常的不成熟,它在未来,它给视频拍摄,包括未来的广告有一个很好的提示,打个比方我们看一段360的视频广告,里面可能男主人公穿了一个阿迪或耐克的鞋,大家可能觉得这个鞋会非常好,可能会伸手去拿这双鞋,在这个视频里面,你是可以把这双鞋从视频里抠出来的,就给你的视觉假象是可以拿出来然后去看的,所以就是说,目前来说,VR还是在很多技术方向上面,包括应用上面,尚属于早期。
现在其实360的全景视频技术含量是非常低的,对于大部分人来说,其实大家更想看的是全方位的去看妹子,但是对这个360拍摄的房间的布局其实你并不感兴趣的,所以就是说未来360视频,包括它的发展,其实海外现在已经有清晰的方向,包括Jaunt跟Next VR,就是如何先通过一些比较简单的技术,在视频中加入深度互动,让用户在视频里面有一些轻互动在里面,所以其实我认为在VR跟MR后期,其实游戏跟视频不一定会有很清晰的界限,玩游戏中间可能有一段实拍的动画,实拍的这种电影你在里面可以做互动,都是有可能的。包括甚至游戏角色里面,已经不再是建模,是通过一个真人的人,然后在里面作为你的队友,作为NPC去扮演,都是有可能的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ