技术贴:揭秘微软黑科技HoloLens是怎么炼成的
本文作者 徐浩 ,中国科大理论物理专业在读, 对航空、计算机感兴趣,爱玩无人机。
今日,微软 Kinect 技术参与人 Alex Kipman 介绍了微软新一代虚拟现实技术 Holograms。绝对是款拽酷炫屌咋天。沉寂了这么多年的微软,似乎终于要崛起了。那要如何评价 HoloLens 的黑科技呢?
以下为正文:
引用宣传视频里面的一句话:
It was science fiction, Microsoft brings it into science fact.
HoloLens 所实现的效果并不是微软一家的创新,他早已流传在种种科幻电影中。HoloLens 是一个 Oculus+Kinect+Jetson TK1 集成起来的夹在鼻梁上的嵌入式怪物。脑补一下把 Kinect 带到头上的情景吧。微软做到了!
首先给没有看宣传视频的孩子介绍下 HoloLens 吧,HoloLens 是一个基于深度摄像头,高性能处理器和双屏幕显示的进阶版 Glass,长这个样子,具体参见微软官网。
根据我目前看到的信息,HoloLens 需要的技术支持包括三个部分:
- 实时的三维计算
这是游戏届玩烂的东西,可以说在阿凡达之后拉开了一个时代的幕布,经过 NVIDIA、Intel 等公司的苦心经营,实时的双摄像头渲染已经很成熟。微软终于把这种技术推向了更广的领域。下图这种效果在也就是现在是游戏级别的水平。
- 精准的姿态确定和位置确定
根据网上流传的信息,可以肯定微软采用了基于深度识别的 SLAM(实时定位与地图构建)技术。这里解释一下什么是 SLAM,就是通过传感器获取环境的有限信息,比如视觉信息、深度信息、自身的加速度和角速度等来确定自己的相对或者绝对位置,并完成对于地图的构建。
SLAM 的准确度对于最后的显示效果非常重要,姿态确定就不是事儿。几十块的电容式陀螺仪或者几百块的 MEMS 抄几段代码就好,但怎么确定位置就是微软的功力了。当然深度摄像头这种事情微软常年吊打整个行业,Kinect 快成行业标准了(帮助了多少论文发表)。想想我们用的激光雷达的价格。真是要哭了。
电影中,使用小型探测器扫描出来了隧道全景并且全息呈现了出来。对应到现实《普罗米修斯》里面用的是这种玩意,相当于一辆低配的奥迪 A8 的价格,可以发射几十束激光同时扫描。Google 无人车也用这种激光雷达来进行实时的路况分析。
微软做到的可是实现了三年前科幻电影的效果啊!
注意这张图,微软暗示进入一个房间之前要先进行扫描,这里明显是在用 Deep Camera 生成 Point Cloud 然后三角面片进行 SLAM(我实验室的某个师兄在微软实习的时候,做的毕业设计也是这个,微软在这个技术上的积累很强的)。如果确定是和 Kinect 类似的红外摄像头,那么可以认为 kinect 有的毛病他都会有,比如对黑色物体、光滑表面的探测。
可以说,HoloLens 的核心难度是深度探测和相关的手势识别。这可是微软的专长了。所以 HoloLens 就是一个戴到了鼻梁上的 Kinect。
为什么说 SLAM 对于 HoloLens 非常重要呢?因为只有实现了靠谱的 SLAM,才能知道眼镜的空间坐标和相对于室内各种障碍物的位置,同时识别出各种室内摆件的形状,这是宣传片中人机交互的基础。
在视频中,主人公一直在走动,画面的稳定性很好。
注意上图这里,可以看到对于各个表面的贴合度已经达到了 SLAM 的程度。
- 图像识别技术
这里注意到一个细节,展示在三维空间中的 UI 很像是 Autodesk Fusion 的 UI,难道自动桌已经先行一步?来自官网的一张图片,可以看到使用的正是 Autodesk。
作为半个工程师,我当时买 Leap Motion 就是为了玩 Solidworks Fusion。现在有了 HoloLens,比 Fusion 体验不知道酸爽多少倍。脑补一下去参观 EAST 的时候眼睛里显示出 EAST 剖面的情景。不能再震撼了。
这三个技术在近些年成熟,促成了 HoloLens 产品化。之前 Google Glass 的设想与此类似,Hololens 把它推向了现实。
其实 Hololens 所实现的效果也不是新鲜货。早在冷战末期,武装直升机飞行员就通过头盔里面的信息来操作机枪所瞄准的方向。这两年我军也有装备。当年 Su35 的“回马枪”向后发射的导弹就是用尾椎雷达和头盔瞄准具实现的。
更进一步,上图用到的也是类似的技术。
不过,根据技术分析,Hololens 可能会遇到如下一系列困难:
第一,耗电量。计算视觉、SLAM,以及反过向进行三维虚拟现实,都是常耗费计算量的任务。 Hololens 是时势造英雄的产品,这种计算量在二十年前可是阿拉莫斯实验室用于核聚变模拟的计算量。现在只要耗电量跟的上,NVIDIA 的 Tegra K1 还有 Intel 家的协处理器在嵌入式上飙计算量没问题。
第二,是在开放环境、欠光线环境的识别度问题。我对此持保守态度,得拿到产品再说。
第三,是定位精准度问题。这是老大难问题了。
事实上,上图中这种配合将成为很长一段时间内的主流。
如果修的不是自来水管而是血管,看到的是通过 B 超技术实时扫描出来的人体内部,那么未来的医院会是怎么样的。
如果显示的不是自来水管的 manual,而是实时匹配无人机的爆炸视图,那么以后的工厂和 DIY 是怎么样的。
让人难以想象的是,这一切居然要成真了!
微软研究院养了那么多人真的不是白养的。目前来看,微软在这些技术上解决的都非常好。
另外十分看好 HoloLens+ 无人机的交互。拿到货以后我要做的第一件事情就是把我们的无人机系统移植上去。这画面太美。我简直不敢想。
还有多系统配合,这是像 iPhone 可以推动 21 世纪历史进程的玩意。
买买买!
估计 Google 也会坐不住了,也会有大动作,相关技术大部分(包括廉价的深度摄像头)都是开源的,估计很快会有公司扛包出现类似设备的开源硬件和软件,市场一刺激华强北 也不会安分,投资空间有多大。各位手里有钱的主,都掂量掂量吧。由 iPhone 引发的历史轨迹就是证明。
看起来,全息估计不会成为主流发展方向了。
不过,我最好奇的还是,这个东西进入中国以后,广电会不会要求接入都要审批(显然会抢电视机的饭碗)。