汤姆·汉克斯如何变成乔治·克鲁尼?机器学习算法学会从网图重构人脸
华盛顿大学的研究者从大量的网络图片中,重建了一些名人(如汤姆·汉克斯)的脸部3D模型。这些模型可以发表真实演员从未说过的演讲,在未来或许能从家庭或历史照片中构建出交互式的人物数字模型。
汤姆·汉克斯近年来饰演了许多角色,从年轻人到老人,从聪明人到头脑简单的人……但我们依然还是能认出他是汤姆·汉克斯。这是为什么?是因为他的 长相、神态还是动作?华盛顿大学的研究者证明,对拥有海量照片的名人(如汤姆·汉克斯),机器学习算法能从网上的图片中捕捉出他们的「面部人格 (persona)」,并创建一个数字模型。有了足够的视觉数据可供挖掘,这个算法能够让汤姆·汉克斯的数字模型进行他本人从未发表过的演讲。
该研究的第一作者、华盛顿大学计算机科学与工程系的研究生Supasorn Suwajanakorn说:「为什么汤姆·汉克斯会看起来像汤姆·汉克斯?我们的计算机系统能够模拟汤姆·汉克斯的行为,或许能给出这个问题的答案。」 这依赖于华盛顿大学计算机科学助理教授Ira Kemelmacher-Shlizerman在3D面部重建、追踪、校准、多纹理建模和控制技术方面取得的进展。这个新成果将于12月16日公布在智利 举行的计算机视觉国际会议上。
下面这个视频展示了该团队最新的成果——转移表情,并将一个人讲话的方式「移植」到另一个人脸上。例如,将前总统乔治·布什的神态特点移植到另一个政客或名人的脸上。
华盛顿大学计算机视觉研究者们有一个共同的目标,那就是从家庭照片、视频、历史记录等视觉信息中创造出完全互动的3D电子面部人格。这个成果让他们距离自己的目标又更近了一步。
随着虚拟现实和增强现实技术的发展,他们希望能用家庭照片或视频创建远方亲人(例如居住在另一个半球的祖父)的互动模型,而不仅是用二维的 Skype来沟通。Kemelmacher-Shlizerman说:「或许某一天,当你戴上一副增强现实的眼镜,就能看到你母亲坐在客厅的沙发上。这种 技术现在还不存在,但显示技术已经在飞速发展。然而,如何在3D世界中重建你母亲呢?」研究者认为,脸部3D建模技术将弥补这个缺陷。
该论文的共同作者Steve Seitz说:「想象一下,你将能和任何你不能实际接触到的人进行对话,例如勒布朗·詹姆斯、奥巴马、卓别林……并与他们互动。我们正朝这个方向努力。要 实现这一点,就必须让模型说出真人并没有说过的话,但感觉起来还是他们自己。这篇论文就证明了这种可能性。」
现有的技术想要创建真人的三维全息图像,通常需要演员进入特制的摄影棚进行拍摄。他们煞费苦心地从每一个角度进行拍摄,捕捉演员的每一个细小的动 作——这在你的客厅里可办不到。除此之外还有一些其他方法,但依然需要用相机来扫描真人,再创建一个基础的「化身(avatar)」,才能用在电子游戏等 虚拟环境中。但是华盛顿大学的计算机视觉专家们希望从互联网上已有的随机图片中重建电子模型。
要重建汤姆·汉克斯、奥巴马或丹尼尔·克雷格这样的名人,机器学习算法需要挖掘至少200张网络图片,这些图片的场景不同,人物的动作也不同—— 这个过程也就是所谓的「野外学习(learning in the wild)」。Kemelmacher-Shlizerman说,多年来他们一直在开发这个算法:不需要演员亲自前来,也不需要任何摄影设备,仅从网络图 片就构建出真人的数字模型。
下面这个视频中,Suwajanakorn展示了他们最近开发的一种技术,可以捕捉依赖表情的纹理,也就是人物微笑或惊讶时的细微面部差异。
通过控制光照条件,他开发了一种新方法,能将一个人脸上的细微表情变化转移到另一个人的脸上。这个突破使得他们能够「控制」另一个人的数字模型, 做出同样的动作和表情,有潜力迎来一大批动画和虚拟现实新应用。Seitz说:「我们能让模型拥有布什的表情、嘴型和动作,但他却长着一张乔治·克鲁尼的 脸。」
来自 sciencedaily ,机器之心编译出品。编译:汪汪。