Google I/O上的图灵奖得主:机器智能真会梦到电子羊
在 Google I/O 2019 的第三天,图灵奖最新得主、Google Brain 高级研究员 Geoffrey Hinton 在现场同《连线》杂志现任主编 Nicholas Thompson 进行了一场对话访谈。尽管是开发者大会的最后一天,而且访谈被安排到了午饭时段,但这仍成为了本年度 Google I/O 除首日官方 keynote 之外最引人关注的一场活动。
Hinton 在上世纪 80 年代提出了以人工神经网络作为机器学习研究基石的想法,但在之后的很长时间里,他的观点都被学界和业界视为‘边缘事物’,甚至是一种‘一厢情愿’。直到进入新世纪,随着计算机运行的速度的大幅提升,深度神经网络有了海量可供训练的数据,人工智能终于迎来了新局面。
2012 年,Hinton 带领两名学生提出深度卷积神经网络模型 AlexNet,在图片识别上取得了重大突破,他多年研究工作的重要性才被整个业界认可。除了戴上‘深度学习教父’的花冠,Hinton 在两个月前同 Yoshua Bengio 和 Yann LeCun 一起,被授予了 2018 年图灵奖。
Yann LeCun, Geoff Hinton, and Yoshua Bengio WIRED
因为背痛而多年都只能站立工作的 Hinton 站着完成了这场对话,就像在现场介绍视频里他调侃的那样,他远远领先于当下的‘潮流’。在他的专业领域也是同样。图灵奖之后,这位鲜少接受采访的天才在这次对话中谈到了自己的研究,对机器智能的信心和期望,以及未来的世界和梦境的启迪。
以下是极客公园前方记者从现场发回的访谈实录,经极客公园编辑整理,有删减。
Q:Nicholas Thompson
A:Geoffrey Hinton
Geoff Hinton 亮相 Google I/O 极客公园前线记者
Q:20 年前,当你发表了一些有影响力的文章。每个人都说,这是个好点子,但是事实上我们没法这样设计计算机。跟我们聊一聊,你为什么坚持,为什么你就相信自己的发现很重要?
A:实际上那是 40 年前了。对我来说,人脑工作只有一种方式——通过学习神经元之间连接强度来工作。如果你想要一件设备做一些智能的工作,你有两个选择,你可以自己编程或者让机器自己学习,我们当然不选择编程,我们只能想办法让机器学习。所以(我认为)这一定是正确的方式。
Q:在座的大多数人对神经网络都很熟悉了,但还是请你解释一下最初的想法,以及它是如何在你的脑海中形成的。
A:相对简单的处理元素,也就是松散的神经元,它们连接在一起,每个连接点都有一个权重(weight),通过改变连接点上的权重去学习。神经元所做的是将连接点上的活动乘以权重,把它们加起来,然后决定是否发送一个输出。如果和足够大,就发送一个输出,如果和是负的,它就什么也不发送。你需要做的就是把无数的权重连接起来,然后找到调节权重的方法,然后神经网络就能做一切事情。所以这就是一个调节权重的问题。
Q:那么,你是什么时候开始知道它的工作原理是近似大脑的呢?
A:神经网络一直是这样设计的,它模拟了大脑工作原理。
Q:所以在你职业生涯的某个时候,你开始了解大脑是如何工作的,也许是在你 12 岁的时候,也许是在你 25 岁的时候,你什么时候决定用计算机模拟大脑工作原理?
A:这就是问题的关键。神经网络的整个想法是有一个像大脑一样学习的设备,像人们认为大脑通过改变连接强度来学习一样,这不是我的想法。图灵也有同样的想法,尽管他发明了很多标准计算机科学的基础,他相信大脑是一个没有组织,有随机权重的装置,它使用强化学习的方式来改变连接,它会学习一切。他认为这是获得智能的最佳途径。
Q:所以你遵循图灵的想法,制造机器最好的方法就是模仿人类的大脑。这就是人脑的工作原理,让我们造一个这样的机器。
A:这不仅仅是图灵的想法,很多人也这样想。
Q:所以你有这样的想法,很多人都有这样的想法。你在 80 年代末得到了很多赞誉,因为出版的作品而出名,对吗?
A:是的。
Q:最黑暗是什么时候?那些曾经支持图灵想法的人都开始退缩了,但你却继续向前是什么时候?
A:总有一群人一直相信它,尤其是在心理学专业。但是在计算机科学家中,我想在 90 年代,当时数据集非常小,计算机没有那么快。在小数据集处理上,其他的方法,比如支持向量机(support vector machines)能达到更好的效果,不会被噪音影响。这非常令人沮丧,因为我们在 80 年代发展了反向传播(back propagation),我们本认为这项技术可以解决所有问题,但是结果相反。这只是一个规模的问题,但我们当时并不真正了解它们。
Q:那你为什么认为这行不通呢?
A:这是因为我们没有非常正确的算法,我们没有正确的目标函数。我认为很长一段时间以来,因为我们试图进行监督学习,你必须给数据贴上标签,而我们本应该进行无监督学习,你只需要从没有标签的数据中学习,最后发现这主要是一个规模的问题。
Q:这很有趣,问题是你没有足够的数据。你认为你有足够的数据但是你没有正确地标记它。所以你只是误解了问题?
A:我认为使用标签是错误的,你不应该利用标签的前提下完成大部分学习,而是基于数据尝试模拟结构。我仍然相信,随着计算机速度越来越快,任何给定的数据集,只要计算机足够快,你能更好地做无监督式学习,一旦你完成了无监督式学习,你将以来更少的标签学习。
Q:所以 90 年代,你还是在做研究,仍然在学术界发表研究。但是没有非常大的突破,你曾经想过放弃深度学习的研究,去做一些别的事情吗?
A:这样的工作是一定要去做的,我的意思是大脑学习神经元的连接,我们必须要把这件事弄懂。也许还有很多学习连接强度的方法,大脑用了其中一种,也会有其他的方法。但是你总得学会一种方法,我从没有怀疑过这一点。
Q:那好,你从来不怀疑,那是什么时候开始,你所坚持的有了成果?
A:80 年代,如果你建造的网络有很多隐藏层,你无法训练它们。Yann LeCun 开发了卷积神经网络(CNN)只能训练相当简单的任务,比如实现机器读取手写,但是大部分深度网络,我们是不知道如何训练它们的。
2005 年的时候,我研究出一种深层网络的无监督式训练方法,比如你输入像素值,然后能学习一组特征探测器(feature detectors),能够解释像素值为什么有这样的特征,然后你把这组特征探测器作为数据,你学习到另一组特征探测器,我们能解释这些特征探测器为什么有这些相关性。然后你继续一层一层的学习。有趣的是,你可以做数学计算并且证明,每一次你得到的层不一定具有比上次更好的数据模型,但是你在不断递进。
Q:我知道了,就是你在做观察,结果不是正确的,但是它们越来越接近正确。就比如,我对着观众来做一些概括,不是一下子就正确的,但是我会做的越来越好。大体上是这个意思吗?
A:大概是。
Q:2005 年的时候,你在数学上取得了突破。什么时候开始你得到了正确的答案,你在运算什么样的数据,你在语音数据上迈出了自己的第一步突破。
A:这仅仅是大量的数据,非常简单的测量。大约同期,他们开始在研发 GPU,研究神经网络的人大约在 2007 年使用 GPU。我有一个非常优秀的学生利用 GPU 在航空遥感图像中寻找道路。他写了一些代码,然后被其他学生加以复用,在语音中识别音位,然后他们使用 Pre-Training 的想法,做完 Pre-Training 后,把标签贴在上面,使用反向传播。事实证明,基于 Pre-Training 你可得到好的深层网络,然后使用反向传播,得出的结果确实打败了当时语音识别的标准,起初,只是领先了非常小的一步。
Q:它打败了最好的商业可用语音识别,还是打败了语音识别的学术研究?
A:在一个相对小的叫做 TIMIT 的数据集上,表现略好于最优秀的学术研究,同时也好于 IBM 的成果。很快,人们意识到这个发展了 30 年的技术正在打败标准模型,只要再往前进一步就会发展得更好。
所以我的研究生们去了微软,IBM,Google,Google 是最快转向生产语音识别器的。到 2012 年成果在 Android 展现了出现,从 2009 年提出发展了 3 年的时间,Android 突然变得更加擅长语音识别。
Q:所以,你从四十年前萌生了这个技术概念,自从你发表文章也过去了 20 年,你终于领先于你的同行们,你当时是什么心情?
A:我有这个想法才 30 年。
Q:哈哈,是的,30 年,这还是‘新’点子。
A:它终于在一个真正的难题上达到了最先进的水平,这感觉真好。
Q:当你开始把它应用到其他问题上时,你意识到了它在语音识别上是有效的。
A:我来举几个例子吧。最早从事语音识别研究的人之一的 George Dahl 把深度学习应用到分子领域,你想要预测该分子是否会与某种物质结合成一种很好的药物。当时有一场比赛,他把我们为美国心脏协会设计的标准技术应用到预测药物的活动上,他们的胜利是一个标志,标志着深度学习可以得到普遍地应用。我有一个学生叫做 Ilya Sutskever 跟我说,Geoff 你知道吗?深度学习要应用在图片识别中,李飞飞已经创建了正确的数据集,公开的竞争开始了,我们必须要做。所以我们基于 Yann LeCun 的理论研发了一项技术方法,我的一个学生叫做 Alex Krizhevsky,他真的是一个魔法师,擅长编程 CPU,我们得到的结果比 2012 年的标准计算机视觉要好得多。
Q:建模,化学,语音。这是它成功的三个领域。那它在哪些领域失败了?
A:失败只是暂时的。
Q:它在哪个领域失败过?(笑)
A:比如机器翻译,我想我们需要花很长的时间才能成功。比如,你有一串符号进来,又有一串符号出去,在这两者之间,你对一串符号进行操作,这是很合理的,这就是经典的 AI。事实上,它并不是这样运行。符号串进来,你把它们变成你大脑中巨大的矢量(vectors),这些矢量相互作用,然后你把它们转换回来,而不是把符号串转换出去。如果你在 2012 年和我说,在接下来的 5 年时间里,要用相同的技术实现在多种语言之间进行翻译的效果,Recurrent Net(循环神经网络),但如果只是随机初始权重的随机梯度下降,我不相信事情会发生得比我们预料的要快得多。
Q:所以,最快的领域和最耗时的领域都有什么区别,比如像视觉处理,语音识别,是我们利用感官感知做的核心人类活动,这会是第一个要清除的障碍吗?
A:其他的事情比如运动控制,我们人类擅长运动控制,但是深度学习最终也会取胜。抽象推理,我认为是我们最后要学习的一件事。
‘人类能做的事情,神经网络也能做’ Google I/O
Q:所以你一直说神经网络最终会赢得一切?
A:我们拥有自己的神经网络,对吗?人类能做的事情,神经网络也能做。
Q:人脑未必是有史以来最高效的计算机,有没有一种建模机器的方法比人脑的效率更高?
A:从哲学上来讲,我不反对可以用完全不同的方法来做这一切的观点。这种方法可能是,你从逻辑开始,你尝试自动化逻辑,做了一些很好的改进,你进行推理然后决定通过推理来进行视觉感知。这种方法有可能会成功,但结果却是没有成功。但我并不反对哲学上的胜利,只是我们知道大脑做不到。
Q:但也有一些事情是我们的大脑做不好的,这些事会不会神经网络也做不好?
A:很有可能。
Q:还有一个单独的问题,我们完全不知道这些东西是如何工作的,我们不明白自顶向下的神经网络。
A:可以看一下现在的机器视觉系统。大多数基本上是前馈的,它们不用反馈链接。目前的机器视觉系统还有一点就是,它们非常容易出现对抗性的例子。你可以稍稍改变几个像素,比如一张熊猫的照片,你看它是熊猫,但机器就突然说它是鸵鸟,但问题是你知道这是个熊猫。最开始我们以为这些机器没问题,然后出现了类似熊猫鸵鸟但问题以后,我们又开始有些担心。
我认为这部分问题在于,它们没有从高级但表征中重建,它们试图做有区别的学习,你只需要学习一层又一层的特征检测器,整个目标就是改变权重,这样你就能更好地得到正确的答案。他们并没有在每一层的特征检测器上做类似的事情,检查一下你是否可以从这些特征检测器的活动中重构底层的数据。
最近在多伦多,我们发现,或者尼克·弗罗斯特(Nick Frost)发现,如果你引入重建,它会帮助你更好地抵御连环攻击。所以我认为在人类的视角,我们在学习时会做重建重构,也因为我们通过重构进行了大量的学习,所以我们对对抗攻击更有抵抗力。
Q:我们来聊一个更大众的话题。现在神经网络就能解决各种各样的问题了,人类大脑中是否有任何奥秘是神经网络无法捕捉到的?
A:没有。
Q:没有?所以比如情感,爱,意识都能通过神经网络重构?
A:当然。一旦你弄明白了这些东西是什么。我们就是神经网络,不是吗?
另外,意识,我对这个很感兴趣。人们其实并不知道它是什么,人们对意识也有各种各样的解释,我觉得这是个未得到科学验证的术语。比方说一百年前,你问人们,生命是什么?他们会说,所有生物都有生命力,一旦死去,生命力就飘走了,这就是生与死的区别,就是你有没有这种生命力。
现在呢?现在我们不会说自己有什么生命力,我们会觉得这是个迷信的说法,现在我们懂了生物化学,懂了分子生物学,我们不需要生命力来解释生命了。我觉得意识也是这个道理。我觉得‘意识’是用某种特殊的本质来尝试解释心理现象,而一旦我们用科学解释了意识,你就不需要这种‘特殊的本质’了。
Nicholas Thompson, Geoffrey Hinton 极客公园前线记者
Q:说到研究人脑来改进电脑,我们其实是在研究什么?反过来会怎样?我们能不能从对电脑的研究中学到如何改进我们的大脑?
A:我认为我们在过去 10 年里学到的东西是,比如你采用一个包含数十亿个参数的系统,并且在一些目标函数中做随机梯度下降(Stochastic Gradient Descent),而目标函数可能会获得正确的标签,以填补他们在一串字符中的空白。任何旧的目标函数(都可以)。它的效果比你想象的要好得多。大多数传统人工智能的人和你一样,都会想,取一个有十亿个参数的系统,从随机值开始,测量目标函数的梯度,也就是每个参数的梯度,计算出如果你稍微改变这个参数目标函数会发生什么变化。然后在这个方向上改变它来改善目标函数。你可能会认为这是一种毫无希望的算法,他们会陷入困境,但事实证明这是一种非常好的算法,你把东西缩放得越大,它的效果就越好,这只是一个经验发现。有一些理论,但它在目前基本还是一个经验发现,因为我们已经发现,它使它更合理,大脑正在计算一些目标功能的梯度,并更新突触强度的权重,以遵循梯度。我们只需要算出它是如何得到梯度的以及目标函数是什么。
Q:但是我们不了解大脑。
A:它是一种理论,是很久以前的事了,所以它是一种可能性。但是在后台总有一种传统的计算机科学家说是的, 但是这一切都是随机的你只是学习它的想法通过梯度下降的方法学习,这对十亿参数来说是行不通的。你必须连接器很多知识,我们现在知道这是错的,你可以填写随机参数和学习一切。
Q:我们把它展开来讲。随着我们了解的越来越多,当我们对基于我们认为它是如何运作的模型进行这些大规模的测试时,我们可能会了解更多关于人类大脑是如何运作的。一旦我们更好地理解了它,我们是否可以从根本上重新构造我们的大脑,使其更像最高效的机器,或者改变我们的思维方式?它使用的关系应该很简单,但不是在模拟中。
A:你会觉得,如果我们真正了解正在发生的事情,我们就应该能够让教育等方面变得更好,我认为我们会做到这一点。如果你能最终理解你的大脑在做什么,它是如何学习的,它为什么不能适应环境以更好地学习,那将是非常有意思的。
Q:我们先别到太远的未来,在未来几年,你认为我们将如何利用我们对大脑和深度学习的了解来改变教育的功能? 你将如何让课堂发生变化?
A:几年之内,我不确定我们能学到多少。我认为这会改变教育,不过会需要更长的时间。但是如果你想一想,你会发现虚拟助理正在变得越来越聪明,一旦系统能够真正理解对话,虚拟助理就可以和孩子们对话并教育他们。所以我认为,我学到的大部分新知识都来自于思考,我在思考,在谷歌上输入一些东西,然后谷歌会告诉我。你只需要通过对话来获得更好的知识。
Q:理论上,当我们能更了解大脑时,你就可以对虚拟助手进行改进、编程,经过学习,虚拟助手就能与孩子们进行更好的对话。
A:是的,这方面我没有想太多,不是我的专业领域,但对我来说似乎很合理。
Q:我们也将能够理解梦是如何运作的,这是最大的谜团之一。所以机器人确实可以梦到电子羊。最后一个问题。我听过你的一个播客节目,你说你最珍惜的就是那些刚进入你实验室的年轻研究生们的想法,因为他们不会被禁锢在旧的观念里,有很多新的想法,而且他们也懂很多。你是不是会在自己的研究以外寻找一些灵感?你会觉得自己有局限吗?会不会有跟你一起工作的研究生新人,甚至这个房间里的人过来,说不认可你的观点?
A:嗯,我说的一切(都有人反对)。(场下笑)
‘深度学习现在已经变成人工智能的同义词了’ WIRED
Q:我们还有一个单独的问题。深度学习曾经是个独立的名词,但是现在它已经变成人工智能的同义词了,而且现在人工智能也变成了一种市场营销的宣传手段,含义已经变成随便怎么用机器,都敢说自己是人工智能了。作为开创了这个领域的人,你怎么看这个专业术语的变化?
A:曾经人工智能意味着,你受到逻辑上对启发,对符号字符串进行操作。然后神经网络,是说你想要让机器在神经网络中学习。这两个是完全不一样的企业,而且两个门类关系还不大好,经常抢投资,我就成长在这样的环境里,那会我会开心很多。现在,我看到不少人过去喷我们神经网络没啥用的人,现在张口闭口‘我是个 AI 教授,我需要钱。’这挺烦人的。
Q:你的意思是,你研究的领域成功了,某种程度上吞并了其他领域,这也给其他领域的研究者们钻了空子,他们可以借着东风要投资了,这会让你有些郁闷?
A:嗯,不过这么说也不公平,因为他们中很多人也转变了。
Q:我发现我还有一个问题的时间。在刚刚我说的那个播客节目里,你说你会觉得 AI 就像一个挖掘机,要么挖好一个洞,要么一铲子把自己弄死了。关键就是怎么设计好这个挖掘机,让它成功地挖一个洞,而不是一不小心把自己锤了。你觉得在你的工作中,哪些时候会做出这种‘关键的’决定?
A:我应该永远不会有意(用 AI)制造武器。你可以设计一个挖掘机,轻轻松松就把人头给铲了,我觉得那么用挖掘机太糟糕了,我绝不会在这个方向上研究。