百度吴恩达:图像和音视频搜索是人工智能新方向

jopen 10年前

未来论坛创立大会今天在北京举行。本届大会的主题是“指数 Exponential ——通向明天的技术力量(The power of technology for a new tomorrow)”。

百度公司首席科学家吴恩达为本次论坛做了主旨演讲,他演讲的主题是“机器学习与 AI 人工智能”。在他看来,通过移动互联网的兴起,交流方式从文本慢慢转向图像和视频,所以我们看到越来越多的人搜索图像和语言,通过 AI 我们就能够更好的了解这些文本和图像,以及语言之间的互动关系。

吴恩达还阐述道,对于小孩和老年人来说,有时候可能打字比较困难,如果你能够让他们使用语音搜索,就能够让他们使用方便的信息产品和服务。对于我们普通人来说,使用语言识别和语言搜索也越来越方便,百度在语音识别方面投入了很多。

以下是吴恩达的演讲实录:

Andrew Ng:在过去几年中,AI 人工智能和深层次的学习不断转变技术,而且给公司创建了巨大的经济价值,也在更大改进人类和技术获得的方式。但是关于 AI 人工智能也有非常多的炒作,我今天要做的就是向大家传达两个信息,一个,我希望能够向大家介绍一下 AI 人工智能领域所发生的现象,我希望三十年之后,大家能够讲述什么是脚踏实地,什么是炒作。其次,如果你是组织的领导人,我希望 30 分钟之后你能够有战略性的思维,思考一下最近的历史和 AI 近期的未来,这样就能够更好的领导团队做出更好的关于 AI 和技术的决策,因为 AI 和互联网正在改变着我们的生活和我们的经济结构。

过去十五年间,我们现在都有一个关于人工智能正循环的理念,我们认为它能够带来一个很好的产品,服务很多的用户,有着很多的用户就能够收集很多的数据,用户数据、服务数据,有很多数据就能够使我们使用 AI 继续改善我们的产品。但是这张图的问题就在于,直到近期 AI 这一步其实做的都不好,传统来说,即便是你加大投入,但是它的性能也不会提高。我们现在对 AI 和深度学习的理解,只要你现在衡量 AI 的技术等等,他的 AI 性能会越来越高,这样就能够减少它的成本,提高它的性能,在大数据的时代这些深度学习的算法比传统 AI 算法要更好,因为他能够逐渐提高 AI 的性能,因此历史上第一次我们能够在这个图中完成 AI 的环节,得到数据,得到很好的产品,接触大量的用户。

大多数互联网信息都是基于文本的,通过移动互联网的兴起,我们认为这种交流方式同文本慢慢转向图像和视频,所以在百度我们看到越来越多的人搜索图像和语言,我认为通过 AI 我们就能够更好的了解这些文本和图像,以及语言之间的互动关系。我现在想给大家介绍一些例子,向大家解释一下 AI 是如何使用今天的互联网。

AI 如何使用今天的互联网

百度这样的公司在文本上做了很多工作,我们先从图像开始。七年前我问我斯坦福的学习,让他们写一个算法,在图像中找到杯子。七年前当时最好的算法,他们使用了最好的算法,这就是结果,在各个地方都找到了杯子,这是错误的。对于你和我来说,作为人类来说,很难理解计算机为什么无法识别出这个杯子,为什么计算机看不到我们能看到的东西?计算机很难做到这一点,我们详细的看一看,我们眼中看到的是杯子,但是计算机看到的是很多的像素,所以计算机的作用是看这些数字来考验你这些数字代表的是什么,代表的是这个杯子的口,看起来这是一个计算机的问题,六、七年前如果让机器来解决这些问题是非常困难的。

五年前发生了变化,兴起了深度学习神经网络的技术,我们当时受到了人类大脑运作的启发,开始创造软件,模拟这些神经元的工作方式。深度学习是什么意思?我们建立这些神经网络,深度模拟我们大脑中神经源信息传统的路径和方式。在 AI 中有很多炒作,这些炒作的原因之一,很多人说这句话,深度学习推动科技发展,这句简简单单的话,这句口号都对 AI 进行炒作。

在午餐的时候我跟饶毅进行交谈,他是北大的生命科学家,我们当时都感叹,今天我们其实都不了解人的大脑是如何工作的,所以我们的确无法来准确的模拟人类的大脑。我们深度学习的软件虽然模拟人类的大脑,但是他只是大脑,从特别特别浅的方面来模拟大脑运作方式,我们真的不了解大脑是如何运作的。我们通过不准确的模拟就已经启发了我们新技术的发展,我们使用计算机的视觉,我们给他输入了很多关于杯子的数据。我们在过去五年间发现这些算法,能够从数据中学习,学习这个杯子长的是什么样的,所以我们取得了很长久的进步。今天计算就很容易的识别杯子了。这只是在图像中找到杯子,这是一个很简单的任务。我们的视觉系统能够做的比这多得多,我希望能够给大家展示这些图像,问大家您在这些图像中看到了什么,如果我想问您为这些图写说明,你左边可能会写一个黄车在路上行驶,后面是树林。右面你可以写是一个起居室,白色的沙发,蓝色的地毯,还有下午的斜阳照进了房间。之所以你能够写这些说明,你了解这些图像是什么意思,所以你才能够写说明。你能做的是详细的说明这些图像的信息,另一方面计算机只能识别杯子,这两者之间有巨大的差异。这些说明和字幕并不是人写的,过去几年中通过软件的发展,我们现在已经有软件对这些图像进行字幕的说明,有这样的技术对我们带来了新的机会,使我们软件通过深度的学习分析数据,使我们有更多的数据,使计算机视觉做到五年前无法做到的事情,在可预见的未来,这样的软件使我们能够更好的了解医学的图象。计算,自觉的识别可能是很难的,未来是我们的目标之一,百度眼睛产品是我们对未来的愿景而已。

为什么深度学习现在火了?

为什么深度学习现在开始火了,现在开始越来越好了,我现在解释一下深度学习的功能,以及他能为我们带来什么样的价值,解释深度学习是怎样运作的,为什么越来越好?我现在要做一个比喻,如果你想象一下我们建造火箭,火箭有两个部分,第一部分是火箭发射机,是很大的发动机。第二个是燃料,如果发动机小,燃料很多是不可能的,如果发动机很小,燃料很少也不行,燃料烧着烧着就没了,所以火箭必须要有一个大发动机和很多的燃料。深度学习和这个差不多,我们现在神经网络就是我们发动机,它推动着 AI 的发展,燃料就是我们所用的数据,我们现在有这么多的数据,社会数据化给我们提供了大量的数据,这样输入到我们发动机中给我们作为燃料。在 AI 最近发展主要推动力,因为我们能够建很大的精神网络。另一方面,百度这样的公司能够收集很多的数据,为这些精神网络输入数据。我们有一个很大的技术网络,同时有很大的数据,这样当然深度学习可以越来越好了。

我今天提到的一件事,我们现在能够建造很大的神经网络,五年前,2010 年的时候在学术界用的最大的神经网络有 1000 万的连接,于是模拟神经源之间的连接。四年前,2011 年的时候我们在谷歌启动了一个工程,建造很大的精神网络,使用 1000 个谷歌的服务器,我们当时的团队建造神经网络差不多是原来的十倍大。后来我们发现我们当时的技术其实无法更大,后来我们在其他大学应用了其他的技术,你只用三个服务器就实现了 100 亿的连接,在百度我们使用 GPU 新的技术,现在可以建造非常非常大的精神网络。在 AI 和深度网络中做出很多的进步,都是因为我们能够建造巨大的机器,模拟精神网络,吸收这么多海量的数据,做出预测。

人工智能改变用户交互的方式是语音

我现在和大家展示一个关于语音识别的例子,解释一下我刚才做的发动机核燃料的比喻。百度在语音识别方面投入了很多,很多人是使用语音的搜索,对于小孩和老年人,有时候可能打字比较困难,如果你能够让他们使用语音搜索,就能够让他们使用方便的信息产品和服务。对于我们普通人来说,使用语言识别和语言搜索也是越来越方便的,直到最近基本上所有语音识别都是很简单的软件实施,一个方块里是一个复杂的体系,我们最近决定让我们看一看产生语音识别的软件,把它扔掉,取而代之是神经网络,所以这也就是我们的发动机,因为百度在 GPU 早期投入了很多,所以我们能够建造很大的火箭发动机。燃料是什么?在语音识别方面,大部分学术人士他们都利用数据,有一些人他们有 300 个小时,最大的是 2000 个小时,最开始我们用了几个小时的语音数据,后来有几千个语音的数据,后来建立了合成的语音数据。后来我们一共达到了 10 万个语音的数据,按照语音识别的标准,实际上这是无法想象的数据量。在百度我们有着非常强大的工具,我们可以利用火箭燃料核火箭引擎,把它们放在一起,这样我们就有了语音识别更高的性能,而且也有很好开放的 OPI 进行发现。我们不到一个月之前有很好的结果,我觉得人工智能会改变用户交互的方式就是语音,我们有语音,因为我觉得这里有越来越多互联网的沟通走向语音的沟通,现在像百度的公司业非常多语音的产品,我们可以利用语音,我觉得整个互联网经济和互联网生态系统只是刚刚开始而已,整个的世界现在都在走向移动的设备,现在还没有人设计出一个非常好的移动设备输入的产品,正因为如此,我们现在花很多的时间在小的键盘上进行输字,如果说可以让语音识别运作非常好,在一个安静的环境下,它运作还是非常不错的。

现在出去你在开车,你的手机是放在旁边的座椅上,没有人会利用语音的环境,因为在嘈杂环境下语音识别是不行的。如果我们能设计很好的,在嘈杂环境下运作良好的语音技术,我们当然愿意利用语音技术。如果我在开车,我的手机放在旁边座椅上,我可以跟自己的手机进行沟通,我可以给我妻子发一个短信,我觉得如果有这样语音技术,这样会改变我们整个的世界,会改变我们和移动设备互动的方式,我想要重新设计大家的手机,围绕着一个语音识别的界面进行重新的设计,除了移动的设备之外,我觉得语音也在改变着物联网,包括很多家用电器、可穿戴设备等等。有一些人知道,现在在物联网上,在家用电器中有太多的界面,如果我们能够和我们的设备进行沟通,进行语音识别将会非常好。如果五年前我们说电视的遥控器能够使你和你的电视进行沟通调频道,人们觉得你疯了。我希望可能在我的孩子和孙子辈生命期之内有这样新的技术,也许有一天我的孙子,或者将来你孙子的孙子会告诉你,他们可以直接和电视进行沟通,调频。也许有一天你可以和你的微波炉沟通,微波炉会忽略你吗,它不跟你沟通真的太粗鲁,它不礼貌了。我们发现语音在改变着移动世界,也改变着物联网,而且现在有太多互联网的沟通,我们与技术的互动太多了,我们的互动都是围绕着文本的,还有很多的图像和语音。现在 AI 人工智能技术还有深入学习,语音技术已经成为最强大的技术,可以帮助我们了解和识别这些数据,我觉得人工智能是有着很大的潜力,能够改变我们和技术互动的方式,包括百度i和无人驾驶车等等,他有非常大的潜力,改变我们跟技术的互动。基于如此,我对这样的技术感到非常的兴奋,我在这个基础方面开展很多的工作。

当然,这方面也有很多的炒作,我觉得不幸的是,AI 快速的发展现在促成了一些炒作,也许人们会想,某一天计算机会成为好的机器人,会掌控整个的世界,和我们创造一个很好的世界,也许它们不会成为邪恶的机器人,我们现在手机上还有非常多的代码,我个人看来不会出现炒作中出现的状况。我们可以利用这些技术进行预测,技术不断的改变,我们的生活就是围绕着技术,但是神经网络你知道是非常好的识别工具,还有预测的工具,当你输入数据的时候它们可以进行预测,但是我们在 AI 领域中工作的这些人,我们参加会议,我们发表论文,我们对未来的看法和其他一些有着胡思乱想的人之间有很大的区别,我们的看法不一样。我觉得如果我们能够远离炒作,AI 发展是比较健康的,AI 创造的挑战并不是机器会掌控世界,他很可能会帮助我们替代劳工,我们领导者必须要认真考虑技术,要让人工智能技术帮助我们替代那些繁杂的劳动。