Andrew Ng:人工智能和机器学习驱动的“先进教育学”
一个月前,Coursera 搬进了位于硅谷山景城的新办公室,这里的墙上大大地涂鸦着“先进的教育学(Advance Pedagogy)字样。
除了融资达到了 8500 万美元的规模,Coursera 直指创收的 Signature Track 项目也处于健康的增长曲线中。Signature Track 让用户可以选择一套课程,完成后通过支付费用获得证书。在 2013 年 7 月末开始这个产品后,达到第一个 100 万美金收益花了 9 个月,随后的 3 个月,这个收入就得到了翻倍,又三个月之后,这个收入数字变成了 400 万,增长呈加速度。
就在自己的公司处于良好上升态势之时,创始人 Andrew Ng(吴恩达)则宣布加入百度的深度学习研究院。最近几天,他正在密集地为百度面试人才,奔走于 Coursera 的新办公楼和百度的新办公楼之间。他说,能和他多年的好朋友、著名机器学习专家余凯一起工作,他感到相当兴奋。
在这个时间点上,从他对 Coursera 过去的设计、未来的构想,到如何运用网站收集的数据,到他未来更主要的职责——百度首席科学家,PingWest 与 Andrew Ng 进行了一次独家访谈。
PingWest = PW Andrew Ng = Ng
PW:Coursera 最初的学习和教育模式是如何被设计出来的?
Ng:我做了很多事情,也经历了很多迭代。2011 年的时候,我就开始思考 MOOC 运动,我在 2011 年建了 6 个网站,但只有 1 个最后呈现了病毒式增长,吸引了注意力。但其中的每一个都有后来的 Coursera 中的一些元素。
我和斯坦福的朋友花了很多时间尝试哪些是可行的、哪些不行。让我来告诉你一些没成功的,其中的一个网站是我们和高中合作,两个人在那儿学习,我 输入我的名字和邮箱,你也输入你的,我们可以同步一起看教学视频、一起做测试。这是个无比糟糕的点子,没有人用这个网站。因为人们更倾向于自个学习,例如 你错过了一些内容时,你想要停下来,而我想要继续看视频,这显然是冲突的,人们都想要掌握视频的控制权。
对我而言,MOOC 最重要的一点在于规模化。在 Coursera 之前我就做了些关于众包评分的研究,第一版 Coursera 的设计里其实没有同学互改作业这一功能,在那一版里我教的机器学习,我朋友教的是数据库分析课程,因为我们当时没想清楚到底怎么做才是最好的,一直到第二 版的设计中才加入了它。
PW:你对 Coursera 的愿景是什么?未来的计划又是什么呢?尤其是邀请了耶鲁的校长 Rick Levin 加入,Coursera 是否越来越像一所在线的大学?
Ng: 今后,我的主要职责会是在百度,但我仍然会在 Coursera 全方位地帮助这个公司。我希望 Coursera 给每个人获得良好教育的机会。我认为教育给予你超级力量(Super powers)。Coursera 未来不会变成一所大学,我们的大学合作伙伴在提供学位上做的已经非常好了。我们更愿意成为一个平台,他们可以把内容放在上面。Coursera 不会提供学位,我们做别的事情。拥有一个学位在你的简历上非常有用,但有一个 Coursera 课程的证书也能一样有用。这种证书是一种专长的象征。我认为,教育变得更加得模块化,学位是一整块长达 4 年的项目,但我认为大多数成年人不需要一个 4 年全日制的教育,他们需要一门或者几门课程。所以教育会打散成模块,我们在一个绝佳的位置去满足这种需求。
PW:在你看来,Coursera 是否在和大学竞争?
Ng:我如果让你想一下你最喜欢的老师,你和她愉快的对话交流,我们可以用电脑代替她吗?答案显然是否定的,甚至去做这种尝试都是很愚蠢的。你最爱的老师毕生花了很多时间一年又一年地教授同一门课程、批改试卷。我认为机遇是在于,我们应该用技术来替代这些常规、重复的教学流程,这位你最爱的教授在未来就可以花更多的时间和学生交流对话,就像她和你之间产生的火花一样。我不喜欢 MOOC 和教授们争夺学生,MOOC 该做的是解放教职员工的时间,让他们花费他们宝贵有限的时间来创造更多的价值。75% 我们的用户,是已经有本科学位的。这种带有证书形式的学习,是对大学教育的补充。你在大学学位上花了 4 年,那接下去 4 年呢?
如果一个 18 岁的孩子被北大录取了,有人争论到底是去上北大还是在家学习免费的北大课程的话,我肯定会说,去北大念书去。你可以获得更多更美好的经历和体验。
PW:你曾经说过,在线教育是均衡器,让每个人都能享受到教育。但你又提到,Coursera 的用户 75% 都有了本科学位。已经受到良好教育的人通过 Coursera 学习更多的知识,而那些更需要知识来改变命运的人,比如高中辍学生,却并不是 Coursera 的使用者,这样在线教育如何发挥“均衡器”的功能呢?
Ng:当我们说 75% 的人有本科学历的时候,没有说的那部分是,另外 25% 的人并没有本科学位。我们觉得我们可以为这些人提供服务,真是太棒了!就算 Coursera 只服务了 100 万没有本科学历的人群,都在一定程度增加了社会公平。Coursera 服务了 565 万本科及以上毕业生,这不影响我们也服务了那 195 万没有本科学位的人这个事实。
Coursera 使用者中,三分之一来自于发展中的经济体。我们即为来自发达国家的人群服务,也服务到了发展中经济体的这些人群。我在科技中看到的是,科技总是“涓滴”的,比如汽车、网络,一定是有财富的人先使用上这些的。但科技总是缩小差距的,当智能手机刚出现的时候,有钱人先有使用机会,几年之后的现在,有那么多人都有智能手机了。但我们在做一些事情加速这个过程,比如开发 Android 应用,我们发现,在贫困地区的人通常会花费很多时间在交通出行上,因此我们的移动端允许下载视频,让他们在出行路上看。
PW:Coursera 在一些地区设立“学习中心(Learning hub)”,让没有网络、甚至是没有电脑的人群可以聚集在一起学习的项目,进行得如何了?
Ng:我们对这个项目取得的成绩满意。比如说在肯尼亚这个,是在孤儿院里。我们也和各地的美国政府部门,比如领事馆合作。他们会开放空间,来为当地没有网络的服务的人们提供 Coursera 的课程内容(总共和 30 个国家的领馆合作,每个领馆的教室数量在 10 – 70 个不等)。这个项目最大的挑战在于,每个学习中心的人数还相对有限。在 Coursera,我们思考很多和规模化有关的问题。现在我们有 770 万学习者,50 万在中国,每天都有 12000 新用户加入。我们试着让自己的每个努力都可以规模化,这样每个举动都可以影响到更多更广的人群。
PW:你们在中国找到了很好的伙伴,他们贴近年轻人、用户是有受教育的群体。Coursera 在进入中国市场前做了一些什么准备?
Ng:当时我们要开始全球化的扩展,我们用很多方式做了分析,哪些有着庞大用户量的国家是否有很好的因特网接入?是否用户的英语足够流利?是否 有足够稳定的宽带服务?我们从不同纬度做了调查,不管是哪一方面的调查,中国都在很显眼的位置。审视我们在中国的用户呈现出来的规律,我们发现网络链接是 最大的问题,这是我们和网易合作的开始,把我们的一些视频镜像放在中国。我们的工程师团队特地去中国验证我们网站的运行速度,视频速度仍然相当得缓慢。
我们很幸运,果壳有一个讨论社区,那上面已经有很多关于 MOOC 和我们的课程的讨论。事实上,我们不记得到底是谁主导了这个合作,好像是我们的一个员工认识他们的员工,然后开始对话的。但我们确实发现他们和我们的价值观一致,都相当地重视知识。
PW:怎样看待中国这个市场?对于 Coursera 而言,有什么独特之处呢?
Ng:我们在探索中国用户规律上仍处于非常初级的阶段。比如,中国用户在使用社交媒体上和美国人使用社交媒体非常不同。我觉得我们还没怎么弄清 楚呢。关于课程认证,我们发现越来越多的美国雇主把 MOOC 认证当回事了,如果你有一个在线课程的认证,雇主会因此给你一个工作的。在中国,这点仍然在推进之中,我们也仍然在研究如何向中国传达这个信息。
最大的不同是语言,中文课程在中国和台湾更受欢迎。不过,有趣的是,也有一些美国人在上中文的课程。有件事是不断地重复的:这个世界正在变得更 加得接近。另外一个中国和任何别的地方都不同的是,在中国,很大一部分 Coursera 用户来自于大学。在其他地方,大学生的比例比较低,在中国这个数字接近 50%。
PW:Coursera 收集的数据如何被用于理解人们的学习曲线?怎样有效地促进有效的教育呢?
Ng:课程被电子化了,因此所有在 Coursera 上的活动都是电子化的。你的每个动作都是可被追踪的到——我们记录每次点击、作业、每个任务是否被正确批改修订,我们知道你是不是在观看视频的中途暂停, 我们不仅知道你在讨论组里写了些什么,也知道你获得的反馈。正因为有大量的学生,每个学生产生的数据,让我们收集到的学习数据数量达到了史无前例的程度。 就在过去的一年里,Coursera 收集的教育数据,超过了过去 5000 年所有的教育数据总和。有了那么多数据,我们就此和大学院校的研究院合作,来理解人类学习这件事。
比如说,如何去发现课程作业中是有错误的?你有一个包含 100 道题目的测试,如果这些试题中有些本身题目有错,你如何发现它?你可能想,学生可能会答错,确实。但仅仅是很多学生答错了,这不代表一个测试本身含错,也 许只是问题很难。在 Coursera 的数据里,因为学生做了很多的测试,我们可以知道哪些学生厉害,哪些有点弱,所以仅仅是因为问题比较难的话,厉害的学生答对的概率会更高。对于检测本身含 错的测试题,我们的标准是,强的学生并没有比起弱的学生表现得更好。这是更可靠来识别本身含错试题的信号。这是因为上千的学生做了测试,我们可以从数据的 角度来测试。
PW:Coursera 的数据得出的结论是否对改进传统课堂体验会有帮助?
Ng:这有点像“翻转课堂”的理念。如果你在斯坦福教 100 个学生,你没有足够的数据来得出结论。在线课堂,你一下教 50000 个学生,数据就可以用来帮助提升教学内容,来更好地教斯坦福那 100 个学生。用我举例子,有成千上百个学生让我可以很容易发现一些常见的谬误。
有很多合作大学事实上从在线课程本身发展出创新来。比如乔治亚理工物理学的 Micheal Schatz 教授,他想找出方案来改进实验室课程。他让学生丢东西然后用手机视频记录物体轨迹,学生可以逐个画面地做分析来预测篮球落地位置,以此来学习牛顿运动定 律。每个学生的体验都得到了提升。
注:翻转课堂(Flip Classroom)指调整课堂内外的时间,将学习的决定权从教师转移给学生。学生主动基于项目进行学习,共同研究解决本地化或全球化的挑战以及其他现实世界面临的问题,从而获得更深层次的理解。
PW:是否大型开放式网络课程(MOOC)由于参与人数众多,也可以帮助一些教授完成他们的研究?
Ng:这不是在线公开课的主要用途,但是一两个课程确实用到了这个概念。在线公开课最珍贵的时形成了一个相互分享信息的社区。比如,有老师在教 食品标签的课时,让每个学生都跑到超市里去拍食品标签然后放到讨论论坛上,这个东西全世界都不一样,很有趣。你想想除了这里,还有哪里你能看到全世界各地 的食品标签呢?对学生而言,他们看到了全世界各种不同的食品标签,因为参与了课程,每个学生的体验都得到了提升。如果你只是在旧金山或者北京教课,你没有 办法获得如何丰富的有趣体验。
PW:Coursera 和你的本业,机器人、机器学习以及人工智能有什么联系吗?
Ng:有那么一点,但是不多。MOOC 收集了那么多数据,我们一直使用人工智能和机器学习来分析这些数据,我刚刚说的这些故事都是使用机器学习的工具实现的,这是前所谓的教育数据,不过我不太 可能把这些数据用在深度学习领域。Coursera 有的数据非常独特,我们有那么多教育数据,在此之前没有人收集过这些,我们发现即使是很简单的分析都能发现相当有意思的结果。
PW:加入百度之后,你对构建这个实验室有什么规划?
Ng:人工智能是非常资本化和集约化的,我们想造下一代的深度学习系统,需要许多相当昂贵的计算机、要具有性能良好的计算力,雇佣一大批人工智 能领域的专家和计算机系统的专家。教育和人工智能都是非常让人兴奋的问题,但是有很多人都愿意留在人工智能领域。很幸运,硅谷有很多人愿意在人工智能领域 工作,余凯和张潼彼此是好朋友已经很多年了,他们在百度做的很多工作都非常让人振奋,余凯做的很多深度学习的研究工作,比我见过的很多东西都要先进许多许 多。我和他也是好多年的朋友,将要和他一起工作让我非常兴奋。
对于中国公司拷贝美国公司的传统固见已经过时了,你看许多中国的创新对中国是独特的,美国的创新对美国是独特的。我们有两个不同的生态系统。美 国的公司,平均而言,有着更成熟的技术,但我看到了很多在中国的创新,比如说余凯的深度学习项目。我相信,以后我们不再会说“中国制造”,而会说“中国创 造”。