神经网络简史

jopen 10年前

作者:团成片的尼克

自图灵提出“机器与智能”,一直就有两派观点,一派认为实现人工智能必须用逻辑和符号系统,这一派看问题是自顶向下的;还有一派认为通过仿造大脑可 以达到人工智能,这一派是自底向上的,他们认定如果能造一台机器,模拟大脑中的神经网络,这台机器就有智能了。前一派,我想用“想啥来啥”来形容;后一派 就称之为“吃啥补啥”,估计他们的思想来源于中国古代的原始思维,套一句庸俗的哲学词,前者偏唯心,后者偏唯物。这两派一直是人工智能领域里两个阶级、两 条路线的斗争,这斗争有时还你死我活。

神经网络简史

麦卡洛可(McCulloch)

神经网络简史

皮茨(Pitts)

模拟神经网络的原创文章发表于1943年,两位作者都是传奇人物,麦卡洛可(McCulloch)和皮茨(Pitts)。话分两头。

皮茨打小就喜欢数学和哲学,初中时还读过罗素的《数学原理》,还和罗素通信,罗素爱才,邀请他到英国跟随自己学习逻辑。但皮茨家里是苦出身,连高中 都读不起,英国留学自然未果。他十五岁时,他爸强行要他退学上班,就像所有爱读书的穷孩子,皮茨一怒就离家出走了。他打听到偶像罗素那时要到芝加哥大学任 教,就只身来到芝加哥,还真见到了罗素,老罗遂把他推荐给那时也在芝加哥任教的卡尔纳普。卡尔纳普想看看这孩子到底有多聪明,就把自己的《语言的逻辑句 法》一书送给皮茨,没过一个月,皮茨就看完了,把写满笔记的原书还给卡尔纳普。老卡惊为天人,于是给他在芝加哥大学安排了份打扫卫生的工作。别看不起打扫 卫生,电影《心灵捕手》(Good Will Hunting)里马特·达蒙饰演的角色也是在知名大学打扫卫生时,不小心解了道数学难题,引起老师的注意。扫马路至少可避免流浪街头。皮茨后来结识了也 在芝加哥的麦卡洛可。

沃伦-麦卡洛可比皮茨大一辈,他本科在耶鲁学哲学和心理学,后在哥伦比亚得了心理学硕士和医学博士(MD),其实医学博士和哲学博士不是一回 事,MD不是学术学位,属终极职业学位,和MBA、MFA差不多。MD的那个D是指“医生”,PhD的D才是博士。麦卡洛可毕业后做了几年实习医生,先去 了耶鲁研究神经生理学,后又去了伊利诺伊大学芝加哥分校,做精神病学系的教授。麦卡洛可的强项是神经科学,但不懂数学,他和十七岁的流浪汉数学票友皮茨是 绝配。他们合作的成果就是神经网络的第一篇文章:“A Logical Calculus of Ideas Immanent in Nervous Activity”, 发表在《数学生物物理期刊》上。这篇文章也成了控制论的思想源泉之一。

神经网络简史

诺伯特·维纳

控制论的始作俑者诺伯特·维纳早年自称神童,他爸是哈佛教授,曾经带着他到英国见过罗素,但罗素特不喜欢这孩子和他爹。自打进入二十世纪后,甭管哪 门哪派的学问,最后都能扯到罗素那儿,不想得诺贝尔文学奖的科学家都不是好情人。维纳后来也在哈佛任教,但不被主流数学家喜欢,没拿到终身教职。最后到了 隔壁的麻省理工落脚,在二战时搞了点武器研究。那时最好的数学家和物理学家都参与了造原子弹的“曼哈顿”计划,维纳却没沾边。这也许同他的个性有关系,他 的同事和家人都觉得他对数学之外的事情反应迟钝。维纳提出“控制论”后出了大名,在麻省理工搞了一大笔钱,麦卡洛可就带着皮茨等一票人马投奔维纳,有钱才 能当老大,哪都一样。维纳的老婆玛格丽特是纳粹,在二战时,家里还偷藏了本英文版的希特勒的《我的奋斗》。那时他们的女儿芭芭拉正在读小学,有意无意也看 过那书,写作文时居然引用书里的“警句”,差点被学校开除。麦卡洛可的老婆是犹太人,与玛格丽特形同水火。其实维纳祖上是波兰犹太人,玛格丽特早干啥去 了?维纳娶玛格丽特是为了自嘲吗?就像很多中国男人讨洋老婆或老外娶中国剩女,图的不是相貌,是稀罕。反正最后维纳被中和为“不可知论者” (agnostic)。玛格丽特有次对维纳说麦卡洛可小组有人(可能暗指皮茨)勾引宝贝女儿芭芭拉,维纳大怒,随即断绝和麦克洛克及其学生的所有往来。现 在看玛格丽特是有意造谣。但维纳的举动对皮茨造成巨大创伤,皮茨本来是维纳的特招学生(special student),但估计他年幼时受过挫折,秉性怪异。和维纳闹翻后,他拒绝麻省理工给他的研究生学位,对学问也心灰意冷。皮茨1969年比他的长辈麦卡 洛可早几个月离世,只有四十六岁。

神经网络简史

迈克尔·阿比卜(Michael Arbib)

得维纳真传的人不多,不能不说一下迈克尔·阿比卜(Michael Arbib)。他二十三岁就在维纳手下得了PhD,他出名是那本科普书《大脑、机器和数学》。阿比卜后来创办了麻省大学的计算机系,并延揽一帮人工智能人 马,其中有后来以“强化学习”出名的巴托(Andy Barto),使麻省大学的人工智能一直处领先地位。阿比卜后来转往南加州大学,担任一堆系的教授,包括计算机、生物、生物医学工程、电气工程、神经科 学、还有心理;他那名片要是印出来,估计很像中国的农民企业家,就差“政协委员”或“人大代表”了。阿比卜到南加州后,没出过什么有影响力的原创成果。在 神经网络不景气时,巴托的“可适应学习实验室”曾经短期收容了很多人,其中就有后来的大佬级人物,如乔丹(Michael Jordan),乔丹在伯克利时又培养了Andrew Ng等一干人马,那是后话。

1949年,神经心理学家Hebb出版《行为组织学》(Organization of Behavior),在该书中,Hebb提出了被后人称为“Hebb规则”的学习机制。这个规则认为如果两个细胞总是同时激活的话,它们之间就有某种关 联,同时激活的概率越高,关联度也越高。换句话说,就是“吃啥补啥”。2000年诺贝尔医学奖得主肯德尔(Eric Kandel)的动物实验也证实了Hebb规则。后来的各种无监督机器学习算法或多或少都是Hebb规则的变种。

神经网络简史

弗兰克·罗森布拉特

神经网络研究的后一个大突破是1957年。康奈尔大学的实验心理学家弗兰克·罗森布拉特在一台IBM-704计算机上模拟实现了一种他发明的叫作 “感知机”(Perceptron)的神经网络模型。这个模型可以完成一些简单的视觉处理任务。这引起了轰动。罗森布拉特在理论上证明了单层神经网络在处 理线性可分的模式识别问题时,可以收敛,并以此为基础,做了若干“感知机”有学习能力的实验。罗森布拉特1962年出了本书:《神经动力学原理:感知机和 大脑机制的理论》(Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms),这书总结了他的所有研究成果,一时成为“吃啥补啥”派的圣经。罗森布拉特的名声越来越大,得到的研究经费也越来越多。国防部和海 军都资助了他的研究工作。媒体对罗森布拉特也表现出了过度的关注。毕竟,能够构建一台可以模拟大脑的机器,当然是一个头版头条的抢眼消息。此时的罗森布拉 特也一改往日的害羞,经常在媒体出镜,他开跑车、弹钢琴,到处显摆。这使得另一派的人相当不爽。

明斯基是人工智能的奠基人之一,是达特茅斯会议的组织者。明斯基在一次会议上和罗森布拉特大吵,他认为神经网络不能解决人工智能的问题。随后,明斯 基和麻省理工学院的另一位教授佩普特合作,企图从理论上证明他们的观点。他们合作的成果就是那本影响巨大、“是也非也”的书:《感知机:计算几何学》 (Perceptrons: An Introduction to Computational Geometry)。在书中,明斯基和佩普特证明单层神经网络不能解决XOR(异或)问题。异或是一个基本逻辑问题,如果这个问题都解决不了,那神经网络 的计算能力实在有限。其实罗森布拉特也已猜到“感知机”可能存在限制,特别是在“符号处理”方面,并以他神经心理学家的经验指出,某些大脑受到伤害的人也 不能处理符号。但“感知机”的缺陷被明斯基以一种敌意的方式呈现,当时对罗森布拉特是致命打击。所有原来的政府资助机构也逐渐停止对神经网络的研究。 1971年,罗森布拉特四十三岁生日那天,在划船时淹死。很多人认为他是自杀。王国维沉湖时遗言“经此世变,义无再辱”,在罗森布拉特,我猜“辱”是明斯 基的书,“世变”是随后“神经网络”学科的消沉。不同的是,王静安谓之“世变”是历史潮流,但神经网络学科十年后会逆袭。

表面是科学,但有证据表明明斯基和罗森布拉特以前就有瓜葛。他们是中学同学。布朗克斯(Bronx)科学高中大概是全世界最好的高中,毕业生里出过 八个诺贝尔奖、六个普利策奖、一个图灵奖。远的不说,明斯基是1945年毕业生,而罗森布拉特是1946年毕业生。美国高中学制四年,明斯基和罗森布拉特 至少有两年重叠,而且彼此认识,互相嫉妒。1956年的达特茅斯会议定义了“人工智能”这个词,会议的组织者包括明斯基、麦卡锡和香农等,参会者还有司马 贺,纽威尔等。这个会议在定义“人工智能”领域时只是提到了神经网络。那时明斯基是神经网络的支持者。他1954年在普林斯顿的博士论文题目是“神经-模 拟强化系统的理论,及其在大脑模型问题上的应用”(Theory of Neural-Analog Reinforcement Systems and its Application to the Brain-Model Problem),实际是一篇关于神经网络的论文。他晚年接受采访时开玩笑说,那篇三百多页的博士论文从来没正式发表过,大概只印了三本,他自己也记不清 内容了。貌似他想极力开脱自己和神经网络学科的千丝万缕的关系。达特茅斯会议的主题并不是神经网络,而是后来被纽维尔和司马贺称为“物理符号系统”的东 西,也就是说达特茅斯会议,“想啥来啥”派是主要基调。

罗森布拉特被比他大一岁的明斯基妒忌是自然的。工作上,明斯基所负责的麻省理工学院的人工智能实验室也在向国防部和海军申请经费。大多数的圈内科学 家,对罗森布拉特突然被塑造的明星范儿很反感。明斯基早期也是“吃啥补啥”派出身,但此时已经改为“想啥来啥”派了。由于他和佩普特对感知机的批判,俩人 后来被“吃啥补啥”派称为“魔鬼搭档”。其实明斯基认识佩普特结识还是通过麦卡洛克的介绍,历史真是纠结。被称“魔鬼”是因为《感知机》第一版有言:“罗 森布拉特的论文大多没有科学价值。”这话跳步确实有点大,但罗森布拉特人缘不好,没有得到同行的支持。

比罗森布拉特小一岁的维德罗(Widrow)是斯坦福大学教授,在罗森布拉特刚提出“感知机”时,就提出了Adaline可适应性算法。 Adaline和感知机很相似,也是机器学习的鼻祖模型之一。罗森布拉特享受盛誉时,维德罗也沾了光,但在罗森布拉特死后,他却并没有被非难。维德罗在几 十年后回忆说,那是因为他后来主要在电机系(EE)做集成电路的工作,而不是在计算机系里从事派系繁杂的人工智能研究,圈子不同,老死不相往来。

神经网络简史

大佬米德(Carver Mead)

感知机的失败导致神经网络研究的式微,用加州理工学院的集成电路大佬米德(Carver Mead)的话说是“二十年大饥荒”。明斯基在《感知机》一书再版时,删除了原版中对罗森布拉特的个人攻击的句子,并手写了“纪念罗森布拉特”(In memory of Frank Rosenblatt)。但其他在“大饥荒”时期受到压迫的科学家认为明斯基不可原谅,后来神经网络得势后,这些人纷纷对明斯基口诛笔伐。美国电气电子工 程师协会(IEEE)于2004年设立了罗森布拉特奖,以奖励在神经网络领域的杰出研究。

在信息科学和神经科学的结合部的失败,并没有影响到神经生物学内部。哈佛神经生物学家胡贝尔(Hubel)和威瑟尔(Wiesel)对视网膜和视皮 层(visual cortex)中神经细胞的信息处理模式做了深入研究,他们为此获得1981年的诺贝尔医学奖。随后,麻省理工学院英年早逝的大卫·马尔(Marr)为视 觉信息处理建立数学模型,影响了后来连接主义的运动。威瑟尔后来离开哈佛去了洛克菲勒大学。1991年洛克菲勒大学时任校长大卫·巴尔的摩出了学术丑闻被 迫辞职后,威瑟尔出任洛克菲勒校长,为把那所学校建成生物学的重镇做出贡献。

1974年,哈佛的一篇博士论文证明了在神经网络多加一层,并且利用“后向传播”(Back-propagation)学习方法,可以解决XOR问 题。这篇论文的作者是沃波斯(Werbos),他后来得到了IEEE神经网络学会的先驱奖。沃波斯这篇文章刚发表时并没引起多少重视,那时正是神经网络研 究的低谷,文章不合时宜。

神经网络简史

霍普菲尔德(Hopfield)

神经网络在1980年代的复兴归功于物理学家霍普菲尔德(Hopfield)。1982年,那时在加州理工担任生物物理教授的霍普菲尔德,提出了一 种新的神经网络,可以解决一大类模式识别问题,还可以给出一类组合优化问题的近似解。这种神经网络模型后被称为霍普菲尔德网络。1984年,霍普菲尔德用 模拟集成电路实现了自己提出的模型。霍老也培养了一批后起之秀,包括现在在生物学重镇Salk研究所担任计算神经生物学实验室主任的Terry Sejnowski。霍老后转往普林斯顿担任分子生物学教授,现已退休。霍普菲尔德模型的提出振奋了神经网络领域。一帮早期神经网络研究的幸存者,在生物 学家克里克(Crick,对,就是发明DNA双螺旋的那位诺贝尔奖得主)和认知科学大佬唐·诺曼(Don Norman)的鼓励下,以加州大学圣地亚哥分校为基地,开始了“连接主义”(Connectionism)运动,这个运动的领导者是两位心理学家鲁梅尔 哈特(Rumelhart)和麦克利兰德(McLelland),外加一位计算机科学家辛顿(Geoffrey Hinton)。

神经网络简史

连接主义运动的成果之一就是那本著名的被称为PDP(Parallel and Distributed Processing)的文集(分两卷 )。此书的出版给认知科学和计算机科学吹了股大风,被后起的神经网络新秀们成为圣经。“神经网络”在八十年代就像九十年代的互联网,后来的Web2.0, 和眼下的“大数据”。谁都想套套近乎。一些做理论的大佬也不能免俗,发明RSA算法的R(Rivest)也带了几个学生转做神经网络学习问题的复杂性。一 时间红旗不倒,彩旗飘飘,好不热闹。1993年,美国电气电子工程师学会IEEE开始出版《神经网络会刊》,为该领域的高质量文章提供出版渠道。美国国防 部和海军、能源部等也加大资助力度。神经网络一下子成了显学。

连接主义运动也培养了一堆新人,并使得加州大学圣地亚哥分校的认知科学系成为同类系科的佼佼者。鲁梅尔哈特后转往斯坦福大学任教,前年不幸死于已挣 扎多年的神经退化疾病。乔丹就是他的学生,而Andrew Ng( 吴恩达)又是乔丹的学生,鲁梅尔哈特人虽离世,但香火没灭。他的另一名学生Robert Glushko后来远离本行,跟随硅谷互联网早期英雄马蹄塔南鲍姆(Marty Tennenbaum,据说马蹄的儿子都在麻省理工当教授了),创立了一家XML公司,那家公司后来卖给Commerce One,赚了一票钱。Glushko捐钱设立了“鲁梅尔哈特奖”来奖励神经网络的研究者,辛顿成了第一位获奖者。麦克利兰德则先转往卡内基梅隆担任计算机 和心理两系教授,后来也到斯坦福,在那里建立了“心、脑、计算研究中心”,一度还担任心理系主任。

神经网络简史

辛顿则先转往卡内基梅隆,最终到加拿大多伦多大学计算机系任教。辛顿现在可是神经网络最牛的人了。他还有一段不太为外人所知的革命家史:他是布尔的 外曾曾孙子(对,就是“布尔代数”的那个布尔),他曾祖母Ellen是布尔的女儿。中国革命的参与者、美国铁杆左派韩丁和寒春(William and Joan Hinton)也是Ellen的孙子孙女,照这么说韩丁是辛顿的堂叔,寒春是辛顿的堂姑。布尔的小女儿、Ellen的妹妹伏尼契(Ethel Lilian Voynich)是传遍苏联和中国的小说《牛虻》的作者。《牛虻》西方不亮东方亮,在苏联和中国是几代人的革命加爱情励志畅销书。晚年在纽约生活陷入困顿 的伏尼契,靠了苏联和周恩来特批的中国的意外稿费得以善终。这一家子把中国、苏联、革命、逻辑和神经网络都联系起来了,通吃“吃啥补啥”派和“想啥来啥” 派。智力题:伏尼契和辛顿是啥关系。

语言学家、公共知识分子斯蒂夫·平克对连接主义不以为然。鲁梅尔哈特和麦克利兰德在PDP圣经中合作了一章,讲神经网络可以学会动词的过去式,比如 一看start,就知道started,一看come就知道came等等。平克认为有规则的过去式(直接加ed的,如started)可以通过简单计算得 来;而不规则的(不通过加ed的,如came)则是存在大脑的一个特定区域。平克引用神经心理学的证据指出处理规则的和不规则的操作是在大脑不同部位完成 的,他还认为神经网络的行为和一类大脑受伤害患失语症的病人的行为相似。其实这种观察并不深刻,都是罗森布拉特三十年前玩剩下的。符号系统可能比较适合处 理规则的情况,而神经网络可能更适合不规则的情况,这个一般人都能想到。对神经网络派的批评也如此:我们可以定义一个规则,可以用符号系统实现也可以用神 经网络实现。哪个快用哪个。

符号处理和神经网络的方法论之争有时会被更大地夸张。伟大的乔姆斯基就不认可人工智能领域的最新进展。机器翻译历来是人工智能的试金石之一,就像在 1996年之前的计算机下棋。机器翻译的早期实践都源于乔姆斯基的理论,但近来的突破却是基于统计的方法。乔姆斯基认为统计的方法不“优雅” (elegant),只是模仿而不是理解。会骑自行车不算理解,对自行车为什么不倒,能说三道四,才算理解。谷歌的研发总监彼特·诺维格为统计方法辩护时 说:简单的模型(如乔姆斯基理论,以及后来的各种改进版本)不能解决复杂的问题,人工智能的进一步发展必须两条腿走路。诺维格在加入谷歌之前曾是加州大学 伯克利分校的计算机教授,他对两派都了如指掌,在学术界和工业界都被尊重,他写的《人工智能》是最流行的教科书。他的观点似乎被更多的人接受。

神经网络在八十年代的光芒被后来的互联网掩盖了。但这几年又恰恰是互联网给了神经网络更大的机会。这几年计算机科学最火的词儿就是“深度学习”。神 经网络由一层一层的神经元构成。层数越多,就越深,所谓深度学习就是用很多层神经元构成的神经网络达到机器学习的功能。辛顿就是“深度学习”的始作俑者, 他2006年的一篇文章开辟了这个新领域。最新的深度神经网络的最后两层的每个节点都可对应于某些概念。这是神经网络的一大进步,貌似为“吃啥补啥”找到 了科学根据,调和了与“符号派”的矛盾。至于符号派买不买账是另一回事。深度学习的实测效果很好。辛顿最早用来做图像识别,而后来微软用深度学习还开发可 实用的语音识别和同声翻译系统。

年过六十的辛顿不甘寂寞,和他的两个学生开了家专注深度学习的公司。公司成立没多长时间,谷歌和微软就对这家公司动了收购的念头,后来百度也加入竞标,最终花落谷歌,谷歌出了几千万美元于2013年初收购了这家只有三名员工的公司。为了把辛顿纳入花名册,谷歌还真不差钱。

神经网络简史

2012年,斯坦福大学人工智能实验室主任Andrew Ng(吴恩达)和谷歌合作建造了一个当时最大的神经网络,这是谷歌神秘的X实验室的一个计划。网络上一度疯传的谷歌猫脸识别就是用的这个参数多达十七亿的 神经网络。后来Ng自己在斯坦福又搞了个更大的神经网络,参数更高达一百一十二亿。人脑的神经连接有一百万万亿个。从计算能力上说,如果这个人工神经网络 要是能接近大脑,每个人工神经元必须能达到一万个大脑神经元的功能。这个神经网络会用到大量的图形处理芯片GPU,GPU是模拟神经网络的完美硬件,因为 每个GPU芯片内都有大量的小核心。这和神经网络的大规模并行性天然相似。硬件的进步让以往不可能的成为可能。

斯坦福大学人工智能实验室的创办人约翰·麦卡锡,是达特茅斯会议的主要组织者,“人工智能”这个词就是他提出的,也是他把明斯基拉到他当时任教的麻 省理工。说他是人工智能之父是名副其实,约翰大叔是铁杆的符号派。但现任的人工智能实验室主任却是神经网络的大拿Andrew Ng。这个转变也许是个“吃啥补啥”派得志的风向标。斯坦福的这个神经网络的目标是模拟人的大脑。这让我们不禁想起了罗森布拉特,那不正是他的梦想吗?

本文写作得到老友洪涛的鼓励,向他感谢。每次和他聊天都受益非浅。作者微博>>>

End.