【年度技术观点合集】计算机视觉，自然语言，机器学习…看看顶级科学家们怎么说

“最深奥的技术是哪些我们感觉不到存在的技术，这些技术自如地融入我们日常生活，不知不觉地成为生活的一部分。”——马克·魏瑟

1956 年夏天，明斯基、罗切斯特、申农等一群年轻人进行了一次聚会， Artificial Intelligence （人工智能，缩写 AI ）这个词就此出现，这也标志着一门新兴学科——人工智能的正式诞生。今年是“人工智能”一词诞生的 60 周年，还有关于人工智能的许多问题亟待我们去探索。人工智能是什么？我们又需要怎样的人工智能？

如今，人工智能、机器学习、大数据已经日渐深入到我们生活的每个角落，这些技术虽然不够具象，但是却能够让我们随时随地得到我们所要，实现我们所想。这是一场悄无声息却改变全球几亿人生活的隐形革命。

首先，大家来回顾一下微软全球资深副总裁，微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士对人工智能的看法。↓↓↓

洪小文：人工智能，一个很好的“左脑”

在洪小文博士看来，计算机应该是一个很好的“左脑”。通过相应的算法，计算机可以做大量重复性及逻辑推理的工作，这与负责逻辑思考和推演解决问题步骤的“左脑”十分相近。而机器并不需要深不可测的独立意识。人和机器之间的关系，更多的是 Human （人） +Machine （机器） =Superman （超人）的关系，两者擅长的能力相结合，最终会做出人独立做不到、机器也独立做不到的事情。

因此，计算机科学家们试图利用计算机强大的计算能力来模拟和人类的一些基本的感官能力。随着机器学习和大数据的日渐发展，计算机已经逐步会听、会说、会看……

会看：计算机视觉

计算机的“眼”进化到哪一步了

↑↑↑这篇文章是微软全球执行副总裁沈向洋在 Ignite 2015 大会上做的主题演讲。沈向洋博士作为一名深耕于计算机视觉领域长达 25 年的研究人员，他在这篇文章里讲述了最初进入这个领域进行探索的原由，并分享了微软是如何利用深层神经网络不断完善计算机的视觉能力的。

计算机视觉——让冰冷的机器看懂这个多彩的世界

↑↑↑那么问题来了，计算机究竟是如何看懂世界的呢？从计算机视觉到深层神经网络的联系又是如何建立起来的呢？在这篇文章里，微软亚洲研究院计算视觉组首席研究员孙剑博士就亲自为大家理清楚了计算机视觉的前世今生。无论你是计算机视觉的门外汉还是对此有所研究，这篇文章都十分有助于你理清思路。

从上篇文章中，你也许已经知道了深层神经网络是如何不断完善计算机的视觉能力的，但这是否意味着计算机能成功取代人眼了呢？值得高兴的是，在 2015 年 1 月的一篇论文中提到，微软亚洲研究院的一个四人计算视觉小组成员在 ImageNet 计算视觉识别挑战赛中实现里程碑式突破，计算机识别物体的能力首次超过人眼，系统错误率已经低至 4.94% 。而在此前同样的实验中人眼辨识的错误率大概为 5.1% 。↓↓↓

微软研究员在 ImageNet 计算机视觉识别挑战中实现里程碑式突破

ImageNet 计算机视觉挑战赛由来自全球顶尖高校和公司的研究员组织举办，近年来已经成为计算机视觉领域的标杆，其比赛结果总能十分直观地反映出计算机视觉这一热门领域中各研究机构的研究进展和突破。今年 12 月，在微软亚洲研究院首席研究员孙剑的带领下，这个四人研究小组再次做出突破，用 152 层的深层残差网络（ deep residual networks ）上的新突破，以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军，该系统识别错误率已经低至 3.57% 。↓↓↓

刷新神经网络新深度： ImageNet 计算机视觉挑战赛微软中国研究员夺冠

从以上内容可以看出，计算机视觉方面的基础研究进展是大家有目共睹的。那么从研究到应用，计算机视觉能力是如何服务于普通用户的呢？

借计算机一双慧眼

↑↑↑鼠标发明人 Doug Engelbart 曾经针对人工智能的简称 AI 提出了另一个理念—— Augmented Intelligence ，增强智能。在他看来，人已经足够聪明，我们无需再去复制人类，而是可以从更加实用的角度，将人类的智能进一步延伸，让机器去增强人的智能。智能眼镜就是这样的产品，去超市的时候带上一副，看到心仪商品上的文字，自动搜索出详细信息：生产商情况、在不同电商平台的价格等等。让智能眼镜读懂文字的正是 OCR 技术。微软前不久推出的 OfficeLens 应用，就已经可以通过视觉计算技术自动对图像进行清理并把它保存到 OneNote ，而 OneNote 中基于云端的 OCR 技术将对图片进行文字识别，随后你就可以拥有一个可编辑、可搜索的数字文件，为上述未来应用场景打下基础……

人脸识别：应用开启创新潮，算法进展才起步

↑↑↑风靡全球的 How-Old.net （微软颜龄机器人）和 TwinsOrNot.net （微软我们）巧妙地将人脸识别与社交网络中的人际交往结合在一起，虽然不能做到百分之百精确，但高科技加诙谐的人际交往和传播效果，可以说是人脸识别技术和社交网络发展到一定阶段、自然而然的应用创新。这篇文章解释了人脸识别技术中的难点和痛点，快去看看吧！

用线条解码甲骨文的秘密

↑↑↑不同于英文、法文等表音文字，方块状的汉字在一笔一划之间都蕴含着无穷的奥妙。以象形、指事、会意、形声、转注、假借的六书为构字系统，汉字也在不断发展变化。如今，汉字的起源——甲骨文仅能被一些专业汉语言学者们所辨认。但普通人想要解码甲骨文间的秘密，却显得难上加难，那么能不能用先进的计算机视觉技术能帮助人们解决这个难题呢？

动静之间，从视频到语言

↑↑↑前面说了这么多，相信大家对计算机能够看懂静态图像的工作原理已经有所了解了。但是我们知道，计算机要真正取代人眼，静态的图像肯定是不够的，目前的技术能否满足计算机看懂动态的视频呢？对于计算机来说，画面内容的识别，动作的捕捉，都要经过复杂的计算才能得出。微软亚洲研究院的最新技术能让计算机不仅能看懂视频，还能用自然语言描述出来哦！

会听、会说：语音识别与自然语言理解

在人类的众多感官中，视觉固然重要，但听、说能力的重要性更是不容忽视。

2012 年 10 月 25 日，在由微软亚洲研究院主办的第十四届“二十一世纪的计算大会”现场，时任微软研究院全球负责人的 Rick Rashid 发表的主题演讲中，首次公开演示了微软实时语音翻译技术。这套系统实时的把 Rick Rashid 说出的每一句英文翻译成中文，并用 Rick 本人的声音用中文表达出来。这对语音识别和机器翻译的发展而言，这都是一个关键的时刻。三年时间内，这一技术原型被转化成产品，成功应用到了 Skype Translator 实时语音翻译中。↓↓↓

挑战中英实时语音翻译， Skype Translator 中文预览版登陆中国

多年来，制造出像人类一样能够理解自然语言的的计算机的追求是如此的困难和不可思议，似乎只有科幻小说才能实现如此神奇的事情。拥有语音识别功能的应用和工具逐步从虚构走进了我们现实生活中，而且这些技术每天都在进步。下面这个故事分享的是微软过去二十多年来在语音识别技术走过的漫漫之路。↓↓↓

会听、会说、会聊天：人工智能语音识别技术的漫漫长路

看到这里你也许会问了，当计算机能够识别人类的语音，但这是否代表计算机真的明白这些语音背后的含义呢？微软亚洲研究院首席研究员周明博士在下面这篇文章中解读了自然语言理解技术的前世今生。让我们一起看看自动问答的小冰，和掌握了字谜、对联、绝句在内的机器人作家是如何炼成的。↓↓↓

计算机能“理解”多少我们的语言了？

会思考：聊天代理（ conversational agent ）

当计算机的多个感官功能逐步完善，如何将其聚合这个问题也就出现在了我们面前。无论是学术界还是工业界，科研人员们都力求让人们能够拥有自己专属的人工智能助理。

人工智能助理，其本质作用是能够帮人们解决问题的，这背后涉及的一个技术核心便是搜索。我们现在正在构建的未来搜索就包括这样的三种能力——知识挖掘（ knowledge mining ）、机器学习（ machine learning ）、信息检索（ information retrieval ）。还有自然语言的理解和生成所需要的基本功能，甚至还会加上一些基本的常识。人工智能有机会可以和人类学习更多的知识，并产生个性化交流，在一个更自然的交互界面中，智能的帮人们完成任务。↓↓↓

《科学世界》：搜索的新时代

看罢过去微软研究院过去一年最前沿的技术创新与观点，想必你对接下来一年的技术走向和发展更是充满了信心。在迈开新年的步伐之前，这里有一份来自微软 16 位顶级科学家站在各自的领域上对未来一年和未来 10 年的预测。数据科学从到量子计算，从深度学习到安全技术，相信这份预测能为你接下来的研究和规划提供真知灼见。 ↓↓↓