微软黄学东：微软在很多AI领域领先Google

jopen 8年前
   <p style="text-align:center"><img alt="微软黄学东：微软在很多AI领域领先Google" src="https://simg.open-open.com/show/1c746f7689e694504c8c73d3aac2a3b1.jpg" /></p>    <p>3 月 18 日，由美中技术与创新协会（Association of Technology and Innovation，ATI）主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括：微软首席 AI 科学家邓力，微软院士黄学东，Uber 深度学习负责人 Luming Wang 等。华人之外，还有亚马逊 Alexa 首席科学家 Nikko Strom，微软小娜架构师 Savas Parastatidis 等业内知名专家。</p>    <p>大会主题是“探索 AI 的潜力，把 AI 技术应用于实用项目和服务”，对 CV、NLP、智能助手、深度学习框架均做了专题报告。微软首席语音科学家黄学东也发表了演讲，对微软的人工智能业务和进展做了全面的介绍和梳理。</p>    <p>雷锋网根据演讲录音和 PPT 整理成文。</p>    <p>黄学东于 1993 年加入微软，目前领导微软在美国、德国、埃及、以色列的团队研发研发微软企业人工智能客服对话解决方案 、cris.ai 和 luis.ai 等认知服务、CNTK 开源深度学习工具等人工智能产品和技术。2017 年 2 月，黄学东刚刚被评为“微软全球技术院士”，这代表着微软技术人员的最高荣誉。</p>    <p><strong>微软的 AI 业务简介</strong></p>    <p>其实，“人工智能（Artificial Intelligence）”一词最初是在 1956 年 DARTMOUTH 学会上提出的，但是为何一直到如今人工智能技术才步入快速发展的轨道？黄学东认为，主要是两方面的原因：海量的数据，以及计算能力的大幅提升。目前，人工智能主要集中在视觉、语音、语言和知识（图谱）四个领域，但是未来计算机将能够理解这个世界。</p>    <p>根据黄学东的介绍， 目前微软的 AI 业务可以分成代理（Agent）、应用（ Application）、服务（Service）、基础设施（Infrastructure）这四大块。</p>    <ul>     <li> <p>代理：Cortana（中文名：微软小娜）、微软小冰、Toronto Project（客服助手）</p> </li>     <li> <p>应用：Office 365、Dynamicas 365（整合 CRM 和 ERP 的云服务解决方案）、SwiftKey（输入法）、Pix（拍照软件）</p> </li>     <li> <p>服务 ：聊天机器人框架（BotFramework）、认知服务（Cognitive Services）、Cortana 智能、认知工具包（Cognitive Toolkit）</p> </li>     <li> <p>基础设施：适用于机器学习的 Azure 、Azure N Series（GPU + FPGA）、FGPA（现场可编程门阵列）</p> </li>    </ul>    <p><strong>计算机语言技术的发展史</strong></p>    <p style="text-align:center"><img alt="微软黄学东：微软在很多AI领域领先Google" src="https://simg.open-open.com/show/2fcb118b4400ae6883b1a1916a5e5da6.jpg" /></p>    <ul>     <li> <p>1954 年，IBM 和乔治城大学首次展示了能力非常有限的机器翻译系统。</p> </li>     <li> <p>1966 年，John Pierce 发布了一份关于“语言技术”非常关键的报告。</p> </li>     <li> <p>1975 年——1986 年，美国政府没有任何拨款支持机器翻译或者语音识别，发展陷入停滞。</p> </li>     <li> <p>1985 年，“共同任务（common task）”方法的出现，研究人员开始共享数据。</p> </li>     <li> <p>2007 年，基于统计学谷歌的翻译上线。</p> </li>     <li> <p>2011 年，Siri 登陆 iPhone。</p> </li>     <li> <p>2016 年，微软的语音识别系统的达到人类水平，同年谷歌发布支持 8 种语言的神经网络翻译系统。</p> </li>    </ul>    <p>虽然目前神经网络翻译系统还经常闹出各种笑话，但是黄学东认为，在未来几年内，计算机的翻译水平有可能会和目前的语音识别一样，达到人类（专家）的水平。</p>    <p><strong>微软在语音识别领域的成就</strong></p>    <p>黄学东在演讲中提到，微软于 1991 建立了 Research Lab，该实验室的愿景是让计算机具备“看（see）、听（listen）、说（speak）”的能力。1993 年，微软成立语音小组（Speech Group），希望能够让人与设备之间的语音交流成为主流。而如今，这一愿景正在实现。黄学东在演讲中特别提到了《经济学人》今年 1 月份的封面文章——“Now we're talking”，该文章认为语音技术让计算机不那么令人生畏，而且更易接近。</p>    <p>黄学东称，1993 年的时候，他们做的语音对话识别的词错率(word error rate，简称 WER)高达 80%。然而 2016 年 9 月 14 日，由黄学东带领的微软语音团队在产业标准 Switchboard 语音识别基准测试中，实现词错率低至 6.3% 的这一技术突破，这比 IBM 的 6.6% 词错率更低，达到目语音识别领域错误率最低的水平。仅仅一个月后的 10 月 18 日，黄学东团队进一步将词错率降低至 5.9%，首次与专业速记员持平。</p>    <p style="text-align:center"><img alt="微软黄学东：微软在很多AI领域领先Google" src="https://simg.open-open.com/show/eec151d97e7d3edef34c88ab39d6b878.jpg" /></p>    <p>这个人类水平的对话语音识别系统用到了 10 个不同的 DNN（深度神经网络）。据雷锋网(公众号：雷锋网)了解，其具体实现过程是：首先用包括了 ResNet（残差网络）、LSTM（长短期记忆网络）在内的 6 个不同的神经网络组合并行工作，其结果再通过 4 个新的神经网络组合之后再输出，最终达到专业速记员的水平。</p>    <p>但是黄学东表示，目前计算机的对语音的识别还只停留在转录阶段，想要真正理解语义还非常困难。</p>    <p><strong>微软客服助手 Toronto</strong></p>    <p style="text-align:center"><img alt="微软黄学东：微软在很多AI领域领先Google" src="https://simg.open-open.com/show/0c661fec4c62e3c1a811313b10004805.jpg" /></p>    <p>黄学东表示，语音技术除了能够用作娱乐用途之外，还能够做很专业的事，比如技术支撑（technical support）。它在演讲中提到，微软除了语音助手 Cortana 和聊天机器人小冰之外，还有一个代号为“Toronto”的客服助手项目。</p>    <p>Toronto 是基于深度强化学习的人工智能，能够理解对话中的上下文，让客服聊天机器人更加人性化、更加高效。</p>    <p>根据 PPT 的介绍，Toronto 不仅能自动回复，给出建议，还能在解答不了时提示用户转接人工服务。此外，它还能帮助人工客服快速了解用户信息，给出回答建议，并可以转接给其他的工作人员，甚至还有录音功能。</p>    <p>当然，黄学东也表示，这些聊天助手和语音识别不一样，并没有一个已经建立起来的有效训练方法（established recipe）。</p>    <p><strong>微软在深度学习方面的进展</strong></p>    <p style="text-align:center"><img alt="微软黄学东：微软在很多AI领域领先Google" src="https://simg.open-open.com/show/60428ed338fc30c24b654a6c6cefbd9a.jpg" /><img alt="微软黄学东：微软在很多AI领域领先Google" src="https://simg.open-open.com/show/32e1c0953fbae94622c901842d23a100.jpg" /></p>    <p>黄学东此前曾表示，微软的深度学习工具包 CNTK 其实比谷歌的 TensorFlow 开源的要早，但是由于一开始并不是发布在 GitHub 上，所以外界知道的人相对少一些。但是黄学东表示，根据基准测试的结果，CNTK 比谷歌的 TensorFlow 和亚马逊的 MxNet 的性能要更好：相同条件下，CNTK 每秒能够处理的样本更多。</p>    <p style="text-align:center"><img alt="微软黄学东：微软在很多AI领域领先Google" src="https://simg.open-open.com/show/be8ca59fa7d0bf7953e54e8c9f44b261.jpg" /></p>    <p>此外，黄学东还列举了 ComputerWorld 今年 2 月的评测结果，来证明微软在深度学习方面的实力。从图中可以看出，微软认知工具包（Cognitive Toolkit）v2.0 beta 1 版本在性能、开发的难易程度、以及部署的难易程度这三个方面表现突出，而综合表现仅次于谷歌的 TensorFlow r0.10。</p>    <p><strong>微软认知工具包的优势</strong></p>    <p style="text-align:center"><img alt="微软黄学东：微软在很多AI领域领先Google" src="https://simg.open-open.com/show/3ec0c00dbd874ee0387348a00a8d204a.jpg" /></p>    <p>目前，微软认知服务的 API 主要包括语言、语音、机器学习、视觉、搜索、知识这几大类。据黄学东介绍，微软的认知工具包有以下三大优势：</p>    <ul>     <li> <p>速度&可扩展性：微软认知工具包训练和评估深度学习算法比其他的工具包都快，而且可以在不同的环境下有效扩展的同时保持精度。</p> </li>     <li> <p>商业级的质量：使用了复杂的算法以及大量的数据集。</p> </li>     <li> <p>兼容性：可以使用C++、Python 等语言，而且能够定制内置训练算法，甚至使用自己的算法。</p> </li>    </ul>    <p>来自: <a href="/misc/goto?guid=4959004764042577193" id="link_source2">雷锋网</a></p>
微软黄学东：微软在很多AI领域领先Google

相关资讯