扎克伯格把钢铁侠的智能助手造出来了,说句话就能控制整个豪宅!

jopen 8年前
   <p style="text-align: center;"><a href="/misc/goto?guid=4958989923703836750" title="马克·扎克伯格"><img alt="扎克伯格把钢铁侠的智能助手造出来了,说句话就能控制整个豪宅!" src="https://simg.open-open.com/show/4bdbf4091a7177dea8e481368bc6a285.jpg" /></a></p>    <p>非死book 创始人马克·扎克伯格是一个喜欢挑战自己的人。2015 年,他立志每周都读一本新书。而今年,他给自己的挑战更加有技术含量:搭建一个人工智能系统,就像《钢铁侠》里的 “Jarvis” 那样,理解语音/文字指令,去控制家里所有的电器……</p>    <p>你猜怎么样?他还真完成了。今天扎克伯格专门发了一篇<a href="/misc/goto?guid=4958996805111427629">博文</a>,详细介绍 Jarvis 是怎样搭建起来的。</p>    <p>这台 Jarvis “人工智能电脑”能做的事情,其实已经远超过市面上任何一个同类或类似产品:<strong>它支持文字和语音指令,能控制空调温度高低、调整灯光明暗,也能从网上搜歌自动播放,还能烤面包、给他家迷之画风的“野兽”自动喂食。</strong></p>    <p style="text-align:center"><img alt="扎克伯格把钢铁侠的智能助手造出来了,说句话就能控制整个豪宅!" src="https://simg.open-open.com/show/d8bbecde790a0338d9adb70f91a38f65.jpg" /></p>    <p>就是这坨跟墩布一样的东西……</p>    <p>而且大家都知道,扎克伯格在时尚方面<a href="/misc/goto?guid=4958996805212161441">非常省事儿</a>,一年到头就是一件灰色的 T 恤——不知道的是他连“从衣柜里拿出 T 恤”的功夫都省了!因为他组装了一门大炮,用 Jarvis 控制,每天早上接收命令朝他打出一件新的灰色 T 恤……</p>    <p style="text-align:center"><img alt="扎克伯格把钢铁侠的智能助手造出来了,说句话就能控制整个豪宅!" src="https://simg.open-open.com/show/bdd33c7d5873655957e1c857f9dd4232.jpg" /></p>    <p><strong>最重要的是,Jarvis 可以在房子的任何一间屋子里接受指令,还能明白像“打开空调”这样一句指令,发出指令的人是谁,在哪间屋子,进而打开正确的空调!</strong></p>    <p><strong>这太酷了!怎么做到的?</strong></p>    <p>如下图:</p>    <p style="text-align:center"><img alt="扎克伯格把钢铁侠的智能助手造出来了,说句话就能控制整个豪宅!" src="https://simg.open-open.com/show/684a96b49303dda31a3dd577edf99c1b.jpg" /></p>    <p>看起来很复杂对不对?其实,如果我们将 Jarvis 看成一台电脑,就很好理解了:</p>    <p>1)中间的蓝色方块是 Jarvis 服务器,可以理解为处理器+硬盘;</p>    <p>2)右边的是操作界面,包括 Messenger 聊天机器人、iOS 语音控制应用等等,键盘、鼠标和显示器;</p>    <p>3)下面的三块是运行在服务器里的几种技术,包括自然语言处理、语音识别、视觉和脸部识别以及强化学习 (reinforcement learning) 等,地位相当于电脑里运行的操作系统;</p>    <p>4)左边的一大堆东西则是 Jarvis 可控制的电器种类,等于电脑上跑的程序。</p>    <p>扎克伯格在博客里介绍,在构建 Jarvis 的“操作系统”过程中,自己用到了 Python、Objective C 和 PHP 等语言。</p>    <p>具备了文字和语音识别、人脸识别的能力,Jarvis 现在能够控制扎克伯格家的灯光系统 (Creston)、恒温器(也即空调系统)、大门、连接流媒体音乐服务 Spotify 的 Sonos 音箱、Nest 网络摄像头(看他女儿麦克斯用的)等等。扎克伯格在博客里介绍,当自己为了 Jarvis 亲手开始写代码的时候,才发现用一个系统去控制这么多系统有多难:每个系统的语言都不一样,协议五花八门;有些电器已经联网了,有些则除了物理开关之外,根本没有控制的 interface……</p>    <p>比方说,扎克伯格需要用文字指令控制烤面包机,首先需要一个能联网的烤面包机……但这样的烤面包机根本找不到。最后,他不知道从哪儿翻出来一个上世纪 50 年代的面包机,然后自己给它装了一个能联网的开关。</p>    <p>包括这个面包机和前面提到的 T 恤大炮……开发 Jarvis 对扎克伯格的硬件开发知识也带来了不小的挑战。</p>    <p style="text-align:center"><img alt="zuck-jarvis-gif" src="https://simg.open-open.com/show/f22c48df630958e2716c4a50605cc378.gif" /></p>    <p style="text-align:center">自然语言处理</p>    <p>Jarvis 的语言理解能力是分两阶段实现的。</p>    <p>首先,扎克伯格要让 Jarvis 能理解文字,比如“卧室”、“灯光”、“开”和“关”等常用的关键词,以及能在听到过去没听到过的词,比如 Spotify 上的歌名或音乐人的时候,能够根据语境去对应的服务/设备上搜索并完成任务。</p>    <p style="text-align:center"><img alt="扎克伯格把钢铁侠的智能助手造出来了,说句话就能控制整个豪宅!" src="https://simg.open-open.com/show/bca4bda8bc2021ab8f8ec2c02b3e547c.jpg" /></p>    <p>第二阶段则是开发一个语音转文字的系统。</p>    <p>那么,Jarvis 的自然语言处理能力现在到了什么水平呢?扎克伯格介绍,它的上下文语境结合能力已经达到了自己可以接受的标准。比如,当他对 Jarvis 发出“打开我办公室的空调”指令时,系统能够正确地打开他的空调,而不是妻子普利西拉的空调;再比如,扎克伯格告诉 Jarvis “给我来点音乐,”结果 Sonos 开始播放的音乐太劲爆,他又告诉 Jarvis “这个感觉不对,给我点轻松的。”Jarvis 能理解语境函数是“放音乐”,变量是“音乐”,值是“轻”,进而正确完成任务。</p>    <p>扎克伯格说,和特定的指令和问法相比,他跟妻子现在越来越多地使用开放式的指令,“我知道的商业产品里面,没有能做到这一点的。这里的机会很大。”他写道。</p>    <p><strong>视觉和脸部识别</strong></p>    <p>扎克伯格为 Jarvis 开发的机器视觉功能,主要有这么几个任务:</p>    <p>首先,也是最重要的任务,是识别访客。扎克伯格在自家门口装了几个不同的摄像头,从各个角度拍摄门口画面。当访客来到时,系统首先识别到门口有人便激活识别程序,捕捉访客的人脸细节,进而通过 非死book 人脸数据库识别访客是谁。然后,Jarvis 会根据扎克伯格的日程和访客列表确认这个人是否在列表上,确认后便会打开门,并告知扎克伯格客人已经来了。</p>    <p style="text-align:center"><img alt="扎克伯格把钢铁侠的智能助手造出来了,说句话就能控制整个豪宅!" src="https://simg.open-open.com/show/9591778441132056db85bd339ef0806b.jpg" /></p>    <p>视觉识别功能的另一个重要任务,是为 Jarvis 处理其他任务提供上下文语境。比如当扎克伯格说“调高音响的音量”,Jarvis 需要通过摄像头观察哪个房间里有人——甚至更精确一些,扎克伯格在哪个房间里而不是正在睡觉的麦克斯在哪个房间,然后完成任务。</p>    <p><strong>交互界面</strong></p>    <p>扎克伯格自己用 iPhone,在家里的每个房间都放了一台手机,上面都安装了自己开发的 Jarvis 语音控制程序。这个程序随时保持聆听(就像 Google Now 和新版 Siri 一样)这样,他可以在每个房间里都用语音随时控制 Jarvis。</p>    <p style="text-align:center"><img alt="扎克伯格把钢铁侠的智能助手造出来了,说句话就能控制整个豪宅!" src="https://simg.open-open.com/show/bccbe38b98f97461b1ca13aaff575ca1.jpg" /></p>    <p>当说话不方便的时候, 非死book Messenger 是最适合的文字对话控制界面。这主要是因为 非死book 在今年推出了 Bot Framework,极大地方便了开发者在 Messenger 上开发聊天机器人。</p>    <p>Jarvis 聊天机器人会把每一条指令发送到后端的 Jarvis 服务器。如果指令是语音,服务器则会用语音识别功能翻译成文字然后处理。聊天机器人还承担了整个 Jarvis 通知系统的工作,比如当家里没人有访客来到时,系统会拍下门口画面通过 Messenger 发送给扎克伯格。</p>    <p><strong>扎克伯格的开发感悟</strong></p>    <p>完成了 Jarvis 1.0 的搭建工作之后,扎克伯格获得了很多人生感悟。他说,</p>    <blockquote>     <p>作为 非死book 的 CEO,我几乎没什么时间在内部环境提交代码,但我一直没有停止编程,主要都在 Jarvis 上。我知道自己今年会学到很多关于人工智能的知识,但我没有意料的是,Jarvis 让我找回了在 非死book 当工程师的感觉……</p>    </blockquote>    <p>对于语音的看法:</p>    <blockquote>     <p>不光是语音,几乎绝大部分的机器学习系统,现在的处境都是更多用于解决特定的问题(并不具备解决普遍问题的能力。)</p>    </blockquote>    <p>这和从业者对人工智能的认知一样,和普罗大众的认知恰好相反。其实,人类距离强人工智能,或者 General AI 还很远。大部分人工智能系统都是解决特定任务的。</p>    <p>关于 Messenger 聊天机器人,他认为:</p>    <blockquote>     <p>在 Messenger 上开发机器人比开发一个单独应用容易太多了。它自动就帮你解决了很多问题,比如 iOS 和 Android 跨平台,文字和图片内容理解,可靠的通知,以及权限管理等等。</p>    </blockquote>    <p>更喜欢文字还是语音?这个答案很有趣:</p>    <blockquote>     <p>和一个系统说话,比和系统打字更容易提高感情的投入。</p>    </blockquote>    <p>简单来说,你会期待对方是“人”。</p>    <blockquote>     <p>我发现我发文字比自己想象的更频繁。原因很多,比如当你周围有人的时候发语音指令还是一件挺尴尬的事情。我也更愿意接受文字的回答,这样我可以选择什么时候看。其实整个 Messenger 平台上也是一样,文字信息数量的增速比语音信息快得多。这让我产生了一种认知:未来的人工智能系统不能只有语音控制,也要有一个单独的文字对话界面。</p>    </blockquote>    <p>关于整个系统:</p>    <blockquote>     <p>想要让这样一个系统工作起来,我们需要更多的联网设备。不仅如此,行业也需要通用的 API 和标准,让每一台设备都能和彼此沟通。</p>    </blockquote>    <p>关于 非死book 的工程环境:</p>    <blockquote>     <p>我发现,我们自己给的 iOS 和语音识别工程师提供的工具链真是太强大了。</p>     <p>我用到了 Messenger Bot Framework,非死book 自己开源的 Nuclide 开发包和 Buck build 系统让开发更快更容易,FastText 文本分类系统等等。如果你对人工智能开发感兴趣,FAIR(非死book 人工智能研究院)的 GitHub 页面值得一看。</p>     <p>非死book 的核心价值观有一条就是快速行动 (move fast)。对于任何科技公司而言,使用内部开发工具快速开发都十分重要。在这点上,我很感谢我们的内部架构和工具团队。</p>    </blockquote>    <p><strong>接下来,Jarvis 会怎样进化?</strong></p>    <p>小扎说,尽管他的 2016 挑战结束了,Jarvis 还有很多提升的空间。</p>    <p>扎克伯格的下一个首要任务是开发 Jarvis 语音 Android 应用,让他的家人能在更多房间里发出语音指令和控制更多的电器。他还说,要让 Jarvis 学着做饭,“估计比 T 恤大炮难的多。”</p>    <p>长期来看,扎克伯格想提升 Jarvis 的学习能力,达到能够自学的水平。</p>    <p>当然,扎克伯格也在考虑通过什么方式能让 Jarvis 为更多人所用。简单的开源肯定不行,因为现在的系统和代码和扎克伯格家的系统绑定的太深了。“如果我能开发一个抽象的控制层,也许我会把它开源的。当然,它会变成一个新产品也说不定。”扎克伯格在博客里写道。</p>    <p style="text-align:center"><img alt="扎克伯格把钢铁侠的智能助手造出来了,说句话就能控制整个豪宅!" src="https://simg.open-open.com/show/91f61812ddf6827b18fa253914931505.jpg" /></p>    <p style="text-align:center">图片:马克·扎克伯格、《快公司》</p>    <p>来自: <a href="/misc/goto?guid=4958996805298155460" id="link_source2">www.pingwest.com</a></p>