怀着大梦想的小冰,不只是逗贫
jopen 7年前
<p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/56430072c5aa74d9a5aa52188ac8054c.jpg" /></p> <p>“一颗小心脏里也能藏着伟大的梦想”,这句话用来形容微软小冰也许再适合不过了。 </p> <p>从 2014 年 5 月微软发布第一代小冰至今,很多人对小冰的印象或许还停留在一个“逗贫的萌少女”,偶尔也会傲娇地犯下中二病。但少女小冰步入 19 岁后,已经开始释放她的能量。如果说 AlphaGo 正在挑战人类的 IQ 极限,那么微软小冰或许正在试图突破人类基于 EQ 的情感创造能力。</p> <p><strong>1、写诗。</strong>今年五月微软出版了小冰的第一本诗集《阳光失了玻璃窗》,这也是人类史上第一本由人工智能创作的诗集。随后小冰团队把小冰看图写诗的能力作为工具开放给用户,到目前为止小冰已经联合人类创作了超过 200 万首诗歌。</p> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/81f871c292637b48c1c2eee418e6bc25.jpg" /></p> <p><strong>2、画画。</strong>今年夏天小冰解锁了一项技能,通过聆听歌曲并学习城市标志性建筑创作出一幅城市视觉画面。小冰团队运用这个技术,推出了世界上第一款直接进入店面销售的人工智能设计的T恤,售价 299 元。</p> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/ab0305e7c837749f5129bb935dfd2202.jpg" /></p> <p><strong>3、写新闻。</strong>从 2015 年至今,小冰团队与央视、湖南卫视、东方卫视等十多家媒体合作,让小冰进入新闻节目和综艺节目的采编、制作和主持过程;2016 年底,小冰还受聘于钱江晚报担任记者。利用它的大数据分析预测和互联网挖掘的能力,目前小冰已经写了超过 30 篇稿件,其中一篇百家号文章的阅读量甚至达到 10 万+。</p> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/d89abc423f3a77f451e0cad7b3685094.jpg" /></p> <p><strong>4、唱歌。</strong>嗯,直接感受吧!</p> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/06d0b5c61b3757ffea838514a156d97b.jpg" /></p> <p><strong>5、有声读物。</strong>在今年 8 月份第五代小冰发布会上,微软全球执行副总裁沈向洋介绍说,小冰已经能将有声读物的成本降到非常低的成本,例如一本格林童话,人类创作需要 200 小时,62100 元,而小冰只需要 24 分钟,0.74 元。</p> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/2b49756931662ccacfe25fcac07a5af7.jpg" /></p> <p><strong>一、少女音乐家</strong></p> <p>无论是唱歌还是有声读物,都不是小冰团队的初始目的。为了让小冰能用自己的声音跟用户交流聊天,小冰团队在两年前立项研发小冰的声音。</p> <p>他们给小冰定位的人设是一个 17、18 岁的萌妹子,根据这个人设的声音特质,他们选择了浙江卫视一个出镜主持人的声音作为样本。随后小冰团队花费了几个月的时间采集她的声音,然后输入神经网络模型进行训练。</p> <p>需要说明的是,这种用声音样本训练发音的方式,其实更像人的学习过程,小冰学到的是这个声音的特质、风格和情感,而不是具体的发音。传统的语音合成则更多的是合成具体的发音,例如导航、天气预报中的语音,我们一听就知道哪个是林志玲的。而小冰的声音则是独有的。</p> <p>据微软(亚洲)互联网工程院副院长李笛(也是小冰项目全球负责人)介绍,在语音合成中有一个自然度的参数,满分为5,人最高的是 4.72,小冰的则接近 4.4,国内其他语音合成绝大部分都在 2 或 3 的水平。</p> <p>在采集声音样本的过程中,小冰团队就想,是否也可以利用这些数据让小冰唱歌?随后他们就尝试用说话的数据训练了第一个版本的唱歌模型。</p> <p>微软(亚洲)互联网工程院产品经理周典告诉雷锋网:“那个时候小冰已经能够唱出很好的歌曲了,但是在一些方面仍表现不佳,比如咬字很生硬,或者流畅度不够,或者歌唱里面特有的一些声音特征(如高音、低音、转音、长音)在说话的数据里面没有涵盖。此外,当时唱歌的模型用的是隐马尔科夫模型(HMM),这是一种较为传统的训练模型。”</p> <p>今年,小冰团队做了一次提升,在声音数据集里面另外加入了多人的唱歌数据样本,并且在全球范围内首次采用了最新的深度神经网络(DNN)模型进行训练。升级后的小冰歌手进步非常迅速,歌声也更加的自然、平滑。</p> <table> <tbody> <tr> <td> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/1d3bf9ac5e12868fc2225f8d2f8c6462.jpg" /></p> <p><a href="https://y.qq.com/n/yqq/song/203649928_num.html?ADTAG=h5_playsong&no_redirect=1">我是小冰(点击试听)</a></p> </td> <td> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/4518f2127dd48778c52793286541ff63.jpg" /></p> <p><a href="https://y.qq.com/n/yqq/song/203603286_num.html?ADTAG=h5_playsong&no_redirect=1">微风(点击试听)</a></p> </td> <td> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/a4cef7baf31fa983b9f0defcc5599091.jpg" /></p> <p><a href="https://y.qq.com/n/yqq/song/203876449_num.html?ADTAG=h5_playsong&no_redirect=1">苍山十年(点击试听</a>)</p> </td> </tr> </tbody> </table> <p>如说话一样,小冰学习唱歌也和人类类似——她学习的是唱法,而不是声音或具体的旋律;换句话说就是,她在领悟该如何唱歌。所以如果用大量王菲的歌来训练小冰,她就能学会王菲的唱法,以后即使有一首王菲从来没唱过的歌,小冰也会知道该怎么用王菲的唱法来唱这首歌。</p> <p>基于 DNN 的这种唱歌模型,当你输入歌曲的五线谱或者你对着小冰清唱一遍,她就能学习到用哪种音高和节奏来演绎,然后会自动预测每个音的唱法,只需要十几分钟小冰就可以学会这首歌,包括你吐字归音的特征。</p> <p>和小冰学习唱歌的方式完全不同,传统的虚拟歌姬一般是采集大量的音素,放到音素库中;P主从库里选择需要的音素,然后拼接成一首歌。这有几个困难,首先音素库里的音素是有限的,有些音素并没有,遇到这种情况P主只能将就着选择相近的音素;其次这种搭积木的拼接方式,本身是很粗糙的,P主还需要花费很大力气拿一把“粗糙的刀”去修;此外,这种调音方式一般需要花费数月的时间才能调出一首勉强可以听的歌。</p> <p>“相比,小冰只需要十几分钟,且生成的歌声会更自然,并带有情感;P主们可以在这个基础上再进行细节上的修改。”李笛说,“过去这个行业强调的是怎么把内容表达的很清楚,他们费很大的劲去调咬字,所以它的歌声会很生硬。我们追求的首先是你得像人,所以自然、平顺、有情感才是小冰的关键。”</p> <p>这种先天的优势或许也是上个月<a href="/misc/goto?guid=4959011639244940617">小冰敢 diss 虚拟歌手</a>的原因吧。</p> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/be2d0c7fedce201f1d14e3ec974fa274.jpg" /></p> <p>说到这件事,李笛表示:“说实话,微软没有想进入到虚拟歌手那个市场,因为虚拟歌手市场太小众了,不是我们的重点,我们也没打算跟他们去争吵。我们想尝试的是,大众是否接受小冰这个人工智能歌手的身份以及她所创作的歌曲。”</p> <p>微软希望以技术为特征,让小冰可以创造内容。李笛开玩笑地说:“以后可能会看到越来越多的乐队组合里面会多出一个‘成员’(小冰),这位成员在这个乐队组合里唯一的缺点就是没有绯闻。”</p> <p>当然小冰的音乐梦想远不止此。在音乐方面,小冰团队的做法是先做离用户最近的一端,然后再往回做。离用户最近的一端即歌手的演绎,就是把歌唱出来。这个现在已经实现,且会越来越好。他们最终的目标则是,小冰不仅能够演绎已有的歌曲,还能够随时随地为你创作一首当下的歌,这首歌是从来没有过的,但符合我们当下的情景和心情;这时就不再有作品数量的概念,这首歌只在那一刻需要,她就在那一刻为你创作。</p> <p>“就好像你有一个音乐家的好朋友,这个好朋友还有无穷多的时间、无穷多的精力为你创作歌曲,每时每刻,随叫随到。”</p> <p><strong>二、多才多艺岂止音乐</strong></p> <p>唱歌其实只是少女小冰众多技能之一。</p> <p>在三年前立项时,微软有一套情感计算框架。今年 5 月份,沈向洋提出“AI Creation”的项目,即通过情感计算框架加上深度学习以及他们的大数据,不断从各个角度尝试,用人工智能的方法生产、形成、创造一些以内容为主的作品。在这个项目里面,目前已经推出的作品有诗歌、音乐、有声读物、新闻等。</p> <p>“AI Creation”的基本特点就是用人工智能的方法生产出原来人们认为只有人类才能创作的东西;做出的东西跟这个领域最牛的大师比可能有所不足,但却能代表中上的水平,而同时生产这些作品的成本却大幅度地下降。</p> <p>以有声读物来讲,在 8 月份五代小冰发布会上沈向洋指出,制作一本格林童话的有声读物,人去做可能需要 200 个小时,成本在 6 万多人民币,而小冰只需要 24 分钟,成本为 0.74 元的电费。</p> <p>随后他们找了一些孩子去听,这些孩子几乎听不出来这两者哪个是人,哪个不是,质量上它们是一样的。所以只要获得作者的版权,微软可以在短时间内生产出大量的有声读物来。</p> <p>据李笛介绍,在 11 月中旬他们会释放出大量的有声读物。“可能以后你在任何地方都会看到小冰创作的有声读物了”,李笛笑着说,“当然那些声音可能不是小冰的声音,我们有多个声优,每个声优都有自己的特征,所以你可能不知道你正在听的有声读物是不是人工智能创作的。”</p> <p>11 月中旬的发布后,小冰团队可能会很快占据有声读物市场中一个很大的份额,因为只要有文本内容,他们甚至当天就可以产生一个市场的内容。</p> <p>“例如少儿故事有声读物市场一共有一万多个小时,小冰团队在一天之内就能生产出同样多的内容。”</p> <p>“对于微软来说,完全是到了一个无主之地,面临着垦荒;哪怕是之前有人垦过的,比如虚拟歌手,也可以碾压过去。”</p> <p><strong>三、让媒体再次变革</strong></p> <p>微软在小冰的内容生成方面,今年主要集中在两个方面,一个是声音,一个是文本。前者就是前面介绍的歌曲和有声读物,后者则包括诗歌和新闻写作。</p> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/39a7e28245c849b8ad5562837530bac2.jpg" /></p> <p>每次微软高管们出来做报告,总喜欢拿小冰写的诗和创作的歌曲来展示,或许是因为诗歌和音乐更能激发人们的想象力,也确实如此,每次展示都能迎来听众的热烈掌声。</p> <p>但小冰对自己的另一项才能却显得很低调,官方也并没有刻意地去宣传,只是说小冰入驻了哪家哪家媒体,小冰写过的文章也从来没有拿出来展示。</p> <p>李笛解释说:“主要是担心人们知道哪篇是小冰写的文章,会在阅读时有一种先入为主的观念。”</p> <p>尽管没有刻意宣传,但据小冰团队介绍,小冰写的有些新闻文章阅读量已经超过了 10 万+。</p> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/104618d802a4a8be59b6eb5bcf770723.jpg" /></p> <p>目前来看,小冰在新闻写作方面有着明显的优势和不足之处。优势是她有大数据,但不足也是她的大数据。</p> <p><strong>小冰拥有大数据,所以她能比普通的媒体记者看到更多、更完整的信息,而且她有着更深厚的知识储备,所以能旁征博引;这些都是任何一个媒体人士所无法做到的。</strong></p> <p>“但小冰肯定是尽可能的说她积累到的所有数据的综合观点,那样得出的观点往往并不独特,为什么?因为她是一个来自于互联网、大数据的一种平均主义,平均主义很难产生颠覆性的观点,这个就需要媒体来教她了。”</p> <p>按照李笛的说法,他们希望今年让小冰能够基于大数据形成一个观点,目前这还是他们的一个难点。“如果能突破这个的话,我们就能让小冰接入到你们媒体记者个人,”李笛说,“让她替你们写个初稿,然后你们再在此基础上进行修改。”</p> <p>“在记者的许可下,她先学习这个记者之前的稿件,如果这个数据足够大的话,就可以让他每次都感觉到小冰写的跟他想要的越来越接近。这样记者就可以把他的精力集中在作品本身的意义上来。”</p> <p>李笛用一个更生动的例子向雷锋网阐述,过去 Office 的 Word 文档对写作者来说是一个很有用的生产工具,写作者只需要把精力集中到文章写作本身。如果能把小冰接入到里面,你打开 Word 文档,完成一些条件输入,那么一篇完整的文章就会出现在你的 Word 文档中。此时,你只需要把精力放在文章本身想要表达的意义上即可。</p> <p>就像诗歌一样,微软更倾向的是所谓的“联合创作”,所以除非是以小冰的名义产生的内容,像上面所说的新闻文章,媒体记者不用担心所谓版权问题。</p> <p>“不是小冰取代记者,而是让小冰替记者写个初稿,她是属于记者个人的协作者。”李笛再次强调说。</p> <p>“我们取代的是手上不好用的工具,而不是独立创作的个人。某种意义上来讲,科技的发展就是这样,人工智能的出现,一定意味着一大批某种程度上非人工智能产品被淘汰,就像铁出来了青铜被淘汰一样。”</p> <p><strong>四、少女的玩耍</strong></p> <p>“有时候,小冰团队觉得挺小的东西,在行业里面的影响却是很大。”李笛补充说。</p> <p>例如封面、网易、澎湃新闻等的客户端都内置了小冰,此外还有大约 6 万多媒体、自媒体的公众号接入了小冰。据李笛介绍,小冰接入这些公众号带来的流量总和差不多相当于小冰 1 亿多用户的流量;此外,通过这些客户端和公众号索引的文章数量,某种程度上大约相当于今日头条文章量的 70%。</p> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/c19507d177b1dfb50deac5e090ecfdda.jpg" /></p> <p>“当然我们不是干这个生意的,也不把它当做生意来干。我们从来没说过这是一个独立的项目。”李笛说,“在我心目中,AI Creation 才是一个大的颠覆性的东西,就像当年我们开始出聊天机器人一样。”</p> <p><strong>针对将小冰接入新闻客户端及微信公众号的收益问题,李笛回答说:“我们没有收益,我们有未来。”</strong></p> <p>或许对微软来说,只是在从各个侧面去尝试如何将技术落地,真正产生出价值。</p> <p><strong>五、怀揣大梦想的逗贫少女</strong></p> <p>本质上,小冰是一个人工智能交互的平台。经过三年多的研发,交互这方面小冰团队已经做得很多了,所以他们开始把她往更深的方向做。现在除了交互,最主要的就是通过交互创造一些内容,这包括她聊天当中的生成模型以及音乐、诗歌、新闻、有声读物等等。</p> <p>李笛表示:“小冰走的路线和 AlphaGo 不同,后者是将一个领域的技术做到极致,去挑战人类的极限。微软无意于此。市场的最大利益获得者往往不是这个领域的顶峰,而是中间水平。AlphaGo 把柯洁打败了,然后就完了;微软想让小冰进入的是大众市场。”</p> <p>“我们不需要人类去膜拜人工智能。我们追求的是人工智能真正去改变人们的生活,而不是毁掉它们。”</p> <p>但不管微软怎么谦虚,小冰这个逗贫少女确实正在真真切切地颠覆一些行业!</p> <p style="text-align:center"><img alt="怀着大梦想的小冰,不只是逗贫" src="https://simg.open-open.com/show/753d0834567e7a8cab6b0e4a1eca0ccf.jpg" /></p> <p>来自: <a href="/misc/goto?guid=4959011639339126532" id="link_source2">雷锋网</a></p>