以翻译为跳板，网易有道将推出语音助手及智能音箱

jopen 7年前
   <p style="text-align:center"><img alt="以翻译为跳板，网易有道将推出语音助手及智能音箱" src="https://simg.open-open.com/show/e72afa59fb4e020056772447892bc59b.jpg" /></p>    <p>有道在外界的印象往往是“词典”与“翻译”，但在 3 月 30 日下午深圳的网易有道技术开放日上，这家公司出人意料的透露，已经在开发语音助手，今年 5 月会有产品发布。</p>    <p>这次以 AI 为主题的开放日上，有道介绍了神经网络翻译技术，OCR 技术，以及有道智云的相关进展及解决方案。有道的 AI 翻译解决方案分于基于视觉交互和语音交互的解决方案两类，而语音助手就被“藏”在了语音解决方案之中。</p>    <p>有道词典产品技术负责人林会杰告诉雷锋网，之所以做语音助手，是发现有用户在使用有道翻译官这一产品时，会将它当作一个可以理解自己表达的助手，而非仅仅是一个翻译工具。有道翻译官 APP 可以识别语音并即时翻译。</p>    <p>比如，面对一个翻译工具，你会说一句话让其全部翻译出来，而面对一个助手，你会说“翻译一下 XXXX 这句话”，并且只想要部分内容被翻译出来。</p>    <p>根据有道工作人员的介绍，与其它同类产品一样，有道的语音助手也会有智能问答、生活查询、智能翻译、日常闲聊、多语言理解，以及自然语言指令控制等功能。不过在现场的演示中，有道的语音助手还不是一个成型的产品，只是显示了一个简单的交互界面。</p>    <p>林会杰表示，今年 5 月会发布关于语音助手的更多详细情况，并且还会推出一款硬件。他也向雷锋网确认，这款硬件会是音箱。</p>    <p>网易做语音音箱并不奇怪，与阿里、腾讯一样，网易云音乐与网易新闻让其并不缺少内容，更何况在今年2、3 月，网易云音乐还分别与腾讯音乐及阿里音乐达成版权互相转授权合作，内容库更为丰富。但由有道来做确实挺令人意外，至少与外界对它一直以来的形象不相符。</p>    <p style="text-align:center"><img alt="以翻译为跳板，网易有道将推出语音助手及智能音箱" src="https://simg.open-open.com/show/afe191930e70c92b9d18a8fbf45ae50d.jpg" /></p>    <p>除了语音助手外，网易也公布了其在神经网络翻译，OCR 技术，有道智云方面的进展。</p>    <p>有道翻译在 2008 年上线，2017 年升级为神经网络模型，并在同年升级为有道智云，向外输出翻译技术和解决方案。有道的神经网络翻译在过去一段时间的主要进展有下面几个方面：</p>    <ul>     <li> <p>语言支持：目前有道已经支持 10 多种语言翻译，最近新上线了越南语，还将上线泰语、印尼语等小语种。</p> </li>     <li> <p>服务性能：采用 CPU+GPU 方案服务 7.5 亿线上用户，单次请求的平均翻译时间仅为 40ms，系统稳定性达到 99.95%。</p> </li>     <li> <p>离线能力：随着手机性能的提升，有道还同步开发了离线版的神经翻译系统，主要使用 CPU 解决方案，单语种模型文件小于 100M，翻译质量接近在线翻译，目前支持中英日韩法西葡 7 种语言。</p> </li>     <li> <p>海外拓展：除了围绕中文的翻译，有道还在海外进行了扩展，为国外的开发者提供以英语为中心的翻译能力，比如英语与印地语、法语、西班牙语的互译。</p> </li>    </ul>    <p>有道智云还集成了 OCR 技术，其在拍照翻译这样的应用中十分重要。有道表示，目前其 OCR 技术已经识别超过 72 亿张图片，支持 17 种语言，并支持离线识别，其中在线识别可以达成 99% 的请求耗时 650ms，而离线模型在 20M 内，平均 1.2 秒即可识别出结果。</p>    <p>另外，有道对文字的方向、角度，以及文档结果都做了诸多优化，并能做到无需指定语言即可识别，而且支持多语言混合识别。未来，有道的 OCR 技术还将支持公式识别，面向教育场景（比如选择题、填空题和数学推理等）进行优化，还会针对手写板提供智能批改、错题整理等服务。</p>    <p style="text-align:center"><img alt="以翻译为跳板，网易有道将推出语音助手及智能音箱" src="https://simg.open-open.com/show/7db67ce79e95356044199c7c4fed9578.jpg" /></p>    <p>将上面的两项技术打包在一起，有道提供有基于视觉交互和基于语音交互的两种翻译解决方案。视觉交互方案主要包括：</p>    <ul>     <li> <p>拍照翻译：即输入图片后识别图中文字并给出翻译结果</p> </li>     <li> <p>原图翻译：在拍照翻译的结果上，将原图文字无缝替换为翻译内容，看起来就和原图一样。</p> </li>     <li> <p>AR 翻译：也就是用摄像头拍摄目标，视频中的文字会实时翻译。里面涉及到识别、翻译、追踪、背景分割等多种技术，有道表示可以做到全离线的 AR 翻译。</p> </li>    </ul>    <p>语音翻译则可以做到实时识别与翻译，并对中式英语进行了特别的优化。</p>    <p>有道一位工作人员告诉雷锋网(公众号：雷锋网)，现在其已经有 1000 多名员工，而且是网易内部 AI 能力最强的团队，其 AI 业务的重点还是以翻译为基础，逐步扩展在教育领域的应用和解决方案。</p>    <p>来自: <a href="/misc/goto?guid=4959012980503360241" id="link_source2">雷锋网</a></p>
以翻译为跳板，网易有道将推出语音助手及智能音箱

相关资讯