雅虎开源“TensorFlowOnSpark” - TensorFlow 与 Apache Spark 结合

jopen 8年前
   <p><img alt="TensorFlow 与 Apache Spark 结合:雅虎开源“TensorFlowOnSpark”" src="https://simg.open-open.com/show/f8da8c19fb00a40001875e722a5e951b.jpg" /></p>    <p>雅虎昨日宣布开源TensorFlowOnSpark。</p>    <p>它使得深度学习框架 TensorFlow 能与 Apache Spark 中的数据集兼容。对于使用 Spark 来处理不同类型数据的机构和开发者来说,这无疑是一个好消息。TensorFlowOnSpark 的开源代码,已基于 Apache 2.0 协议在 <a href="/misc/goto?guid=4958999498666893372" rel="nofollow,noindex">GitHub</a> 上发布。</p>    <p>众所周知,深度学习有海量数据需求。雷锋网了解到,许多业内公司利用 Spark 对超大规模的数据集进行管理。让深度学习框架直接、方便地获取这部分数据,将为 ML 开发提供极大助力。</p>    <p>雅虎在官方博客中宣布了这一消息,并解释了此前雅虎 Big ML 开发团队遇到的问题:</p>    <p>“现有的深度学习框架,往往需要设立单独的深度学习数据组。这强迫我们为同一个机器学习流水线创建多个程序。维护多个独立的数据组,要求我们在它们之间传输海量数据集——这导致不必要的系统复杂性和端到端的学习延迟。”</p>    <p style="text-align:center"><img alt="TensorFlow 与 Apache Spark 结合:雅虎开源“TensorFlowOnSpark”" src="https://simg.open-open.com/show/27c19b4371a7ebb47831a27b22ee77b9.jpg" /></p>    <p>为解决这一问题,雅虎此前开发了 CaffeOnSpark。它使得基于 Caffe机器学习框架开发的程序,能与 Apache Spark 兼容。雷锋网 (公众号:雷锋网) 了解到,雅虎已将基于 CaffeOnSpark 的程序,用于鉴别搜索中的不恰当搜索结果,以及自动探测电子竞技游戏直播视频中的关键看点。</p>    <p>雅虎去年开源了 CaffeOnSpark。如今它对 TensorFlow 做了同样的工作。两者的原理几乎相同,只是把机器学习框架换成了 TensorFlow。</p>    <p>雅虎表示,把 TensorFlow 程序移植到 TensorFlowOnSpark 相对方便,并经过反公司内部的反复验证。</p>    <p>“这通常只需要修改十行以内的 Python 代码。许多使用 TensorFlow 的雅虎开发者已轻松地把 TensorFlow 程序,移植到 TensorFlowOnSpark 执行。”</p>    <p> </p>    <p>来自: http://www.leiphone.com/news/201702/XwhHugKHTk86WQso.html</p>