Hadoop 迭代式计算框架:Guagua

jopen 10年前

Hadoop 迭代式计算框架 Guagua 是 PayPal 的一个开源机器学习框架 Shifu 的子项目。Guagua 主要解决了模型训练的分布式问题。同时 Guagua 并没有将自己局限在分类模型,Guagua 是一个基于 Hadoop 的迭代式计算框架,几乎任何基于迭代的算法都可以利用 Guagua 为其添加分布式功能。此外由于Guagua对分 布式的良好支持,我们以前许多想做又不能做的工作比如模型特征自动选取都可以得以进行。

Guagua目前主要支持的是同步的Master-Workers结构的迭代式计算框架,今后我们希望能够支持异步方式的迭代计算框架,2012年Google MapReduce之父Jeff Dean发表了一篇论文,上面提到了对神经网络深度模型的支持,文章介绍他们的DistBelief框架训练的神经网络的数学模型可以支持10亿级别的参数。这也是Guagua的另一个方向,支持超大规模的深度神经网络模型。

Hadoop 迭代式计算框架:Guagua

摘自 InfoQ

项目主页:http://www.open-open.com/lib/view/home/1406705577921