机器学习库,Mahout 0.10.0 发布
Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头,目前只有一个公共发行版。Mahout 包含许多实现,包括集群、分类、CP 和进化程序。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
Mahout 项目是由 Apache Lucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类 的机器学习算法。该社区最初基于 Ngetal. 的文章 “Map-Reduce for Machine Learning on Multicore”,但此后在发展中又并入了更多广泛的机器学习方法。
Mahout 0.10.0 发布,此版本主要更新信息如下:-
MAHOUT-1630: Incorrect SparseColumnMatrix.numSlices() causes IndexException in toString() (Oleg Nitz, smarthi)
-
MAHOUT-1665: Update hadoop commands in example scripts (akm)
-
MAHOUT-1676: Deprecate MLP, ConcatenateVectorsJob and ConcatenateVectorsReducer in the codebase (apalumbo)
-
MAHOUT-1622: MultithreadedBatchItemSimilarities outputs incorrect number of similarities (Jesse Daniels, Anand Avati via smarthi)
-
MAHOUT-1605: Make VisualizerTest locale independent (Frank Rosner, Anand Avati via smarthi)
-
MAHOUT-1635: Getting an exception when I provide classification labels manually for Naive Bayes (apalumbo)
-
MAHOUT-1662: Potential Path bug in SequenceFileVaultIterator breaks DisplaySpectralKMeans (Shannon Quinn)
-
MAHOUT-1656: Change SNAPSHOT version from 1.0 to 0.10.0 (smarthi)
-
MAHOUT-1593: cluster-reuters.sh does not work complaining java.lang.IllegalStateException (smarthi via akm)
-
MAHOUT-1661: All Lanczos modules marked as @Deprecated and slated for removal in future releases (Shannon Quinn)
-
MAHOUT-1638: H2O bindings fail at drmParallelizeWithRowLabels(...) (Anand Avati via apalumbo)
-
MAHOUT-1667: Hadoop 1 and 2 profile in POM (sslavic)
-
MAHOUT-1564: Naive Bayes Classifier for New Text Documents (apalumbo)
详细信息请查看更新日志。
此版本已提供下载:
https://github.com/apache/mahout/archive/mahout-0.10.0.zip
Mahout 的目标还包括:
-
建立一个用户和贡献者社区,使代码不必依赖于特定贡献者的参与或任何特定公司和大学的资金。
-
专注于实际用例,这与高新技术研究及未经验证的技巧相反。
-
提供高质量文章和示例。