开源项目,开源代码,开源文档,开源新闻,开源社区

图 4.4 高层 MapReduce 工作流水线 MapReduce 的输入一般来自 HDFS 中的文件，这些文件分布存储在集群内的节点上。运行一个 MapReduce 程序会在集群的许多节点甚至所有节点上运行

openkk 2012-02-16 49209 0

MapReduce 分布式/云计算/大数据

MapReduce适合PB级以上海量数据的离线处理 MapReduce不擅长什么实时计算像MySQL一样，在毫秒级或者秒级内返回结果流式计算 MapReduce的输入数据集是静态的，不能动态变化

jopen 2016-01-20 13788 0

分布式/云计算/大数据

传统数据挖掘/机器学习库存在的问题缺少一个活跃的技术社区扩展性差文档化差，缺少实例不开源，商业化库通常由研究机构开发实施性差 Apache Mahout优点技术社区活跃

jopen 2016-01-20 17099 0

推荐系统大数据机器学习 Mahout

其意义就是两个元素在欧氏空间中的集合距离，因为其直观易懂且可解释性强，被广泛用于标识两个标量元素的相异度。将上面两个示例数据代入公式，可得两者的欧氏距离为：（2）除欧氏距离外，常用作度量标量相异度的还

jopen 2016-01-18 24871 0

机器学习

k -近邻算法是基于实例的学习方法中最基本的，先介绍基于实例学习的相关概念。一、基于实例的学习。 1、已知一系列的训练样例，很多学习方法为目标函数建立起明确的一般化描述；但与此不同，基于实例

jopen 2016-01-18 24663 0

机器学习

P0

主要内容1.概述2.数据仓库与OLAP技术3.数据挖掘技术4.数据挖掘应用数据挖掘工具6.数据挖掘实例1概述1.1背景1.2数据挖掘定义1.3基本概念1.4主要功能1.5数据挖掘模型1.6实现流程1.7数据挖掘的应用1.8未来趋势1.1背景二十世纪末以来，全球信息量以惊人的速度急剧增长—据估计，每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据（信息）。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。

mutongno1 2014-09-10 4930 0

数据挖掘

什么是数据挖掘？数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库，发现前所未知的有用模式。数据挖掘还可以预测未来的观测结果。并非所有的信息发现任务都被视为数据挖掘，与

jopen 2014-08-24 17720 0

数据挖掘

大数据的核心：数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘，但是我们不关心是什么是数据挖掘，我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西，而我们更关心的是这个过程是什么？如何开始？

jopen 2014-12-12 55250 0

大数据分布式/云计算/大数据

P60

1. 数据挖掘 2. 为什么要进行数据挖掘数据挖掘的研究现状数据挖掘的过程数据挖掘的主要方法面临的问题下一步的研究方向 3. 为什么要进行数据挖掘？ 4. (本页无文本内容) 5. (本页无文本内容)

庚午子李 2012-09-24 5615 0

数据挖掘

P81

1. 数据仓库与数据挖掘综述概念、体系结构、趋势、应用报告人：朱建秋 2001年6月7日 2. 提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术（与数据库技术的区别）数据仓库性能

landman 2016-04-08 3242 0

数据挖掘数据仓库方案报告 Basic

在新文章“MapReduce模式、算法和用例”中，Ilya Katsov提供了一个系统化的综述，阐述了能够应用MapReduce框架解决的问题。文章开始描述了一个非常简单的、作为通用的并行计算框

openkk 2012-02-24 103805 0

MapReduce 算法

18大经典DM算法 18大数据挖掘的经典算法以及代码实现，涉及到了决策分类，聚类，链接挖掘，关联挖掘，模式挖掘等等方面,后面都是相应算法的博文链接，希望能够帮助大家学。目前追加了其他的一些经典的D

jopen 2015-06-16 62559 0

算法

有时候我们在项目中会遇到输入结果集很大，但是输出结果很小，比如一些 pv、uv 数据，然后为了实时查询的需求，或者一些 OLAP 的需求，我们需要 mapreduce 与 mysql 进行数据的交互，而这些是 hbase 或者 hive

jopen 2013-07-29 35351 0

Hadoop 分布式/云计算/大数据

MapReduce的数据流程：预先加载本地的输入文件经过MAP处理产生中间结果经过shuffle程序将相同key的中间结果分发到同一节点上处理 Recude处理产生结果输出将结果输出保存在hdfs上

jopen 2013-11-27 19471 0

MapReduce

在程序员开发并行程序时，Map-Reduce模式正变得流行起来。这些map-reduce程序通常来并行处理大量数据。本文来演示如何在Oracle数据库上，通过使用Parallel Pipelined Table函数及并行操作，来实

jopen 2014-10-06 23128 0

MapReduce Oracle 数据库服务器

P10

1. MapReduce数据分析实战–李立松 2. 单机测试与程序执行一、单机测试 head test.log | python map.py | python red.py 一、将文件上传到集群 /bin/hadoop

gppxm 2012-10-19 449 0

分布式/云计算/大数据

P91

数据挖掘十大经典算法国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4

n8uic 2014-03-20 885 0

数据挖掘

我们要找的：感兴趣的人。我在网上找了些，关于二度人脉算法的实现，大部分无非是通过广度搜索算法来查找，犹豫深度已经明确了2以内；这个算法其实很简单，第一步找到你关注的人；第二步找到这些人关注的人，

openkk 2012-09-01 67412 0

Hadoop 算法

fengfenggirl（@也爱数据挖掘）从这篇开始，我将介绍分类问题，主要介绍决策树算法、朴素贝叶斯、支持向量机、BP神经网络、懒惰学习算法、随机森林与自适应增强算法、分类模型选择和结果评价。总共7篇，欢迎关注和交流。

jopen 2015-08-30 21541 0

数据挖掘

是两类算法——kNN为监督学习中的分类算法，而k-means则是非监督学习中的聚类算法；二者相同之处：均利用近邻信息来标注类别。聚类是数据挖掘中一种非常重要的学习流派，指将未标注的样本数据中相似

QLKJacquett 2016-01-31 17515 0

K-means 算法

MapReduce数据流经验

大数据(四) - MapReduce 经验

基于MapReduce开发的数据挖掘/机器学习库 - Mahout 经验

数据挖掘十大算法--K-均值聚类算法经验

数据挖掘十大算法--K近邻算法经验

数据挖掘文档

数据挖掘经验

大数据的核心：数据挖掘经验

数据挖掘简介文档

数据挖掘讲座文档

MapReduce 模式、算法和用例（MapReduce Patterns, Algorithms, and Use Cases) 经验

数据挖掘18大算法实现以及其他相关经典DM算法经验

Hadoop 中利用 mapreduce 读写 mysql 数据经验

MapReduce的数据流程、执行流程经验

在 Oracle 数据库中实现 MapReduce 经验

MapReduce 数据分析实战文档

数据挖掘十大经典算法文档

海量数据的二度人脉挖掘算法（Hadoop 实现）经验

数据挖掘（6）：决策树分类算法经验

【十大经典数据挖掘算法】k-means 经验

mapreduce数据挖掘算法的相关搜索

关键词

MapReduce数据流 经验

大数据(四) - MapReduce 经验

基于MapReduce开发的数据挖掘/机器学习库 - Mahout 经验

数据挖掘十大算法--K-均值聚类算法 经验

数据挖掘十大算法--K近邻算法 经验

数据挖掘 文档

数据挖掘 经验

大数据的核心：数据挖掘 经验

数据挖掘简介 文档

数据挖掘讲座 文档

MapReduce 模式、算法和用例（MapReduce Patterns, Algorithms, and Use Cases) 经验

数据挖掘18大算法实现以及其他相关经典DM算法 经验

Hadoop 中利用 mapreduce 读写 mysql 数据 经验

MapReduce的数据流程、执行流程 经验

在 Oracle 数据库中实现 MapReduce 经验

MapReduce 数据分析实战 文档

数据挖掘十大经典算法 文档

海量数据的二度人脉挖掘算法（Hadoop 实现） 经验

数据挖掘（6）：决策树分类算法 经验

【十大经典数据挖掘算法】k-means 经验

mapreduce数据挖掘算法 的相关搜索

关键词

MapReduce数据流经验

数据挖掘十大算法--K-均值聚类算法经验

数据挖掘十大算法--K近邻算法经验

数据挖掘文档

数据挖掘经验

大数据的核心：数据挖掘经验

数据挖掘简介文档

数据挖掘讲座文档

数据挖掘18大算法实现以及其他相关经典DM算法经验

Hadoop 中利用 mapreduce 读写 mysql 数据经验

MapReduce的数据流程、执行流程经验

MapReduce 数据分析实战文档

数据挖掘十大经典算法文档

海量数据的二度人脉挖掘算法（Hadoop 实现）经验

数据挖掘（6）：决策树分类算法经验

mapreduce数据挖掘算法的相关搜索