在MongoDB中使用MapReduce

jopen 12年前

MapReduce是聚合工具的明星。Count、distinct、group能做的上述事情，MapReduce都能做。它是一个能轻松并行化到多个服务器的聚合方法。它会拆分问题，再将各个部分发送到不同的机器上，让每台机器都完成一部分。当所有的机器都完成的时候，再把结果汇集起来形成最终完整的结果。

MapReduce的步骤。 Map->Shuffle->Reduce

Map:将操作映射到集合中的每个文档。这个操作要么“无作为”，要么产生“一些键和几个值”。

Shuffle: 将Map的结果按照键进行分组，并将产生的键值组成列表放到对应的键中。

Reduce: 将每个键对应的列表中的值化简成一个单值。这个值被返回，然后接着Shuffle，直到每个键的列表中只有一个值为止，这个值就是最终的结果。

MapReduce的函数类似这样：

db.runCommand({“mapReduce” : ”集合名” , ”map” : “map函数” , ”reduce” : ”reduce函数”});

不同语言有对应的接口：比如java中，可以直接调用executeCommad()方法，或者在集成SpringMongo后，调用mapReduce()接口。

调用示例（SpringMongoDB方式）：

searchMongoTemplate.mapReduce(query, collection, map, reduce,

option.outputCollection(out), Map.class);

searchMongoTemplate 是一个MongoOperations对象；

query是一个Query的对象, mapReduce操作只对查询结果进行；

map类似于"classpath:mapReduce/mapDayDetail.js" ，是map的js文件存放地址，或者可以直接将map的js文件读成String;

reduce的意义类似map,对应reduce的js文件；

out: 是输出文件的集合名称

Map.class: 输出的对象类型，可以是自定义对象

Map.js与Reduce.js举例说明：

Map.js

function() {

var renewTime = this.renewTime;

var date = new Date(renewTime);

var time = date.getFullYear()*10000+(date.getMonth()+1)*100+date.getDate();

emit({

"year" : date.getFullYear(),

"month" : date.getMonth() + 1,

"day" : date.getDate(),

"level" : this.productLevel,

"time" : time

}, {

'count' : 1

});

emit({

"year" : date.getFullYear(),

"month" : date.getMonth() + 1,

"day" : date.getDate(),

"node" : this.nodeName,

"time" : time

}, {

'count' : 1

});

emit({

"year" : date.getFullYear(),

"month" : date.getMonth() + 1,

"day" : date.getDate(),

"satellite" : this.satelliteName,

"time" : time

}, {

'count' : 1

});

};

Map.js的脚本作用于输入的每一个文档，this指代当前文档，用this.属性名的方式获取文档中的属性，用emit方式返回键值对结果。本例中，对于每个文档，返回三个结果，emit函数中，第一个参数是key，第二个参数是value.

Reduce.js

function(key, emits) {

var result = {

"count" : 0

};

for (var i in emits) {

result.count += emits[i].count;

}

return result;

}

传递给reduce的参数可以是map的结果，也可以是reduce自己的结果。所以reduce必须能被反复调用，reduce返回的结果必须能作为reduce第二个参数中的一个元素。Reduce中只需要返回value即可，返回的key默认是传进来的key.

在MongoDB中使用MapReduce

相关经验

目录