mongodb小结

jopen 13年前
     <p>用了一阵子mongodb,作一些小结,作为将来的参考。按照以往的习惯,先作一个总览,然后再挑出一些自己比较关注的几个点,作为珠玑,加以串联阐述。</p>    <p>mongodb由C++写就,其名字来自hu<strong>mongo</strong>us这个单词的中间部分,从名字可见其野心所在就是海量 数据的处理。关于它的一个最简洁描述为:scalable, high-performance, open source, schema-free, document-oriented database。我对于文档型数据库有一些个人的偏好,这种偏好是从半年前研究couchdb而来的,因为我觉得用它来描述一个具有个性化特征的实体对 象正合适,比如网站上的用户或商品书籍之类的条目。</p>    <h3><strong>一些概念:</strong></h3>    <p>跟mysqld一样,一个mongod服务可以有建立多个数据库,每个数据库可以有多张表,这里的表名叫collection,每个 collection可以存放多个文档(document),每个文档都以BSON(binary json)的形式存放于硬盘中。跟关系型数据库不一样的地方是,它是的以单文档为单位存储的,你可以任意给一个或一批文档新增或删除字段,而不会对其它文 档造成影响,这就是所谓的schema-free,这也是文档型数据库最主要的优点。跟一般的key-value数据库不一样的是,它的value中存储 了结构信息,所以你又可以像关系型数据库那样对某些域进行读写、统计等操作。可以说是兼备了key-value数据库的方便高效与关系型数据库的强大功 能。</p>    <h3><strong>索引</strong></h3>    <p>跟关系型数据库类似,mongodb可以对某个字段建立索引,可以建立组合索引、唯一索引,也可以删除索引。当然建立索引就意味着增加空间开销,我 的建议是,如果你能把一个文档作为一个对象的来考虑,在线上应用中,你通常只要对对象ID建立一个索引即可,根据ID取出对象某些数据放在 memcache即可。如果是后台的分析需要,响应要求不高,查询非索引的字段即便直接扫表也费不了太多时间。如果还受不了,就再建一个索引得了。</p>    <p>默认情况下每个表都会有一个唯一索引:_id,如果插入数据时没有指定_id,服务会自动生成一个_id,为了充分利用已有索引,减少空间开销,最好是自己指定一个unique的key为_id,通常用对象的ID比较合适,比如商品的ID。</p>    <h3><strong>capped collection</strong></h3>    <p>capped collection是一种特殊的表,它的建表命令为:</p>    <pre>db.createCollection("mycoll", {capped:true, size:100000})</pre>    <p>允许在建表之初就指定一定的空间大小,接下来的插入操作会不断地按顺序APPEND数据在这个预分配好空间的文件中,如果已经超出空间大小,则回到 文件头覆盖原来的数据继续插入。这种结构保证了插入和查询的高效性,它不允许删除单个记录,更新的也有限制:不能超过原有记录的大小。这种表效率很高,它 适用于一些暂时保存数据的场合,比如网站中登录用户的session信息,又比如一些程序的监控日志,都是属于过了一定的时间就可以被覆盖的数据。</p>    <h3>复制与分片</h3>    <p>mongodb的复制架构跟mysql也很类似,除了包括master-slave构型和master-master构型之外,还有一个 Replica pairs构型,这种构型在平常可以像master-slave那样工作,一但master出现问题,应用会自动了连接slave。要做复制也很简单,我 自己使用过master-slave构型,只要在某一个服务启动时加上–master参数,而另一个服务加上–slave与–source参数,即可实现 同步。</p>    <p>分片是个很头疼的问题,数据量大了肯定要分片,mysql下的分片正是成为无数DBA的噩梦。在mongodb下,文档数据库类似key- value数据库那样的易分布特性就显现出来了,无论构造分片服务,新增节点还是删除节点都非常容易实现。但mongodb在这方面做还不足够成熟,现在 分片的工作还只做到alpha2版本(mongodb v1.1),估计还有很多问题要解决,所以只能期待,就不多说了。</p>    <h3>性能</h3>    <p>在我的使用场合下,千万级别的文档对象,近10G的数据,对有索引的ID的查询不会比mysql慢,而对非索引字段的查询,则是全面胜出。 mysql实际无法胜任大数据量下任意字段的查询,而mongodb的查询性能实在让我惊讶。写入性能同样很令人满意,同样写入百万级别的数 据,mongodb比我以前试用过的couchdb要快得多,基本10分钟以下可以解决。补上一句,观察过程中mongodb都远算不上是CPU杀手。</p>    <h3>GridFS</h3>    <p>gridfs是mongodb一个很有趣的类似文件系统的东西,它可以用一大块文件空间来存放大量的小文件,这个对于存储web2.0网站中常见的大量小文件(如大量的用户头像)特别有效。使用起来也很方便,基本上跟一般的文件系统类似。</p>    <h3><strong>用合适的数据库做适合的事情</strong></h3>    <p>mongodb的文档里提到的user case包括实时分析、logging、全文搜索,国内也有人使用mongodb来存储分析网站日志,但我认为mongodb用来处理有一定规模的网站日 志其实并不合适,最主要的就是它占空间过于虚高,原来1G的日志数据它可以存成几个G,如此下去,一个硬盘也存不了几天的日志。另一方面,数据量大了肯定 要考虑sharding,而mongodb的sharding到现在为止仍不太成熟。由于日志的不可更新性的,往往只需APPEND即可,又因为对日志的 操作往往只集中于一两列,所以最合适作为日志分析的还是列存储型的数据库,特别是像infobright那样的为数据仓库而设计的列存储数据库。</p>    <h3><span style="font-size:13px;font-weight:normal;">由于mongodb不支持事务操作,所以事务要求严格的系统(如果银行系统)肯定不能用它。</span></h3>    <h3><strong>mongodb占用空间过大的原因,在官方的FAQ中,提到有如下几个方面:</strong></h3>    <p>1、空间的预分配:为避免形成过多的硬盘碎片,mongodb每次空间不足时都会申请生成一大块的硬盘空间,而且申请的量从64M、128M、 256M那样的指数递增,直到2G为单个文件的最大体积。随着数据量的增加,你可以在其数据目录里看到这些整块生成容量不断递增的文件。</p>    <p>2、字段名所占用的空间:为了保持每个记录内的结构信息用于查询,mongodb需要把每个字段的key-value都以BSON的形式存储,如果 value域相对于key域并不大,比如存放数值型的数据,则数据的overhead是最大的。一种减少空间占用的方法是把字段名尽量取短一些,这样占用 空间就小了,但这就要求在易读性与空间占用上作为权衡了。我曾建议作者把字段名作个index,每个字段名用一个字节表示,这样就不用担心字段名取多长 了。但作者的担忧也不无道理,这种索引方式需要每次查询得到结果后把索引值跟原值作一个替换,再发送到客户端,这个替换也是挺耗费时间的。现在的实现算是 拿空间来换取时间吧。</p>    <p>3、删除记录不释放空间:这很容易理解,为避免记录删除后的数据的大规模挪动,原记录空间不删除,只标记“已删除”即可,以后还可以重复利用。</p>    <p>4、可以定期运行db.repairDatabase()来整理记录,但这个过程会比较缓慢。</p>    <p>因为<a href="/misc/goto?guid=4959499518885873404" target="_blank">官方文档</a>中对各方面的内容已经有很详细的叙述,所以我并没有再过多的引用原文与代码,只是结合自己的使用归纳一些心得,有兴趣的朋友不妨直接去翻文档中自己感兴趣的问题,<a href="/misc/goto?guid=4959499518967194342" target="_blank">超群的博客</a>上有一个很好的入门介绍。</p>    <p>最后总结一句,文档型数据库有点像波粒二象性,总能在适当的时候表现出它作为关系型数据库或key-value数据库的优势来。</p>    <p>实战案例:</p>    <p>昨天我访问mongodb的python程序开始出错,经常抛出AssertionError异常,经查证只是master查询异常,slave正常,可判断为master的数据出了问题。</p>    <p>修复过程:</p>    <p>1、在master做db.repairDatabase(),不起作用;</p>    <p>2、停止slave的同步;</p>    <p>3、对slave作mongodump,备份数据;</p>    <p>4、对master作mongostore,把备份数据恢复,使用–drop参数可以先把原表删除。</p>    <p>5、恢复slave的同步。</p>    <div style="border-bottom:#ccc 1px solid;border-left:#ccc 1px solid;margin:27px auto;font-size:14px;border-top:#ccc 1px solid;border-right:#ccc 1px solid;" id="qu42">     <div style="border-bottom:#ccc 1px dotted;padding-bottom:7px;padding-left:10px;padding-right:10px;padding-top:7px;">      关于作者     </div>     <div style="height:129px;overflow:hidden;">      <a style="float:right;color:#000;text-decoration:none;" href="/misc/goto?guid=4959499519179522205" target="_blank"><img style="border-bottom:0px;border-left:#ccc 1px dotted;padding-bottom:3px;margin:0px;padding-left:3px;width:219px;padding-right:3px;background:none transparent scroll repeat 0% 0%;height:123px;border-top:0px;border-right:0px;padding-top:3px;" alt="mongodb小结" src="https://simg.open-open.com/show/617b7606d51aaf8f5d90254664ece057.jpg" width="219" height="123" /></a>      <div style="text-align:left;line-height:23px;margin-right:226px;">       <div style="padding-bottom:5px;padding-left:10px;padding-right:10px;padding-top:5px;">        <div style="margin:2px 0px;float:left;font-size:14px;overflow:hidden;">         <a style="text-decoration:none;" href="/misc/goto?guid=4959499519179522205" target="_blank">阿稳</a>, 豆瓣, 算法工程师        </div>        <div style="clear:left;">         推荐系统;数据挖掘;算法架构及实现的可扩展性;R环境编程 如果你的问题已经能从我的博客中得到解答,就最好不过了:http://www.wentrue.net/blog/        </div>       </div>      </div>     </div>     <div style="text-align:right;padding-bottom:10px;padding-left:10px;padding-right:10px;border-top:#ccc 1px dotted;padding-top:10px;">      <div style="float:left;">       <a style="margin-right:7px;text-decoration:none;" href="/misc/goto?guid=4959499519275017342" target="_blank">豆瓣</a>       <a style="margin-right:7px;text-decoration:none;" href="/misc/goto?guid=4959499519453987468" target="_blank">推ter</a>       <a style="margin-right:7px;text-decoration:none;" href="/misc/goto?guid=4959499519534216900" target="_blank">blog</a>       <a style="margin-right:7px;text-decoration:none;" href="http://www.linkedin.com/profile?viewProfile=&key=76007067&locale=en_US&trk=tab_pro" target="_blank">LinkedIn</a>       <a style="margin-right:7px;text-decoration:none;" href="/misc/goto?guid=4959499519714627794" target="_blank">SlideShare</a>       <a style="margin-right:7px;text-decoration:none;" href="/misc/goto?guid=4959499519842086158" target="_blank">新浪微博</a>      </div>      <div>       <a style="margin-right:17px;text-decoration:none;" href="http://42qu.com/-10000217/pay?title=mongodb%E5%B0%8F%E7%BB%93&url=http%3A%2F%2Fwww.wentrue.net%2Fblog%2F%3Fp%3D772&rel=blog" target="_blank">向文章付费</a>       <a style="margin-right:16px;text-decoration:none;" href="http://42qu.com/-10000217/pay?title=mongodb%E5%B0%8F%E7%BB%93&url=http%3A%2F%2Fwww.wentrue.net%2Fblog%2F%3Fp%3D772&cid=1&rel=blog" target="_blank">请作者吃饭</a>      </div>     </div>    </div> 转自:    <a href="/misc/goto?guid=4959499520102110347" target="_blank">http://www.wentrue.net/blog/?p=772</a>