Mongodb python驱动教程
安装
使用python驱动mongodb需要下载、安装PyMongo包
- Windows用户,点击这里下载。
- 使用pip安装在linux平台使用pip命令安装:
pip install pymongo
指定版本:
pip install pymongo==2.6.3
升级:`pip install –upgrade pymongo
- 使用easy_install安装
easy_install pymongo
升级:easy_install -U pymongo
使用
安装完毕后,就可以在python shell或者python ide中进行试验,如果安装pymongo成功,那么下面的命令应该可以在python shell中运行:
>>> import pymongo
通过MongoClient连接mongo
#连接locahost上的mongodb,端口是默认端口,27017 from pymongo import MongoClient client = MongoClient
也可以手动指定host和port:
client = MongoClient("localhost", 27017) #或者 client = MongoClient("mongodb://localhost:27017/")
获取数据库实例
一个mongodb的实例中,可以有很多独立数据库。我们可以通过下面的方式获取一个数据库的实例:
db = client.mydatabase
如果上面的方法不起作用,试一下下面的方法:
db = client['mydatabase']
获取数据集
所谓数据集就是存储再mongodb中的一堆文档,这里可以简单的理解成关系数据库中的表(table),下面的方法获取一个数据集:
collection = db.mycollection #或者 collection = db[mycollection]
需要注意的是,不管是获取数据库、还是数据集实例,mongodb其实没有进行任何操作,只有当真正的文档insert进去的时候,才会真正创建数据库和数据集。
Documents
Mongodb中的数据是以json风格的文档存在的。在PyMongo中,我们使用dictionaries代表documents。下面的一段文档(dictionary),可以看作是一篇博文的简介:
import datatime post = { "auther" : "Mike", "text" : "My First blog post", "tags" : ["mongodb", "python", "pymongo"], "date" : datetime.datetime.utcnow() }
Document可以包含python语句,如上面的datetime.datetime,执行时,会自动进行转化。
插入Document
使用insert()方法进行插入:
posts = db.posts post_id = posts.insert(post) print post_id
当一篇Document被插入到mongodb中,如果document中没有指定”_id”,mongodb会自动为该document添加唯一的”_id”。这个”_id”在该数据集中是惟一的。insert()方法返回值就是这个id,更多关于id的信息,点击documentation on _id。
插入完成后,我们可以通过下面的语句列出数据库中的数据集:
db.collection_names()
结果如下:
[u'system.indexs', u'posts']
system.indexs 这个数据集是mongodb自己创建的内部数据集。
使用find_one()方法获取指定的Document
monbodb中find_one()
方法,是最基本的查找方法。该方法返回符合条件的一篇document(如果没有符合条件的,返回None)。当数据集中只有一篇符合条件的文档,或者我们只想看第一篇文档的时候,find_one()就有很有用了。
posts.find_one()
返回结果:
{u'date': datetime.datetime(...), u'text': u'My first blog post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'mongodb', u'python', u'pymongo']}
通过ObjectId检索
我们也可以通过_id来进行检索,在这里_id是ObjectId:
posts.find_one({"_id": post_id})
结果:
{u'date': datetime.datetime(...), u'text': u'My first blog post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'mongodb', u'python', u'pymongo']}
再web应用中,比较常见的就是通过url中的id,来查询相应的document。通常传过来的id是string类型的,我们需要将其转化为ObjectId类型。
from bson.objectid import ObjectId # web页面中,将post_id字符串传递过来 def get(post_id): # Convert from string to ObjectId: document = client.db.collection.find_one({'_id': ObjectId(post_id)})
关于Unicode字符串
你可能发现我们存到mongodb中的文档,和我们查询出来的文档不太一样(u’Mike’和‘Mike’)。
MongoDB以BSON的格式存储数据。BSON格式的字符串是UTF-8编码的,因此PyMongo必须保证它存储的字符串都是utf-8编码的。Regular strings (<type ‘str’>) are validated and stored unaltered. Unicode字符串首先被UTF-8编码。PyMongo在输出时使用u’Mike’代替’Mike’,就是PyMongo对每个BSON字符串进行解码,解成python的unicode字符串。更多
批量Insert
如果要插入很多条数据,一条条插入就显得很麻烦了。PyMongo支持批量插入。下面是例子:
new_posts = [ { "author": "Mike", "text": "Another post!", "tags": ["bulk", "insert"], "date": datetime.datetime(2009, 11, 12, 11, 14)}, { "author": "Eliot", "title": "MongoDB is fun", "text": "and pretty easy too!", "date": datetime.datetime(2009, 11, 10, 10, 45) }] posts.insert(new_posts)
结果会打印出两个_id。
例子总结:
+ 这个insert()方法返回两个ObjectId对象,每个代表一个插入的Document。
+ new_post[1] 没有tags字段,增加了title字段,这样做是OK的。这就是mongodb schema-free的体现。
检索多个Document
如果我们想同时检索多条数据,需要用到find()方法。find()方法返回一个Cursor实例,我们可以这个Cursor来遍历查询到的Documents。如下面的例子:
for post in posts.find(): print post
类似结果如下:
{u'date': datetime.datetime(...), u'text': u'My first blog post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'mongodb', u'python', u'pymongo']} {u'date': datetime.datetime(2009, 11, 12, 11, 14), u'text': u'Another post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'bulk', u'insert']} {u'date': datetime.datetime(2009, 11, 10, 10, 45), u'text': u'and pretty easy too!', u'_id': ObjectId('...'), u'author': u'Eliot', u'title': u'MongoDB is fun'}
为find()方法,添加约束条件:
for post in posts.find({"author": "Mike"}): print post
类似结果:
{u'date': datetime.datetime(...), u'text': u'My first blog post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'mongodb', u'python', u'pymongo']} {u'date': datetime.datetime(2009, 11, 12, 11, 14), u'text': u'Another post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'bulk', u'insert']}
Counting
如果我们项查看某个条件下结果的个数,可以使用count()方法,这就省掉了全局检索。
posts.count() post.find({"author" : "Mike"}).count()
范围检索
Mongodb支持多种不同类型的高级查询, 下面这个例子,检索出某个时间点前发表的博文,并且按照作者名字排序:
d = datetime.datetime(2009, 11, 12, 12) for post in posts.find({"date": {"$lt": d}}).sort("author"): print post
结果如下:
{u'date': datetime.datetime(2009, 11, 10, 10, 45), u'text': u'and pretty easy too!', u'_id': ObjectId('...'), u'author': u'Eliot', u'title': u'MongoDB is fun'} {u'date': datetime.datetime(2009, 11, 12, 11, 14), u'text': u'Another post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'bulk', u'insert']}
索引
为了让上面的那个查询变得更快,我们可以在”date”和”author”字段上加上复合索引。
>>> from pymongo import ASCENDING, DESCENDING >>> posts.create_index([("date", DESCENDING), ("author", ASCENDING)]) u'date_-1_author_1' >>> posts.find({"date": {"$lt": d}}).sort("author").explain()["cursor"] u'BtreeCursor date_-1_author_1' >>> posts.find({"date": {"$lt": d}}).sort("author").explain()["nscanned"] 2
这种情况,查询语句会使用BtreeCuosor(the index),查询出了两条结果。更多,点击此处。