onpwerb 2019-06-28
数据库,一个数据仓库可以包含多个集合
集合,类似于关系数据库中的表。一个集合可以包含多个文档。
capped collection(限制集合):设定空间上线,循环写入,新数据覆盖旧数据
文档,一个文档保存着一份数据记录。
一个集合下的文档,不会默认要求它们具有相同的数据模式。也就是说,同一个集合下的多个文档:1.字段可以不同;2.同名字段的类型可以不同;相反,如果对文档数据类型有要求,可以在创建集合时设置validator(例如使用JSON schema)来限制集合下文档的数据类别。
文档使用BSON来存储,BSON是JSON的二进制表现形式,因此可以适应更多的数据类型。
存储在文档的数据格式,与JSON类似,以键值对的形式存储。
默认主键_id,为ObjectId类型。
使用insert_one()方法
book = {
'name': 'computer_science',
'page': 238,
}
result = db.books.insert_one(book)
_id = result.inserted_id # 返回插入项的id,类型为ObjectId使用insert_many()方法
results = db.collection_name.insert_many([document1, document2, ...]) id_list = results.inserted_ids # 返回插入项的id列表,列表元素为ObjectId
从pymongo3.0版本开始,已经不推荐使用insert()方法插入数据,虽然它能同时满足单条或多条数据的处理需求。
官方建议使用insert_one()和insert_many()来执行替代操作
假设预先执行了数据插入:
db.inventory.insert_many([
{"item": "journal",
"qty": 25,
"size": {"h": 14, "w": 21, "uom": "cm"},
"status": "A"},
{"item": "notebook",
"qty": 50,
"size": {"h": 8.5, "w": 11, "uom": "in"},
"status": "A"},
{"item": "paper",
"qty": 100,
"size": {"h": 8.5, "w": 11, "uom": "in"},
"status": "D"},
{"item": "planner",
"qty": 75, "size": {"h": 22.85, "w": 30, "uom": "cm"},
"status": "D"},
{"item": "postcard",
"qty": 45,
"size": {"h": 10, "w": 15.25, "uom": "cm"},
"status": "A"}])使用find()方法执行查询,返回游标cursor
查询所有记录时,find()内的filter参数为空
cursor = db.inventory.find({})上述查询,类似于关系数据库SQL语句:
SELECT * FROM inventory
cursor = db.inventory.find({"status": "D"})上述查询语句,类似于关系数据库SQL语句:
SELECT * FROM inventory WHERE status = "D"
cursor = db.inventory.find({"status": {"$in": ["A", "D"]}})上述查询语句,类似于关系数据库SQL语句:
SELECT * FROM inventory WHERE status in ("A", "D")cursor = db.inventory.find({"status": "A", "qty": {"$lt": 30}})上述查询语句,类似于关系数据库SQL语句:
SELECT * FROM inventory WHERE status = "A" AND qty < 30
cursor = db.inventory.find({"$or": [{"status": "A"}, {"qty": {"$lt": 30}}]})上述查询语句,类似于关系数据库SQL语句:
SELECT * FROM inventory WHERE status = "A" OR qty < 30
cursor = db.inventory.find({
"status": "A",
"$or": [{"qty": {"$lt": 30}}, {"item": {"$regex": "^p"}}]})上述查询语句,类似于关系数据库SQL语句:
SELECT * FROM inventory WHERE status = "A" AND ( qty < 30 OR item LIKE "p%")
查询操作符定义了查询条件,如:大于、等于、小于等,以下是整理的查询操作符及说明:
| 比较操作符 | 说明 |
|---|---|
| $eq | 等于 |
| $gt | 大于 |
| $gte | 大于等于 |
| $in | 包含 |
| $lt | 小于 |
| $lte | 小于等于 |
| $ne | 不等于 |
| $nin | 不包含于 |
| 逻辑操作符 | 说明 |
|---|---|
| $and | 与 |
| $not | 非 |
| $nor | 或非 |
| $or | 或 |
| 元素操作符 | 说明 |
|---|---|
| $exists | 指定field存在 |
| $type | 指定field的type |
查看field的type类型说明
其他操作符说明请见:Query and Projection Operators
对于文档中存在的嵌套结构的查询,可以对文档中的嵌套结构进行 匹配查询 ,也可以对嵌套内容中的某个字段进行 嵌套字段查询
假设文档数据如下:
from bson.son import SON
db.inventory.insert_many([
{"item": "journal", # 物品名称
"qty": 25, # 数量
"size": SON([("h", 14), ("w", 21), ("uom", "cm")]), # 嵌套结构(高度,宽度,度量单位)
"status": "A"}, # 状态
{"item": "notebook",
"qty": 50,
"size": SON([("h", 8.5), ("w", 11), ("uom", "in")]),
"status": "A"},
{"item": "paper",
"qty": 100,
"size": SON([("h", 8.5), ("w", 11), ("uom", "in")]),
"status": "D"},
{"item": "planner",
"qty": 75,
"size": SON([("h", 22.85), ("w", 30), ("uom", "cm")]),
"status": "D"},
{"item": "postcard",
"qty": 45,
"size": SON([("h", 10), ("w", 15.25), ("uom", "cm")]),
"status": "A"}])from bson.son import SON
cursor = db.inventory.find(
{"size": SON([("h", 14), ("w", 21), ("uom", "cm")])})
# 上述查询语句中的filter条件,需要完全匹配嵌套文档中的内容,否则无法查询到相关记录。mongo使用点表示法指定文档中的嵌套字段:"field.nested_field"
# 查询嵌套字段uom的值为cm的记录
cursor = db.inventory.find({"size.uom": "cm"})
# 使用操作符查询高度大于10的记录
cursor = db.inventory.find({"size.h": {"$gt": 10}})
# 多个字段的复合查询
cursor = db.inventory.find(
{"size.h": {"$lt": 15}, "size.uom": "in", "status": "D"})假设向collection中插入如下数据
db.inventory.insert_many([
{"item": "journal",
"qty": 25,
"tags": ["blank", "red"],
"dim_cm": [14, 21]},
{"item": "notebook",
"qty": 50,
"tags": ["red", "blank"],
"dim_cm": [14, 21]},
{"item": "paper",
"qty": 100,
"tags": ["red", "blank", "plain"],
"dim_cm": [14, 21]},
{"item": "planner",
"qty": 75,
"tags": ["blank", "red"],
"dim_cm": [22.85, 30]},
{"item": "postcard",
"qty": 45,
"tags": ["blue"],
"dim_cm": [10, 15.25]}])与2.2.3中嵌套文档查询类似,可以对整个数组进行 匹配查询 , 也可以对数组中的某个元素进行查询
cursor = db.inventory.find({"tags": ["red", "blank"]})# 所有tags中包含red元素的数组都会被查询到
cursor = db.inventory.find({"tags": "red"})
# 对数组中某个元素进行条件查询
# dim_cm中任意一个元素大于25的记录查询
cursor = db.inventory.find({"dim_cm": {"$gt": 25}})查询dim_cm中的某个元素能同时满足大于15小于20的查询条件的记录
或者 dim_cm中的一个元素大于15,并且存在另一个元素小于20的记录
# 这种查询是不限制单个数组元素的,多个数组元素分别满足查询条件亦可
cursor = db.inventory.find({"dim_cm": {"$gt": 15, "$lt": 20}})若要指定数组中某一个元素满足多个查询条件,需要使用 __$elemMatch__操作符来进行查询
# 查询数组中存在某一个元素同时满足大于22并且小于30
cursor = db.inventory.find(
{"dim_cm": {"$elemMatch": {"$gt": 22, "$lt": 30}}})查询dim_cm的第一个元素大于25的记录
cursor = db.inventory.find({"dim_cm.1": {"$gt": 25}})查询数组长度是否符合查询条件,需要使用 $size 操作符
查询所有tags长度等于3的的记录
cursor = db.inventory.find({"tags": {"$size": 3}})假设向collection中插入如下数据:
from bson.son import SON
db.inventory.insert_many([
{"item": "journal",
"instock": [
SON([("warehouse", "A"), ("qty", 5)]),
SON([("warehouse", "C"), ("qty", 15)])]},
{"item": "notebook",
"instock": [
SON([("warehouse", "C"), ("qty", 5)])]},
{"item": "paper",
"instock": [
SON([("warehouse", "A"), ("qty", 60)]),
SON([("warehouse", "B"), ("qty", 15)])]},
{"item": "planner",
"instock": [
SON([("warehouse", "A"), ("qty", 40)]),
SON([("warehouse", "B"), ("qty", 5)])]},
{"item": "postcard",
"instock": [
SON([("warehouse", "B"), ("qty", 15)]),
SON([("warehouse", "C"), ("qty", 35)])]}])可以看到instock数组内部每一个元素都是一个嵌套文档。对这类数据的查询方法,是2.2.3嵌套文档查询和2.2.4数组类型查询的结合。
# 匹配查询对于嵌套文档内的field顺序有要求,
# 查询结果只展示与查询条件中field排列顺序相同的记录。
cursor = db.inventory.find(
{"instock": SON([("warehouse", "A"), ("qty", 5)])})# 查询所有文档中,instock数组中至少有一个元素的qty值大于20的记录
cursor = db.inventory.find({'instock.qty': {"$lte": 20}})# 查询所有文档中,instock数组的第0个嵌套文档元素中,qty的值小于等于20的所有记录
cursor = db.inventory.find({'instock.0.qty': {"$lte": 20}})# 数组内的某个文档同时满足qty=5并且warehouse值为A的查询条件
cursor = db.inventory.find(
{"instock": {"$elemMatch": {"qty": 5, "warehouse": "A"}}})
# 数组内的某个文档的qty值大于10并且小于等于20
cursor = db.inventory.find(
{"instock": {"$elemMatch": {"qty": {"$gt": 10, "$lte": 20}}}})MonogDB返回的查询结果,默认包含文档中所有的field,使用者可以通过让mongo返回指定的field,来限制返回内容的数量。
查询表达式如下:
# 返回指定的field
cursor = db.inventory.find(
{"status": "A"}, {"item": 1, "status": 1, "size.uom": 1})
# 不返回指定的field
cursor = db.inventory.find({"status": "A"}, {"size.uom": 0, "status": 0})
# 对于数组形式的field,指定只返回最后一个元素(使用$slice操作符)
cursor = db.inventory.find(
{"status": "A"},
{"instock": {"$slice": -1}})cursor = db.inventory.find({"item": None})# type值为10时表示的是null类型
cursor = db.inventory.find({"item": {"$type": 10}})# 查询所有文档中,没有item字段的记录
cursor = db.inventory.find({"item": {"$exists": False}})MongoDB提供了一系列的操作符来帮助完成文档数据更新,具体说明可查看链接:https://docs.mongodb.com/manu...
使用pymongo的update_one方法
db.inventory.update_one(
{"item": "paper"}, # filter筛选条件, 只更新符合该条件的第一条数据
{"$set": {"size.uom": "cm", "status": "P"},
"$currentDate": {"lastModified": True}}) # 数据更新表达式,使用$set操作符来更新数据使用pymongo的update_many()方法
db.inventory.update_many(
{"qty": {"$lt": 50}}, # filter筛选条件,更新符合该条件的所有数据
{"$set": {"size.uom": "in", "status": "P"},
"$currentDate": {"lastModified": True}})# 数据更新表达式,同样使用$set操作符来更新数据使用pymongo的replace()方法
注:替换方法只替换除_id以外的其他字段
db.inventory.replace_one(
{"item": "paper"}, # filter筛选条件,替换符合该条件的第一条数据
{"item": "paper", # 替换后的文档数据
"instock": [
{"warehouse": "A", "qty": 60},
{"warehouse": "B", "qty": 40}]})不论是update_one()方法还是update_many()方法,亦或是replace_one()方法,都包含upsert:bool 选项,当upsert为True时,这些方法将具备在filter未筛选到文档时,执行文档插入的能力。
pymongo提供了delete_one()和delete_many()两种方法执行删除操作。其中,delete_one()方法一次执行一条文档的删除任务,delete_manyI()可执行多条文档删除任务。
db.inventory.delete_one({"status": "D"}) # 删除符合status值为D的第一条数据
db.inventory.delete_many({"status": "A"}) # 删除符合status值为A的所有数据值得一提的是,删除操作并不会改变collection的索引设置,即便删除了这个collection下的所有文档。
pymongo提供了批量写入方法:bulk_write(),类似于redis中的pipe_line,它可以将多个写入操作作为一个list参数传入,然后一起执行。它支持insert、update、replace、delete的多种方法,以下是官方文档提供的示例:
try {
db.characters.bulkWrite(
[
{ insertOne :
{
"document" :
{
"_id" : 4, "char" : "Dithras", "class" : "barbarian", "lvl" : 4
}
}
},
{ insertOne :
{
"document" :
{
"_id" : 5, "char" : "Taeln", "class" : "fighter", "lvl" : 3
}
}
},
{ updateOne :
{
"filter" : { "char" : "Eldon" },
"update" : { $set : { "status" : "Critical Injury" } }
}
},
{ deleteOne :
{ "filter" : { "char" : "Brisbane"} }
},
{ replaceOne :
{
"filter" : { "char" : "Meldane" },
"replacement" : { "char" : "Tanys", "class" : "oracle", "lvl" : 4 }
}
}
]
);
}
catch (e) {
print(e);
}1)同一个集合下,不同文档的字段可以不一致;同一个集合下,不同文档的相同字段,类型可以不一致;
2)可以通过对一个文档的字段进行增删改操作,或是变更字段类型,来改变文档的结构。
1) __嵌入式文档结构__,即在一个文档内,可以嵌套子文档内容,实现逻辑相关的数据结构嵌套组合。嵌套式文档结构如下:
# 用户信息表
{
_id: ObjectId_1,
username: "youjia",
sex: "man",
age: 29,
contact: { # 嵌入式文档
phone: 18195181469,
email: "[email protected]",
}
}2) __引用式__,不同类型数据使用id引用进行关联,上例可变为:
# 用户表
{
_id: ObjectId_1,
username: "youjia",
sex: "man",
age: 29,
}
# 联系信息表(原嵌入式文档)
{
_id: ObjectId_2,
user_id: ObjectId_1, # 对应用户表_id
phone: 18195181469,
email: "[email protected]",
}1) 对一个文档的写入操作是原子性的,即使这个写入操作包含了对嵌套文档的数据写入。
2) 由于对嵌套文档的写入动作是原子性的,因此嵌套式的文档结构设计,更加促进了写入操作原子化,提高了写入效率和数据一致性。
3) 当执行类似updateMany等操作时,虽然只执行了一条指令,但其内部执行过程实际上包含了对多个文档的原子操作。因此这类批量执行指令是非原子性的。
4) 由于对多个文档的批量指令执行是非原子性的,因此在对多个文档进行写入操作时,写入任务可能与其他批量写入任务交叉。
5) 从MongoDB4.0开始,为了保证多文档写入/读取数据的一致性,加入了多表操作事务
6) 多表操作事务相比单表操作,会造成大的多的性能消耗,因此官方仍然认为,在多数情况下 __嵌入式文档结构是更好的选择__。
官方提供了多种数据模型校验的方法,包括:1. JSON Schema校验,2. 查询表达式校验。官方推荐使用前者。
一个典型的JSON Schema语法示例:
db.createCollection("students", {
validator: {
$jsonSchema: {
bsonType: "object",
required: [ "name", "year", "major", "gpa" ],
properties: {
name: {
bsonType: "string",
description: "must be a string and is required"
},
gender: {
bsonType: "string",
description: "must be a string and is not required"
},
year: {
bsonType: "int",
minimum: 2017,
maximum: 3017,
exclusiveMaximum: false,
description: "must be an integer in [ 2017, 3017 ] and is required"
},
major: {
enum: [ "Math", "English", "Computer Science", "History", null ],
description: "can only be one of the enum values and is required"
},
gpa: {
bsonType: [ "double" ],
minimum: 0,
description: "must be a double and is required"
}
}
}
}
})关于JSON Schema的更详细信息,可参照网上教程:https://spacetelescope.github...
3.1.1中介绍了模型的两种设计结构:__嵌入式文档结构__,和 引用式 文档结构。在设计数据模型时,要考虑根据不同情况选择适合的文档结构进行设计。
以下情况下适合使用嵌入式文档结构:
1) 两类数据是一对一并且具有包含关系。例如:用户个人信息-用户联系信息
2) 两类数据时一对多关系,但是在应用过程中通常两类数据需要联合查询使用,使用“一”时通常会查询“多”。
嵌套式文档结构的优点:
注意:MongoDB默认限制单个文档大小最大为16MB,因此单个文档大小不能无限扩大。Mongo提供了其他大体量数据的存储方式:GridFS
以下情况适合使用引用式文档结构:
1) 当采用嵌套式文档结构时,被嵌套的数据会有大量重复,并且大量重复数据造成影响大于嵌套文档的优势时,选择引用式文档结构时更好的选择。
2) 要设计“多对多”关系时。
3) 为大型分层数据集建模时。
引用式文档的优点:
对于查询需求较多的文档,可以通过在适合的字段建立索引来提高查询效率。但是对文档建立过多的索引,会影响写入效率,增加磁盘和内存的空间使用率。
对文档内单个字段建立索引,称为单字段索引。适合对文档内单个字段有频繁查询请求的场景。
db.person.createIndex( {id_no: 1} ){id_no: 1}代表升序索引,{id_no: -1}代表降序索引,在单字段索引类型下,升序与降序没有区别。
复合索引是对多个字段联合创建一个索引。适合对文档内某些字段有频繁查询请求,以及查询与排序请求并存的业务场景。
db.person.createIndex( {age: 1, name: 1} )创建符合索引时,field的顺序是有关系的。索引将按照第一个field进行升序/降序排列,在此基础上,再对第二个field进行升序/降序排列,以此类推。
当索引的字段为数组时,创建出的索引称为多key索引,多key索引会为数组的每个元素建立一条索引,比如person表加入一个habbit字段(数组)用于描述兴趣爱好,需要查询有相同兴趣爱好的人就可以利用habbit字段的多key索引。
//文档格式
{"name" : "jack", "age" : 19, habbit: ["football, runnning"]}
// 自动创建多key索引
db.person.createIndex( {habbit: 1} )
db.person.find( {habbit: "football"} )保证索引对应的字段不会出现相同的值,文档主键_id的索引,就是唯一索引。
可以针对某个时间字段,指定文档的过期时间(经过指定时间后过期 或 在某个时间点过期)
只针对符合某个特定条件的文档建立索引,比如某字段值大于5,或者某字段值符合某正则表达式,才建立索引,注意:3.2版本才支持该特性.
只针对存在索引字段的文档建立索引,可看做是部分索引的一种特殊情况
单字段索引
复合索引
# 创建索引
db.collection.create_index( { "x" : 1, "y" : -1 } )
# 支持下列查询/排序
db.collection.find().sort( { "x": 1, "y": -1 } )
db.collection.find().sort( { "x": -1, "y": 1 } )
# 对下列查询/排序,索引不生效
db.collection.find().sort( { "x": 1, "y": 1 } )# 创建索引
db.collection.create_index( { "x" : 1, "y" : 1 , "z": 1} )
# 支持对下列查询/排序场景
db.collection.find().sort({"x": 1})
db.collection.find().sort({"x": 1, "y": 1})
db.collection.find().sort({"x": 1, "z": 1}) # 效率较低
db.collection.find().sort({"x": 1, "y": 1, "z": 1})
# 不支持下列查询/排序场景
db.collection.find().sort({"y": 1})
db.collection.find().sort({"z": 1})
db.collection.find().sort({"y": 1, "z": 1})多key索引
# 创建复合索引
db.collection.create_index( { "x" : 1, "y" : 1 } )
# 索引支持的文档
{ "x" : 1, "y" : [1,2,3] }
{"x": [1,2,3], "y": 1}
# 不支持的情况
{"x": [1,2,3], "y": [1,2,3]}# 文档结构
{
"x": "test",
"y": 1,
"z": [
{"a": 1, "b": "test"},
{"a": 2, "b": "some"},
...
],
}
# 建立嵌入式文档的多key索引
db.collection_name.create_index({"z.a": 1, "z.b": -1})