tigercn 2019-12-25
之前已安装了Elasticsearch与kibana。
正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。
这种组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护;因为索引是基于文档建立的,若是有新的文档加入,直接为该文档建立一个新的索引块,挂接在原来索引文件的后面。若是有文档删除,则直接找到该文档号文档对应的索引信息,将其直接删除。但是在查询的时候需对所有的文档进行扫描以确保没有遗漏,这样就使得检索时间大大延长,检索效率低下。
尽管正排表的工作原理非常的简单,但是由于其检索效率太低,除非在特定情况下,否则实用性价值不大。
倒排表以字或词为关键字进行索引,表中关键字所对应的记录表项记录了出现这个字或词的所有文档,一个表项就是一个字表段,它记录该文档的ID和字符在该文档中出现的位置情况。
由于每个字或词对应的文档数量在动态变化,所以倒排表的建立和维护都较为复杂,但是在查询的时候由于可以一次得到查询关键字所对应的所有文档,所以效率高于正排表。在全文检索中,检索的快速响应是一个最为关键的性能,而索引建立由于在后台进行,尽管效率相对低一些,但不会影响整个搜索引擎的效率。
正排索引是从文档到关键字的映射(已知文档求关键字),倒排索引是从关键字到文档的映射(已知关键字求文档)。
文档内容:
序号 | 文档内容 |
1 | 小俊是一家科技公司创始人,开的汽车是奥迪a8l,加速爽。 |
2 | 小薇是一家科技公司的前台,开的汽车是保时捷911 |
3 | 小红买了小薇的保时捷911,加速爽。 |
4 | 小明是一家科技公司开发主管,开的汽车是奥迪a6l,加速爽。 |
5 | 小军是一家科技公司开发,开的汽车是比亚迪速锐,加速有点慢 |
倒排索引会对以上文档内容进行关键词分词,可以使用关键词直接定位到文档内容。
单词ID | 单词 | 倒排列表docId |
1 | 小 | 1,2,3,4,5 |
2 | 一家 | 1,2,4,5 |
3 | 科技公司 | 1,2,4,5 |
4 | 开发 | 4,5 |
5 | 汽车 | 1,2,4,5 |
6 | 奥迪 | 1,4 |
7 | 加速爽 | 1,3,4 |
8 | 保时捷 | 2,3 |
9 | 保时捷911 | 2 |
10 | 比亚迪 | 5 |
GET /mymayikt/user/12
GET /mymayikt/user/_search
查询多个id分别为1、2
GET /mymayikt/user/_mget
{
"ids":["1","2"]
}
查询年龄为年龄21岁
GET /mymayikt/user/_search?q=age:21
查询年龄30岁-60岁之间
GET /mymayikt/user/_search?q=age[30 TO 60]
注意:TO 一定要大写
查询年龄30岁-60岁之间 并且年龄降序、从0条数据到第1条数据
GET /mymayikt/user/_search?q=age[30 TO 60]&sort=age:desc&from=0&size=1
查询年龄30岁-60岁之间 并且年龄降序、从0条数据到第1条数据,展示name和age字段
GET /mymayikt/user/_search?q=age[30 TO 60]&sort=age:desc&from=0&size=1
&_source=name,age
es中的查询请求有两种方式,一种是简易版的查询,另外一种是使用JSON完整的请求体,叫做结构化查询(DSL)。
由于DSL查询更为直观也更为简易,所以大都使用这种方式。
DSL查询是POST过去一个json,由于post的请求是json格式的,所以存在很多灵活性,也有很多形式。
GET mymayikt/user/_search { "query": { "term": { "name": "xiaoming" } } } |
##term是代表完全匹配,即不进行分词器分析,文档中必须包含整个搜索的词汇
GET /mymayikt/user/_search { "from": 0, "size": 2, "query": { "match": { "car": "奥迪" } } } |
####match查询相当于模糊匹配,只包含其中一部分关键词就行
Term查询不会对字段进行分词查询,会采用精确匹配。
Match会根据该字段的分词器,进行分词查询。
GET /mymayikt/user/_search { "query": { "bool": { "must": [{ "match_all": {} }], "filter": { "range": { "age": { "gt": 21, "lte": 51 } } } } }, "from": 0, "size": 10, "_source": ["name", "age"] } |
另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引,同时将每个聚合主题相关的数据存入每个document下面的某个field下。