YYDU 2019-11-17
需求:搜索标题中包含java的帖子,同时如果标题中包含hadoop和elasticsearch就优先搜索出来,同时,如果一个帖子包含java hadoop,一个帖子包含java elasticsearch,包含hadoop的帖子要比elasticsearch优先搜索出来。
搜索条件的权重,boost,可以将某个搜索条件的权重加大,此时当匹配这个搜索条件和匹配另一个搜索条件的document,计算relevance score时,匹配权重更大的搜索条件的document, relevance score会更高,当然也就会优先被返回回来。
在默认的情况下,搜索条件的权重都是一样的,都是1
GET /forum/_search { "query": { "bool": { "must": [ { "match": { "title": "java" } } ], "should": [ { "match": { "title": "hadoop" } }, { "match": { "title": "elasticsearch" } }, { "match": { "title": "spark" } } ] } } }
这个测试不好复现,在出现的结果中如果不是我们想要的,我们可以根据上面的需求调节一下boost,来让最后的返回结果达到我们的预期。
GET /forum/_search { "query": { "bool": { "must": [ { "match": { "title": "java" } } ], "should": [ { "match": { "title": { "query": "hadoop", "boost": 5 } } }, { "match": { "title": { "query": "elasticsearch", "boost": 3 } } }, { "match": { "title": { "query": "spark", "boost": 1 } } } ] } } }
另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引,同时将每个聚合主题相关的数据存入每个document下面的某个field下。