qingmoucsdn 2019-06-28
ElasticSearch随着数据越来越大,查询时间也越来越慢,把所有数据放入同一个索引将不是一个好的方法。
所以优化时,将其按照一定规则重新reindex将提高不少效率
比如将index_name
重新索引为index_name-yyyy-MM-dd
根据字段created_at
,原日期格式是"yyyy-MM-dd'T'HH:mm:ss
,计算得出yyyy-MM-dd
POST _reindex?wait_for_completion=false { "source": { "index": "index_name" }, "dest": { "index": "index_name-" }, "script": { "inline": "def sf = new SimpleDateFormat(\"yyyy-MM-dd'T'HH:mm:ss\");def o = new SimpleDateFormat(\"yyyy-MM-dd\");def dt = sf.parse(ctx._source.created_at);ctx._index='index_name-' + o.format(dt);" } }
比如根据ID / 10000000
取整,也就是1千万数据放一个index
POST _reindex?wait_for_completion=false { "source": { "index": "index_name" }, "dest": { "index": "index_name-" }, "script": { "inline": "ctx._index='index_name-' + Long.valueOf(ctx._source.id / 10000000).toString();" } }
另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引,同时将每个聚合主题相关的数据存入每个document下面的某个field下。