李玉志 2019-12-25
0、默认分词器。
默认分词器,查询的时候会把中文一个汉字当作一个关键字拆分,这样是不符合我们的需求的,所以需要安装分词器。
1、下载分词器。
当前有多种分词器可下载,据说比较好用的是IK分词器。
注意,下载分词器的时候,版本必须要与Elasticsearch安装的版本一致,否则会出现不可描述的错误。
下载地址: https://github.com/medcl/elasticsearch-analysis-ik/releases
注意: es-ik分词插件版本一定要和es安装的版本对应
之前自带的分词器
查询地址:http://192.168.5.131:9200/_analyze
{ "analyzer": "standard", "text": "中华人民共和国中华人民共和国中华人民shiwom是" }
2、安装分词器。
下载好之后的分词器zip压缩包,上传到服务器中 Elasticsearch的安装目录的plugins目录下。
用unzip 进行解压。
linux解压zip文件,命令:unzip 如果没有该命令,可先安装,命令为:
yum -y install unzip
安装好后,就解压
unzip ik.zip
就OK了,然后kill -9 原来的进程 ,再启动,就可以了。在启动的日志中,我们可以看到,
3、测试。
查询地址:http://192.168.5.131:9200/_analyze
将分词器类型更换为:ik_smart
{ "analyzer": "ik_smart", "text": "发布之后,谁操作下把2521拿出来" }
另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引,同时将每个聚合主题相关的数据存入每个document下面的某个field下。