molong0 2019-11-20
基于spring-data-elasticsearch 组件,实现和Spring Boot 2.1.7的集成。
spring-data-elasticsearch 是 Spring Data 的 Community modules 之一,是 Spring Data 对 Elasticsearch 引擎的实现。Elasticsearch 默认提供轻量级的 HTTP Restful 接口形式的访问。相对来说,使用 HTTP Client 调用也很简单。但 spring-data-elasticsearch 可以更快的支持构建在 Spring 应用上,比如在 application.properties 配置 Elaticsearch 节点信息和 spring-boot-starter-data-elasticsearch 依赖,直接在 Spring Boot 应用上使用。
该组件最大的问题是更新不及时,远远落后于Elasticsearch 发布的速度。
使用Java High Level REST Client操作elasticsearch。
现在Elasticsearch 官方推出Java High Level REST Client,它是基于Java Low Level REST Client的封装,并且API接收参数和返回值和TransportClient是一样的,使得代码迁移变得容易并且支持了RESTful的风格,兼容了这两种客户端的优点。当然缺点是存在的,就是版本的问题。Elasticsearch 的小版本更新非常频繁,在最理想的情况下,客户端的版本要和ES的版本一致(至少主版本号一致),次版本号不一致的话,基本操作也许可以,但是新API就不支持了。
目前比较推荐使用官方的高阶(High Level)Rest Client,Elasticsearch官方维护,比较值得信赖。
使用Java TransportClient 操作Elasticsearch(Spring Boot/Maven)。通过Transport Client来操作Elasticsearch,主要原因是老版本的Elasticsearch 服务集群仍然会存在相当长一段时间,并且Java应用系统需要持续维护。
本文演示通过Transport Client来操作Elasticsearch。TransportClient 是一种轻量级的方法,它通过Socket与Elasticsearch集群连接,是基于Netty 线程池的方式。
TransportClient旨在被Java High-level REST client接口取代。 在 Elasticsearch 7.*版本中将不赞成使用TransportClient,在Elasticsearch 8.0 版本中将被移除,建议使用Java High-level REST Client客户端。
上述演示项目源代码获取地址:
https://github.com/rickiechina/elasticsearch
另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引,同时将每个聚合主题相关的数据存入每个document下面的某个field下。