Solr /export 海量数据导出实现

向日葵Solros 2016-11-29

Solr需要流式导出海量数据，导出数据是基于流式的，当服务端match到第一条数据之后就会向客户端flush出数据。

需要导出的列需要将schema中field元素的docvalue设置为true，并且在solrconfig.xml中配置

<requestHandler name="/export" class="solr.SearchHandler">
 <lst name="invariants">
   <str name="rq">{!xport}</str>
   <str name="wt">xsort</str>
   <str name="distrib">false</str>
 </lst>
 <arr name="components">
   <str>query</str>
 </arr>
</requestHandler>

客户端的查询代码如下：

final String[] fl = StringUtils.split(fields, ",");
		SolrClient client = new HttpSolrClient(url);

		query.setDistrib(false);
		query.setFields(fields);
		query.setRows(9999999);

		final PrintWriter writer = new PrintWriter(new OutputStreamWriter(
				FileUtils.openOutputStream(outfile), Charset.forName("utf8")));

		for (String f : fl) {
			writer.print(f);
			writer.print(",");
		}

		final AtomicInteger count = new AtomicInteger(0);
		QueryResponse result = client.queryAndStreamResponse(query,
				new StreamingResponseCallback() {
					@Override
		public void streamSolrDocument(SolrDocument doc) {
						// process doc
					}

		public void streamDocListInfo(long numFound, long start,
							Float maxScore) {
						// writer.println("numFound:" + numFound);
					}
				});
		writer.close();
		System.out.println("numFound:" + result.getResults().getNumFound());
		client.close();

solr服务端相关的代码：

QP：

ExportQParserPlugin 在export handler中使用QP

查询结果流式排序输出：

SortingResponseWriter

: 向日葵Solros

相关推荐

docker 安装solr8.6.2 配置中文分词器的方法

docker run --name blog-solr -d -p 8983:8983 solr // blog-solr这个可用自行命名。docker exec -it --user=solr blog-solr bin/solr create_core

spylyt 0喜欢 / 0评论 2020-09-11

Apache Solr velocity模板注入RCE漏洞

lionelf 0喜欢 / 0评论 2020-07-28

【solr】使用-取反时注意，-是表示排除，不能单独做条件用

1、solr的-表示取反、排除意思，比如说我要name不为a的数据，我们正常理解写法是-name:a，这是不对的，正确写法是

upxiaofeng 0喜欢 / 0评论 2020-06-11

solr与.net系列课程(五)solrnet的使用

最近因项目比较忙,所以这篇文章出的比较晚,离上一篇文章已经有半个月的时间了,这节课我们来学下一下solr的.net客户端solrnet. 上一篇文章讲述了C#是如何请求和接受solr的数据的,请求链接是自己拼接的,接受数据是使用数据契约,solrnet就是

TyCoding 0喜欢 / 0评论 2020-05-03

关于Solr服务搭建

Solr 是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。Solr根据xml文档添加、删除、更新索引。So

upxiaofeng 0喜欢 / 0评论 2020-04-30

【solr】添加分词器ik-analyzer-solr

项目在此基础上：solr7.2.1+tomcat8.5.37+jdk8安装配置。下载的jar包复制到。添加分词字段类型

lionelf 0喜欢 / 0评论 2020-04-20

Solr7-4的学习与使用

17年的时候有学习使用过lucene和solr，但是后来也遗忘了，最近公司有个项目需要使用到全文检索，正好也顺便跟着学习一下，使用的版本是Solr7.4的，solr解压之后的目录结构:各文件夹里面的内容：。solr从5版本之后不再需要tomcat，使用内置

TyCoding 0喜欢 / 0评论 2020-04-08

01 CentOS7中安装和启动solr

solr是一个企业级搜索应用服务器，以lucence为基础。本文将讲解如何在centos7中安装solr。# 确保solr-4.10.3.tgz、apache-tomcat-8.5.38.zip是在当前目录下。稍等片刻，war包便会被解压。重启tomcat

TyCoding 0喜欢 / 0评论 2020-03-26

solr replication原理探究

无论是垂直搜索，还是通用搜索引擎，对外提供搜索服务其压力都比较大，经常有垂直电商在做活动的时候服务器宕机。对面访问压力比较大的情况，一般的应对方法就是+。Solr提供了两种解决方案来对应访问压力。其一是Replication，其一是SolrCloud。Re

wenchanter 0喜欢 / 0评论 2020-03-26

ant编译solr源码生成eclipse项目，解决一直resolve，一直[ivy:retrieve]的问题

咋不说这个问题用相应方法解决即可/微笑？最终通过自己一通乱搞，终于“Build Successful”，具体哪一步起了作用实在不敢说，尝试的方法是在太多了，只把正确的记录下来好了，自己整理一下思路，能够帮到有同样问题的人更好啦~

roygbip 0喜欢 / 0评论 2020-02-16

2020.2.3学习进度总结

感受：重新安装了十多次android studio都没有成功，今天你在同学的远程桌面的帮助下，将android studio完全彻底删除之后又安装了看三次，最后还是没成功，有点崩溃了，但是不会放弃，明天要问一问老师，希望老师能帮我解决这个问题。

wsxsxz 0喜欢 / 0评论 2020-02-03

Solr请求概念和配置详解

　　Solr最常见的请求类型是在Solr索引中查找相关文档的查询。除此之外，Solr还可以处理许多不同类型的请求。所有的请求基本上都是通过请求处理器提交给Solr。例如，通过搜索组件执行主查询，其中分面、搜索结果高亮和拼写检查都有各自的搜索组件。要让查询请

lionelf 0喜欢 / 0评论 2020-02-03

lucene&solr全文检索_7solr后台界面的介绍

Logging：solr的运行日志，如果出现问题会告诉你什么问题。Core Admin:solr core 的管理界面。solr core是solr 的一个独立运行实例单位，他可以对外提供索引和搜索服务，一个solr工程可以运行多个solrcore，一个c

lionelf 0喜欢 / 0评论 2020-02-03

lucene&solr全文检索_3查询索引

创建完索引之后，我们需要查询。// 第一步：创建一个java工程，并导入jar包。// 2）指定一个分析器，对文档内容进行分析。Directory directory =FSDirectory.open;//创建document

TyCoding 0喜欢 / 0评论 2020-02-01

Lucene、Solr、ElasticSearch、hibernate-search四部曲

直到昨天，在工作中刚刚得知Lucene、Solr。本质区别在于：1、Lucene是搜索库，不是独立的应用程序，而Solr是。此外Hibernate Search能够根据需要进行同步或异步的索引更新。Lucene的目的是为软件开发人员提供一个简单易用的工具包

heniancheng 0喜欢 / 0评论 2020-01-31

lunrjs - A bit like Solr, but much smaller and not as bright.

Lunr.js is a small, full-text search library for use in the browser. It indexes JSON documents and provides a simple search inte

lionelf 0喜欢 / 0评论 2020-01-30

一、linux系统安装配置solr8

第五步：配家、配置apache-tomcat-8.0.47→webApp→solr→WEB_INF下的web.xml

wsxsxz 0喜欢 / 0评论 2020-01-17

详细solr集成搭建

numShards=2 ---------------------- 4个solr分成两个区name=collection1　 ---------------------- name为collection1shard=shard1　　　------

TyCoding 0喜欢 / 0评论 2020-01-10

solr 7.7.0 添加多个core（三）

复制new_core里的所有文件到new_core1中

TyCoding 0喜欢 / 0评论 2020-01-09

solr7.7.0 添加core （二）

1 接上篇 solr 环境搭建(一)，在schema.xml下面有一个感叹号！主要是修改contrib目录，dist目录的相对位置。instanceDir文件夹里会自动生成一个core.properties文件。以后再次需要创建solrCore核心的时候，

wsxsxz 0喜欢 / 0评论 2020-01-09

Solr文本分析剖析【文本分析、分词器详解、自定义文本分析字段及分词器】

　　Solr文本分析消除了索引词项与用户搜索词项之间的语言差异，让用户在搜索buying a new house时能找到类似的内容，例如：purchasing a new home这样的文档。如果搭配恰当，文本分析就能允许用户使用自然语言进行搜索，而无需考

TyCoding 0喜欢 / 0评论 2020-01-08

Solr与JDK对应版本关系，Tomcat与JDK版本对应关系

　　最新在部署solrCloud集群，由于自己机器上用的JDK都是JDK1.7的，然后我就从网上下载了最新下载了最先的solr6.6.0和最新的Tomcat9.0，部署了一下，开始报错，提示solr和JDK版本不兼容，Tomcat和JDK版本不兼容，所以在

itmale 0喜欢 / 0评论 2020-01-01

Solr入门之SolrServer实例化方式

随着solr版本的不断升级, 差异越来越大, 从以前的 solr1.2 到现在的 solr4.3, 无论是类还是功能都有很大的变换, 为了能及时跟上新版本的步伐, 在此将新版本的使用做一个简单的入门说明:. SolrServer实例化类型有httpClie

年轻就要对味 0喜欢 / 0评论 2014-07-11

solr in action翻译-第二章了解Solr2.3

直觉上,排序是有道理的,因为查询词iPod发生三次列出的第一个文档,两次名字和曾经的功能;它只发生一次其他文件。分数的数值字段本质上不是有意义的;这只是内部使用Lucene相对排名,不具有可比性不同的查询。现在,改变你的查询到iPod权重^ 2,增加查询条

etnahh 0喜欢 / 0评论 2014-07-11

solr in action翻译-第二章了解Solr2.1

例如,Solr允许你大索引分成较小的子集,称为碎片,并将副本添加到增加服务查询的能力。你可能听说过SolrCloud和想知道Solr 4和SolrCloud之间的区别是什么。从技术上讲,SolrCloud是代号Solr 4特性的一个子集的更易于配置和运行一

向日葵Solros 0喜欢 / 0评论 2014-07-11

solr in action翻译-第一章1.2

在本节中,我们介绍了Solr搜索应用程序设计的关键组件从地上起来。这将帮助您了解Solr提供特定的功能和他们的动机存在。Solr不是一个网络搜索引擎像谷歌或必应。一旦用户执行一个查询,可以进一步使用Solr的分类结果分类显示特性的支持文档的结果集。房地产而

向日葵Solros 0喜欢 / 0评论 2014-07-10

系统全面的认识Solr

系统全面的认识Solr文章包括：组件关系，简单搭建，solr目录结构，solr源码分析，Solr性能参数，链接数据库导数据，Solrj操作索引，自动补齐，解析核心配置文件solrconfig.xml，schema.xml等。其中还包含来自其他博客的优秀资源

年轻就要对味 0喜欢 / 0评论 2014-07-09

DataImportHandler Solr数据导入DIH使用

故名思想，这个类实现了SolrRequestHandler，配置在两个地方提供：。为了使用这个处理程序，下面的步骤是必需的。· jndiName: JNDI name of the preconfigured datasource. · batchSize

向日葵Solros 0喜欢 / 0评论 2014-06-03

solr中的Analyzers, Tokenizers,和Token Filters详解

当一个文档索引了以后，其个别field的分析analyzing和标过滤器tokenizing filters，可以变换和规范中的数据域。分析仪Analyzers，每个字段的类型，都在solr的schema.xml中配置。

江夏lz 0喜欢 / 0评论 2014-06-03

使用xml更新solr索引

Solr接受xml格式数据更新、提交、修改索引。overwrite=“true”|“false” 默认是“true”，意味着新的文件具有相同的uniquekey取代以前添加的文件。Example of "add" with option

lionelf 0喜欢 / 0评论 2014-06-03

使用json更新solr索引

Solr接受通过json的格式提交索引。Json请求要求必须配置solrconfig.xml，在example例子中solrconfig.xml已经存在配置了。JSON格式的更新请求可以通过/solr/update/json被发送到Sol。所有的正常方法上

年轻就要对味 0喜欢 / 0评论 2014-06-03

solr+IKAnalyzer部署

solr：选用最新solr版本4.8.1。IKAnalyzer在分词效率上比庖丁分词要差，但是在分词模式、分词个数、中英文数字汉子分词、词库扩展性和对lucene的支持都比庖丁分词要强。最终使用IKAnalyzer作为中文分词工具。Servlet容器：选择

江夏lz 0喜欢 / 0评论 2014-05-31

使用cvs更新solr索引

Solr接受cvs的格式，进行索引。并且支持multi-valued，你也可能在语法感兴趣的基于XML更新指令。CVS的request handler需要在solrconfig.xml中配置，默认已经在solrconfig.xml的配置文件中存在了。--

lhc0 0喜欢 / 0评论 2014-05-31

Solr的使用进行的调研

使用DataImportHandler从数据库中近实时同步数据、测试Solr创建索引的效率、以及测试Solr的搜索效率等。具体的搜索引擎概念、Solr搭建方法、数据库mysql使用方法，假设读者已有了基础。使用默认的DIH创建增量索引速度较慢，不如全索引，

etnahh 0喜欢 / 0评论 2014-05-21

Solr(二)

IK Analyzer 是一个开源的，基于java 语言开发的轻量级的中文分词工具包。将<entry key="ext_dict">ext.dic;</entry> 放开注解效果如下图:

lionelf 0喜欢 / 0评论 2019-12-26

Solr

　　solr本身也可以看成数据库,,但它比数据库搜索速度更快,所以在项目中我们一般把搜索部分交给solr,就像我们在京东首页所看到的商品信息,并不是来自数据库,而是来源于sorl的索引库。　　数据库本身不能实现分词效果,而只能使用模糊查询,但是模糊查询非常

wenchanter 0喜欢 / 0评论 2019-12-25

springboot整合solr

第三步：把solr-8.1.1安装包中的server→solr-webApp→webApp下的文件拷贝一份到apache-tomcat-8.5.9→webApp下创建的solr文件夹中：。第四步：将solr-8.1.1安装包中的server→ext 文件夹

wsxsxz 0喜欢 / 0评论 2019-12-19

solr索引基本原理

solr是一个全局检索引擎，能够快速地从大量的文本数据中选出你所需要的数据，而你只需要提供相应的关键词进行检索。solr的高效率查询靠的是底层强大的索引库，所以solr最关键的技术也是其底层的索引设计。solr工作的时候可以归结成两个过程1.创建索引2.搜

wsxsxz 0喜欢 / 0评论 2019-12-14

Solr搜索引擎【索引管理】

　　当文档提交到索引之后，directory目录组件会将它们写入到持久化存储器。Solr的目录组件具有以下重要特点：。　　　　2.实现特定的存储锁定机制，防止索引出错。　　　　3.将Solr从JVM和操作系统的专有性中解脱出来。　　　　4.启用基础目录方案

TyCoding 0喜欢 / 0评论 2019-12-07

Solr搜索引擎【索引提交、事务日志、原子更新】

　　当一个文档被添加到Solr中，但没有提交给索引之前，这个文档是无法被搜索的。Solr有两种类型的提交：软提交和正常提交。　　　　Solr正常提交是将所有未提交的文档写入磁盘，并刷新一个内部搜索器组件，让新提交的文档能够被搜索。　　　　当正常提交成功后，

TyCoding 0喜欢 / 0评论 2019-12-01

solr学习笔记

把配置文件和词库等文件复制到WEB应用的classes文件夹下，如果子WEB-INF下没有这个文件夹自己创建即可。首先在D:/server/solr-7.4.0/dist目录下复制如下的jar包复制到 D:/server/solr-7.4.0/server

devefx 0喜欢 / 0评论 2019-11-19

为了实现在线库的复杂查询，你还在双写吗？

做在线业务的开发者经常会碰到这样的难题：在线数据库上面运行稍微复杂点的查询，在线业务就挂了！不管是单机数据库如MySQL、PG，还是分布式数据库，HBase、MongoDB、Cassandra都有这个问题。下面，本文就以HBase为例对该问题进行说明，其他

leongfans 0喜欢 / 0评论 2019-11-19

Solr配置安装（一）

Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引，基于Lucene的Java搜索引擎服务器。C、解压solr.war，修改solr/W

etnahh 0喜欢 / 0评论 2016-08-11

Apache Solr 介绍

说起Apache Lucene,可以说无人不知，无人不晓，但是说道Apache Solr,恐怕知道的不多。看看Apache Solr的说明：。Solr是一个基于Lucene java库的企业级搜索服务器，包含XML/HTTP，JSON API,高亮查询结果

wenchanter 0喜欢 / 0评论 2016-07-13

Apache Solr Velocity模板注入RCE漏洞复现

Solr是一个独立的企业级搜索应用服务器,它对外提供类似于web-service的API接口,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引,也可以通过http get操作提出查找请求,并得到XML格式的返回结果。

newfarhui 0喜欢 / 0评论 2019-11-04

Apache Solr Velocity模板远程代码执行

本地搭建好环境然后访问8983端口网页如下：。看下config的红圈的这里两个点必须为true. 通过发包来构造出来。随后开始命令执行。反弹shell拿管控权限

upxiaofeng 0喜欢 / 0评论 2019-11-04

Elasticsearch与Solr

Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene 基础上的搜索引擎，可以说Lucene是当今最先进，最高效的全功能开源搜

ReganHoo 0喜欢 / 0评论 2017-09-25

基于Nested Document的RealtimeGet实现

这样可以避免数据脏写的问题，但是，collection的索引结构使用Nested Document，客户端提交一个Nested Document 记录之后，再使用solrj调用“getById”方法，只能返回parent document了。因为这个原因，

plane 0喜欢 / 0评论 2017-09-15

Elasticsearch与Solr

Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene 基础上的搜索引擎，可以说Lucene是当今最先进，最高效的全功能开源搜

某某某 0喜欢 / 0评论 2017-07-24