pyspark读取elasticsearch

wenwentana 2020-07-17

代码：

import json
from pyspark.sql import SparkSession
from pyspark import SparkConf


def trans_form(data_tuple):
    """
    对从es读取出来的每一条数据进行格式转换
    :param data_tuple:
    :return:
    """
    data = data_tuple[1]
    return data


def get_es_conf(es_hot, es_port, index, type_, query_dic):
    query = {"query": {"match_all": {}}}
    if isinstance(query_dic, dict):
        query = json.dumps(query_dic)
    else:
        query = json.dumps(query)

    es_read_conf = {
        "es.nodes": es_hot,
        "es.port": es_port,  # 必须是字符串类型
        "es.resource": ‘{}/{}‘.format(index, type_),
        "es.out.json": "yes",
        "es.query": query
    }
    return es_read_conf


def read_data_from_es(sc, es_hot, es_port, index, type_, query_dic):
    es_read_conf = get_es_conf(es_hot, es_port, index, type_, query_dic)
    es_rdd = sc.newAPIHadoopRDD(
        inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",
        keyClass="org.apache.hadoop.io.NullWritable",
        valueClass="org.elasticsearch.hadoop.mr.LinkedMapWritable",
        conf=es_read_conf
    )
    return es_rdd


if __name__ == ‘__main__‘:
    conf = SparkConf()
    spark = SparkSession().builder.config(conf).appName(‘test‘).getOrCreate()
    sc = spark.SparkContext

    es_host = ‘127.0.0.1‘
    es_port = ‘9200‘
    index = ‘test‘
    type_name = ‘result‘
    query = {"query": {"match_all": {}}}
    es_rdd = read_data_from_es(sc, es_host, es_port, index, type_name, query)

    # 读取出来的是_id和数据组成的元组，转换格式之后过滤空值就是我们要的数据
    hdd = es_rdd.map(lambda x: trans_form(x)).filter(lambda x: x)

: wenwentana

相关推荐

Elasticsearch py客户端库安装及使用方法解析

elasticsearch-py是一个官方提供的low-level的elasticsearch python客户端库。因为它只是对elasticsearch的rest API接口做了一层简单的封装，因此提供了最大的灵活性，但是于此同时使用起来就不是太方便。

newbornzhao 0喜欢 / 0评论 2020-09-14

ElasticSearch最全详细使用教程

本文介绍了ElasticSearch的必备知识：从入门、索引管理到映射详解。Green - everything is good ，即最佳状态。Yellow - all data is available but some replicas are not

做对一件事很重要 0喜欢 / 0评论 2020-09-07

十张图说清Elasticsearch原理！

说到 Elasticsearch，其中最明显的一个特点就是 near real-time 准实时，当文档存储在 Elasticsearch 中时，将在 1 秒内以几乎实时的方式对其进行索引和完全搜索。Segment：也叫段，类似于倒排索引，相当于一个数据

renjinlong 0喜欢 / 0评论 2020-09-03

ElasticSearch 交互使用

tcp 0 0 10.0.0.121:5601 0.0.0.0:* LISTEN 88636/node

李玉志 0喜欢 / 0评论 2020-08-19

django 对接elasticsearch实现全文检索

# python manage.py rebuild_index #数据库有多少条数据，全部会被同步到es中。object = BookSerializer # 只读,不可以进行反序列化。fields = # text 由索引类进行返回, object

明瞳 0喜欢 / 0评论 2020-08-19

Spring Boot 集成 Elasticsearch 实战

可以在 ES 官方文档中发现，ES 为 Java REST Client 提供了两种方式的 Client：Java Low Level Client 和 Java High Level REST Client。低级别客户端，它允许通过 HTTP 请求与 E

李玉志 0喜欢 / 0评论 2020-08-19

如何对 ElasticSearch 集群进行压力测试

当 ElasticSearch 的业务量足够大，比如每天都会产生数百 GB 数据的时候，你就会自然而然的需要一个性能更强的 ElasticSearch 集群。特别是当你使用的场景是一些典型的大量数据进入的场景，比如网站日志、用户行为记录、大型电商网站的站内

mengyue 0喜欢 / 0评论 2020-08-07

操作ElasticSearch插件和可视化工具 Kibana

当 ElasticSearch 的实例并运行，您可以使用 localhost:9200,基于 JSON 的 REST API 与ElasticSearch 进行通信。在 ElasticSearch 自己的文档中，所有示例都使用 curl。但是，当使用 AP

molong0 0喜欢 / 0评论 2020-08-06

Elasticsearch实战 | match_phrase搜不出来，怎么办？

title=公路局正在治理解放大道路面积水问题。实际应用中可能需要： 1）检索关键词”理解”、”解放”、”道路”、“理解放大”，都能搜出这篇文档。标准分析仪是默认分析仪，如果没有指定，则默认使用该分词器。但，会出现冗余数据非常多。针对要求2），排除matc

AFei00 0喜欢 / 0评论 2020-08-03

Elasticsearch聚合后分页深入详解

不支持，看看Elasticsearch员工如何解读。这个问题，2014年在github上有很长的讨论。究其为什么ES不支持聚合后分页？可概括如下： 1）性能角度——聚合分页会在大量的记录中产生性能问题。2）正确性角度——聚合的文档计数不准确。所以奇怪的事情

molong0 0喜欢 / 0评论 2020-08-03

Elasticsearch大文件检索性能提升20倍实践（干货）

ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。项目中，有时候需要将一些扫描件、PDF文档、Word、Excel、PPT等文档内容导入Elasticsearch。比如：将《深入理解Elasticsearch》这边书导入ES，而这

wenwentana 0喜欢 / 0评论 2020-08-03

重磅 | 死磕Elasticsearch方法论认知清单（国庆更新版）

每个人都会犯错，别再让相同的错误一再发生，别再让我们为那些错误付出沉痛的代价。清单不是写在纸上的，而是印在心上的。我们别无选择，清单，正在一步步变革我们的生活，变革这个复杂的世界......——[美] 阿图-葛尔德《清单革命》。实战 | Elasticse

YYDU 0喜欢 / 0评论 2020-08-03

Elasticsearch实战 | 必要的时候，还得空间换时间!

另外一部分，则需要先做聚类、分类处理，将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引，同时将每个聚合主题相关的数据存入每个document下面的某个field下。

sifeimeng 0喜欢 / 0评论 2020-08-03

Elasticsearch索引增量统计及定时邮件实现

如何以相对简单的图形化效果展示数据的增量呢？本文给出思路和实现。2）crontab实现定时任务处理。步骤1，步骤2数据可以Excel统计得出。步骤3:Excel生成图表。3）开发中其他相关物理机器内存、CPU、磁盘读写性能等指标的监控等。

心丨悦 0喜欢 / 0评论 2020-08-03

如何在Linux下安装部署分布式全文搜索引擎

Elasticsearch是一个开源的分布式全文本搜索和分析引擎。它支持RESTful操作，并允许您实时存储，搜索和分析大量数据。Elasticsearch是最流行的搜索引擎之一，可为具有复杂搜索要求的应用程序提供动力，例如大型电子商务商店和分析应用程序。

liangwenrong 0喜欢 / 0评论 2020-07-31

ElasticSearch的下载、安装使用

下载ik中文分词器。浏览器访问是否启动成功。安装ik中文分词插件。解压分词插件包—->放到es的plugins目录下—->重新启动es即可

sifeimeng 0喜欢 / 0评论 2020-08-01

我也是才知道ElasticSearch条件更新是这么玩的

ElasticSearch 的使用度越来越普及了，很多公司都在使用。有做日志搜索的，有做商品搜索的，有做订单搜索的。大部分使用场景都是通过程序定期去导入数据到 ElasticSearch 中，或者通过 CDC 的方式来构建索引。在这种场景下，更新数据都是单

mengyue 0喜欢 / 0评论 2020-07-30

读写成功率达99.999%，提升ElasticSearch系统稳定性的秘密

ElasticSearch 是一个分布式的开源搜索和分析引擎，因其功能强大、简单易用而被应用到很多业务场景。在生产环境使用 ES 时，如果未进行优化则服务的稳定性可能得不到保障，目前我们使用 ES 作为账单平台的基础组件为微信支付提供服务时就遇到这种问题。

tigercn 0喜欢 / 0评论 2020-07-29

es快照备份到minio

用 API 删除快照很重要，而不能用其他机制。因为快照是增量的，有可能很多快照依赖于过去的段。deleteAPI 知道哪些数据还在被更多近期快照使用，然后会只删除不再被使用的段。但是，如果你做了一次人工文件删除，你将会面临备份严重损坏的风险，因为你在删除的

IceStreamLab 0喜欢 / 0评论 2020-07-29

Elasticsearch是一把梭，用起来再说？！

我们这边es 都是我们在推,很多开发不会用或者用的不规范！问题3：不评估可行性和高可用性，先搞起来。如下图，某公司26岁的程序员王某的Elasitcsearch一把梭用法，能很形象的说出了问题产生的根因。2019年12月初安全事件《Elasticsearc

IceStreamLab 0喜欢 / 0评论 2020-07-29

DockerFile构建ElasticSearch镜像安装IK中文分词器插件

为什么要安装IK中文分词器？ES提供的分词是英文分词，对中文做分词时会拆成单字而不是词语，非常不好，因此索引信息含中文时需要使用中文分词器插件。# 下载IK插件文件。docker run -d -p 9200:9200 -p 9300:9300 -e &q

vtnews 0喜欢 / 0评论 2020-07-29

PHP操作Elasticsearch7.6

‘index‘ => ‘users‘,// Create the index with mappings and settings now. 我们会概述几种方法来增加文档到 Elasticsearch。‘name‘ => ‘张三‘,‘b

mengyue 0喜欢 / 0评论 2020-07-28

Elasticsearch大文件检索性能提升20倍实践（干货）

ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。项目中，有时候需要将一些扫描件、PDF文档、Word、Excel、PPT等文档内容导入Elasticsearch。比如：将《深入理解Elasticsearch》这边书导入ES，而这

IceStreamLab 0喜欢 / 0评论 2020-07-27

.net core 如何向elasticsearch中创建索引，插入数据。

{public static readonly string url = "http://ip:9200/";//这个是elasticsearch远程访问ip

李玉志 0喜欢 / 0评论 2020-07-26

Elasticsearch 的安装和使用（1）

说起ELK相信大家都不陌生，他可不是一个软件，是三个软件 logstash，elasticsearch，Kibana 组成的可以打造大规模日志实时处理的系统。Logstash是一个日志收集、过滤、转发的中间件，主要负责将各条业务线的各类日志统一收集、过滤后

AFei00 0喜欢 / 0评论 2020-07-26

Elasticsearch－基础介绍及索引原理分析

Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单，它不仅包括了全文搜索功能，还可以进行以下工作:.

tigercn 0喜欢 / 0评论 2020-07-19

PHP 中使用 ElasticSearch 的最佳实践（一）

PHP 开发者其实使用到 ES 的情况并不多，因为开发的大多数项目可能都没有快速模糊搜索的需求。即使有这样的需求，用 MySQL 的 like 查询，就基本可以搞定需求了。也就没有必要杀鸡用宰牛刀，使用 ES 了。即使有一些对 ES 有兴趣的，也因为 ES

csmnjk 0喜欢 / 0评论 2020-07-19

ElasticSearch搜索

QueryString用的很少，复杂测查询参数难以构建，所以大多查询都会使用dsl进行查询更好。desc包括有“中华学习网”，就能查询到。将term换成match后，“中华学习网”会进行分词，将所有匹配分词的结果都能查询出来。match_parse: 分词

YEEHOLIC 0喜欢 / 0评论 2020-07-18

elasticsearch+head+kibana

解压之后目录结构。jvm.options java虚拟机相关的配置哦。进入bin 双击elasticsearch.bat测试是否开启成功127.0.0.1/920. 解决head访问elasticsearch时的跨域问题

molong0 0喜欢 / 0评论 2020-07-09

ElasticSearch安装

　　本篇涉及内容：ElasticSearch安装、ik分词器插件、head插件、kibana安装。　　以下，除了head插件安装在了windows宿主机上（因为head插件需要nodejs、grunt的支持，刚好之前安装的有，就直接用了。当然，任意安装都可

李玉志 0喜欢 / 0评论 2020-07-08

Helm安装带验证的ElasticSearch 6.x 7.x 集群

在之前，我们增加ES权限验证，常用的方法就是添加HTTP密码，但是，对于使用来说不是很友好，X-pack好用，但是是收费的。不过，在ES6以后，X-pack陆续放开了一些功能，比如Monitor集群监控功能，ES6.8及以后版本ES又将部分安全性功能免费开

pigsmall 0喜欢 / 0评论 2020-07-07

全文检索:sphinx elasticsearch xunsearch 比较

快速创建索引：3分钟左右即可创建近100万条记录的索引，并且采用了增量索引的方式，重建索引非常迅速。为很多脚本语言设计了检索API，如PHP,Python,Perl,Ruby等，因此你可以在大部分编程应用中很方便地调用Sphinx的相关接口。为MySQL设

wenwentana 0喜欢 / 0评论 2020-07-05

elasticsearch 索引操作

GET /_cat/health?v. GET /_cat/nodes?v. GET /_cat/indices?v. "number_of_shards" : 3,},put /customer/_doc/1?pretty{ &qu

李玉志 0喜欢 / 0评论 2020-07-04

Elasticsearch 面试专题

4、采取冷热分离机制，热数据存储到 SSD，提高检索效率；冷数据定期进行 shrink操作，以缩减存储；

mengyue 0喜欢 / 0评论 2020-07-04

es 实战 —— spring boot 中使用 Elasticsearch

// 使用服务端配置？// 是否独立存储，不需要从 _source 解析，在需要频繁使用某个字段时使用。

mengyue 0喜欢 / 0评论 2020-06-27

Elasticsearch 是如何实现 Master 选举的？

些节点需要 ping 通）这两部分；节点，暂且认为它是 master 节点。否则重新选举一直到满足上。别的管理；data 节点可以关闭 http 功能*。

YEEHOLIC 0喜欢 / 0评论 2020-06-26

elasticsearch 索引数据多了怎么办，如何调优，部署 ?

想了解大数据量的运维能力。检索或者其他业务受到影响。引的模板格式为：blog_index_时间戳的形式，每天递增数据。32 次幂-1，索引存储达到了 TB+甚至更大。一旦单个索引很大，存储等各种风险也随之而来，所以要提前考虑+及早避免。冷热数据分离存储，热

xx0cw 0喜欢 / 0评论 2020-06-26

Elasticsearch 在部署时，对 Linux 的设置有哪些优化方法？

少于 8 GB 会适得其反。个内核提供的额外并发远胜过稍微快一点点的时钟频率。基于 SSD 的节点，查。Elasticsearch 的几个地方，使用 Java 的本地序列化。

YYDU 0喜欢 / 0评论 2020-06-26

对于 GC 方面，在使用 Elasticsearch 时要注意什么？

存全部占满的时候，还有 heap 空间可以分配给其他任务吗？等“自欺欺人”的方式来释放内存。确实需要大量拉取数据的场景，可以采用。scan & scroll api 来实现。群通过 tribe node 连接。

sifeimeng 0喜欢 / 0评论 2020-06-26

第17篇-使用Python的初学者Elasticsearch教程

我的Elasticsearch系列文章，逐渐更新中，欢迎关注0A.关于Elasticsearch及实例应用00.Solr与ElasticSearch对比01.ElasticSearch能做什么？安装并运行Elasticsearch：安装Elasticsea

mengyue 0喜欢 / 0评论 2020-06-26

由于Elasticsearch是在 Lucene 基础上构建

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？后面会说到，Elasticsearch是搜索引擎，但不简单只能使用在搜索领域，他可以作用的场景非常多。Elastic 于 2018 年 6

IceStreamLab 0喜欢 / 0评论 2020-06-26

全文搜索引擎 Elasticsearch

全文搜索属于最常见的需求，开源的Elasticsearch是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Ela

yanweiqi 0喜欢 / 0评论 2020-06-25

elasticsearch常用命令

获取es的基本信息。查看当前节点的所有 Index

tigercn 0喜欢 / 0评论 2020-06-25

ES(elasticsearch) query DSL 查询语法

"query": "被检索的字符串". "field": "被检查的字段名"

AFei00 0喜欢 / 0评论 2020-06-25

ElasticSearch7.1.1集群搭建

接下来我们就可以在此基础上配置ElasticSearch集群了，均用于保存数据且可被选为master节点。服务版本elasticsearch 7.1.1jdk 1.82、elasticsearch.yml配置说明：。cluster.name: myes#

IceStreamLab 0喜欢 / 0评论 2020-06-25

初始Elasticsearch

es需要Java8 环境，需要首先安装jdk.如果这时候报错 error=‘Cannot allocate memory‘, 是因为elasticsearch5.0默认分配jvm空间大小为2g，需要改小一点

YYDU 0喜欢 / 0评论 2020-06-21

启动elasticsearch报错

[1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]. [2]: max virtual memory are

sifeimeng 0喜欢 / 0评论 2020-06-21

在VMware中搭建kibana和elasticsearch

、hostname -I 查看本机当前ip，一会儿我就直接设置这个ip为固定ip了，还涉及到子网掩码啥的，最好不要进行修改，我查出来的结果是：192.168.91.128. 、 vi elasticsearch.yml，去除 network.host 和

YYDU 0喜欢 / 0评论 2020-06-21

ElasticSearch 定时批量删除N天前的数据

当时目前我只是完成收集和查看所有日志，那么时间一长我们就会遇到问题，日志一直发到elastic服务器上，日志越来越多，我就需要一个定时删除过期的日志数据的办法。需要定时删除elasticSearch指定过期数据，比如只保留N天数据，超过N天前的数据，直接删

katanaFlower 0喜欢 / 0评论 2020-06-21