大数据技术 2018-11-07
Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
Apache Griffin填补了开源世界里在大数据质量领域的空白。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。
详情:https://www.oschina.net/p/griffin
Turmeric是eBay公司开发的SOA开源平台。这个平台拥有一个完整的安全措施驱动的保安系统,它基于Java,遵守WSDL, SOAP, XML, JSON, XACML, REST等主要标准,支持各种协议和数据格式的可插拔,可用于SOA的服务端以及应用端的开发、部署、安全保护、运行和监控。平台提供了Eclipse 插件,辅助SOASOA的服务端以及应用端程序的开发。当前发布的版本是1.0.0 GA,包括eBay公司内部使用的类似平台的大部分组件,只是将其中依赖于商业产品的一些功能去除,并代之以开源的等价实现。
详情:https://www.oschina.net/p/turmeric
REST Superman 已改名REST Commander是 eBay 开发的一个使用快速并行的异步 HTTP/REST/SOAP 客户端开发的服务用来监控和管理10000台 Web 服务器,可在 10 秒内发送请求到 1000 台服务器,或者 50 秒内发送请求到 10000 台服务器。
详情:https://www.oschina.net/p/restsuperman
GitHub地址:
https://github.com/eBay/restcommander
Apache Eagle提供一套高效分布式的流式策略引擎,具有高实时、可伸缩、易扩展、交互友好等特点,同时集成机器学习对用户行为建立Profile以实现实时智能实时地保护Hadoop生态系统中大数据的安全。
Eagle 是开源分布式实时Hadoop数据安全方案,支持数据行为实时监控,能立即监测出对敏感数据的访问或恶意的操作,并立即采取应对的措施。Eagle具有如下特点:高实时、可伸缩、简单易用、用户Profile。
详情:https://www.oschina.net/p/apache-eagle
Parallec是一个基于Akka的快速并行异步HTTP(S)/SSH/TCP/UDP/Ping 客户端的Java库。它是eBay云计算部门开发并在REST Superman基础上开源的。
详情:https://www.oschina.net/p/parallec
GitHub地址:
https://github.com/eBay/parallec
fabio 由 eBay Classifieds Group 开发, 用于处理 marktplaats.nl 和 kijiji.it 的流量。Marktplaats 所有的流量都经过 fabio ,每秒有数千个请求,分发于数个 fabio 实例。但我们并没有观察到任何延迟。
详情:https://www.oschina.net/p/fabio
GitHub地址:
https://github.com/fabiolb/fabio
Pulsar 作为一个复杂事件处理平台,具有快速,准确,灵活的特性,保证点到点的低延时和高可靠,从而很好得满足了的eBay秒级实时数据分析的需求。同时每秒百万级流量处理能力,给客户带来更好的个性化体验,帮助客户监控实时业务信息并定制实时营销策路,及时监测网络欺诈行为并减少机器人干预。并且Pulsar是基于标准的分布式云架构部署并跨越多个数据中心,从而保证了在系统升级和拓扑更新时没有集群停机时间。
详情:https://www.oschina.net/p/ebay-pulsar