Hadoop生态系统在广告大数据技术的应用及选型

chenhui 2017-05-12

Hadoop生态系统在广告大数据技术的应用及选型

导读

都说“大数据”是“未来的新石油”,很多国家或国际组织都将大数据视作战略资源,那么大数据到底该如何使用?究竟如何才能创造价值?如何作用于营销?背后支撑大数据营销的技术是什么?本案例将解密广告大数据各种技术平台,重点分析Hadoop生态系统在广告大数据技术的各种应用以及不同选型的深层原因。

Hadoop生态系统在广告大数据技术的应用及选型

(全文共2702字 预计阅读时长:3分钟)

一、 大数据技术难点分析

1.1 技术难点

  • 高可靠性:数据需要多份存储,保证数据不丢失。

  • 高可用性:提供7X24小时服务,保证服务不中断。

  • 高扩展性:提供透明升级扩容服务,保证服务不受限制。

  • 高性能:对高并发、低延迟有高要求,保证服务访问快速。

  • 高安全:严格IDC管理制度和分布式密钥管理。

  • 高性价比:成本价格可控,尽量降低成本。

  • 监控维护:监控简单,响应及时。

1.2 所用到的开源技术

  • 高可靠性:HDFS等分布式存储。

  • 高可用性:LVS等负载均衡。

  • 高扩展性:Hadoop等分布式集群。

  • 高性能:Nginx、Redis等高性能服务。

  • 高安全:Kerberos、SSL、公私钥及分布式密钥等。

  • 高性价比:Hadoop等分布式存储和计算集群。

  • 监控维护:Nagios、Ganglia等系统级和应用级监控。

其中安全主要通过采取了访问分布式密钥,数据异地容灾备份,程序沙箱隔离的方式来实现数据安全。

二、广告技术平台解密

首先是精准营销的3W原则,如图1所示。

Hadoop生态系统在广告大数据技术的应用及选型

图1 精准营销的3W原则

然后数字营销的两个分类如下:

  • 全流程营销

展示广告;

Minisite;

微博。

  • 实时竞价营销

实时竞价营销核心如下:如图2所示。

Ad Exchange(广告交易平台);

DSP(Demand Side Platform,需求方平台);

SSP(Sell-Side Platform,供应方平台);

DMP(Data-Management Platform,数据管理平台)。

Hadoop生态系统在广告大数据技术的应用及选型

图2 实时竞价营销

三、Hadoop生态系统选型分析

首先我们看大数据应用系统平台架构图如图3所示。

Hadoop生态系统在广告大数据技术的应用及选型

图3 大数据应用系统平台架构

关于Flink,除了它是流式计算框架外,还有一个最主要特性是增量迭代,经过一次计算,除了它可以把数据从HDFS导入内存计算外,还可以把中间数据计算迭代后的结果保存在内存里面,下一次迭代计算直接可以用这个结果,使得计算性能会更高。

接下来,我们来看看计算广告里最核心的数据库技术分析和分布式数据库系统对比。这里主要对比Pinot和Druid,如表1所示,它们都是支持多维度实时查询的分布式系统。

表1 Pinot和Druid对比

Hadoop生态系统在广告大数据技术的应用及选型

由于Pinot跟ES系统架构很类似,而Pinot比Druid支持存储格式更多一些,所以我们用Pinot和ES做了一个性能测试对比,测试条件如下:

  • 记录条数分为100亿条以内,如表2所示,1000亿条以内,如表3所示。

  • 服务器数量为70台,配置为:CPU 12核,内存96GB,硬盘48TB。

  • 测试语句:select count(*) from test where age > 25 and gender > 0 and os > “500”and sc in (“0001009”,“0002036”,“0016030”,“…”) or bs>585 and group by age,gender,os,bs。

  • 总共12列:动态列为3列(多值列),普通列为9列,实际映射到应用的列为5000列。

表2 Pinot和ES对比(记录条数100亿条以内)

Hadoop生态系统在广告大数据技术的应用及选型

表3 Pinot和ES对比(记录条数1000亿条以内)

Hadoop生态系统在广告大数据技术的应用及选型

对于Pinot和ES有一个共性,它们都有多值列的属性,即类似的属性可以放入同一列,这样查的话大部分需要把一个列的数据查出来,从而更有益于性能。

四、案例复现

4.1 业务需求

  • 每天请求数超过100亿条;

  • 每天增长超过5TB级数据;

  • 每天对几千亿条记录进行上 1000 种维度的计算;

  • 客户有流式、实时、离线需求。

● 4.2 系统数据流程图

系统数据流程图如图4所示。

Hadoop生态系统在广告大数据技术的应用及选型

图4 系统数据流程图

数据采集用WebService,如Nginx;数据收集服务用Kafka和Flume;数据清洗服务用Storm,采用Storm主要有两个原因:业务需求在毫秒级需要;有严格要求的时间序列,如原来输入是1、2、3、4、5,输出还必须是1、2、3、4、5。其他用Spark Streaming将会比较好。

接下来,把Kafka分流出来的数据对应每一条不同的业务,然后导入对应的存储,如HBase、HDFS等,通过不同的流来解决不同的业务问题,然后基于不同存储做各种算法分析;最后将各种结果数据导入ElasticSearch或者MySQL给前端做数据可视化。

通过阅读上述知识相信各位对分布式数据库的发展和不同系统的技术特点已经有了一定的了解,限于篇幅的原因,笔者以分享几个ES的使用心得结束:

  • 用ES的Alias特性实现数据的水平扩展。

  • 用Kibana分析和展现数据(ELK三剑客)可以满足很多公司业务80%以上的需求。

ELK是指ElasticSearch、Logstash、Kibana,它们分别功能为:ElasticSearch是负责日志检索和分析;Logstash负责日志的收集,处理和储存;Kibana负责日志的可视化,建议用Kibana4版本。

  • 多条件聚合查询,布尔查询。

  • 定制分词插件(IK),实现对特殊字符的精确匹配。

目前现在主流的搜索引擎在搜索关键词的时候对标点符号是忽略的,但是在实现一些对监控微博等社交数据时,如果微博里有很多符号,举例来说“:)”其实代表的是笑脸,而笑脸对于我们来判断正负面是非常有用的,所以判断正负面不只是语义分析的,还有对标点符号分析也非常重要。

五、 应用案例分析

大数据隐私解决方案,如图5所示,隐私对于数字营销也是痛点,对于隐私来说,大家都是非常的关心的。所以这里我们提到的解决方案,既然是A公司和B公司,大家都不愿意把数据源贡献给对方,就是找一个可信的服务厂商一起来做这个事。把双方数据加密,然后上传至第三方可信厂商,计算完后各自把结果取走后,最后把第三方可信厂商的数据源和结果全部删除和销毁。

Hadoop生态系统在广告大数据技术的应用及选型

图5 大数据隐私解决方案

广告反作弊案例分析:

作弊识别模型如图6所示,广告作弊的还是挺多的,据国外媒体统计说2015年全球将会有63亿美元(40亿欧元)浪费在机器人流量上。2016年第一季度Facebook发文称,其Atlas DSP平台半年的流量质量测试结果显示,由机器人模拟和黑IP等手段导致的非人恶意流量高达75%。仅2016上半年,AdMaster反作弊解决方案认定平均每天能有高达28%的作弊流量。

反作弊需要强大的数据支撑,AdMaster通过大量的项目积累和经验积累,在广告不同环节的数据触及等。主要基于IP,cookie,设备ID,访问时间序列,UA信息分布等行为属性来建立一个模型,区分正常用户记录与作弊行为记录,并进行标记所以反作弊的模型包括地域,包括时间,包括页面,包括用户的一些分析,有很多的的手段来判断它是不是作弊的。

Hadoop生态系统在广告大数据技术的应用及选型

图6 作弊识别模型

这一个案例是在2013年的时候,可口可乐的昵称瓶案例,可口可乐公司一直想可以通过什么方式提高它的销售。最后AdMaster通过数据分析和问卷调研,通过一些声量,互动性,发贴率,等等,做了很多的分析。发现了包括普通用户,特别是80后,90后,对白富美、高富帅等词是非常感兴趣的,那是不是可以生产一些有昵称的瓶子作为销售。所以AdMaster通过捕捉社交媒体过亿数据,提取最频繁使用的热词,然后从多个维度进行定量比较(例如声量、互动性以及发帖率),初步选出300个热词。随后,这些热词再经过可口可乐品牌部、公关部等二次筛选,确保从中选出有正能量、积极向上的词汇,并最终印在了可乐瓶子上。

不仅如此,AdMaster为可口可乐专门建立的Social Command Center系统,通过实时的数据挖掘第一时间告知广告公司需要互动的粉丝名单,并将互动记录保留下来供后续沟通。并将各种名人、网友的互动性提升到最大,最快的找到那个影响力最高的人进行互动,实现了活动的高反应能力,这里不是一次性的把这些词给可口可乐公司去生产,而是用一个迭代式的方式。第一次我们看到的是白富美,高富帅,第二次的时候,可以多一些其他的。这样可以更大程度提高销售转化率。

Hadoop生态系统在广告大数据技术的应用及选型

★★征稿★★

寻找100个年度最具价值的实践案例

我们只要案例干货,拒绝广告

成为特约作者,你将:

◆ 连接100名年度经验与增长值TOP100的研发精英

◆ 提前入围「壹佰案例」年度最优案例榜单

◆ 案例整理成册,出版发行图书

◆ 成为msup客座教练

◆ 以观察员身份受邀出席壹佰案例

◆ 所在公司享有msup活动优惠

有意者guanzhu「壹佰案例」

相关推荐