海量数据下的舆情分析，该如何搭建？

LinLinHou 2019-07-12

海量数据下的舆情分析，该如何搭建？

互联网的飞速发展促进了很多新媒体的发展，不论是知名的大V，明星还是围观群众都可以通过手机在微博、朋友圈或者点评网站上发表动态，分享自己的所见所想，使得“人人都有了麦克风”。不论是热点新闻还是娱乐八卦，传播速度远超我们的想象，一则信息可以在短短数分钟内，有数万计转发，数百万的阅读。海量信息可以得到爆炸式的传播，那么如何实时把握信息并作出对应的处理呢?是不是真的难以应对?今天，阿里云智能事业群的宇珩来跟我们聊聊大数据舆情系统对数据存储和计算系统会有哪些需求，如何根据需求来进行系统设计。

大数据时代下，除了媒体信息以外，商品在各类电商平台的订单量、用户的购买评论，都会对后续的消费者产生很大的影响。商家的产品设计者需要汇总统计和分析各类平台的数据做为依据，决定后续的产品发展，公司的公关和市场部门也需要根据舆情作出相应的及时处理，而这一切也意味着传统的舆情系统升级成为大数据舆情采集和分析系统。具体细化看下大数据舆情系统，对我们的数据存储和计算系统提出了以下需求：

海量原始数据的实时入库：为了实现一整套舆情系统，需要有上游原始输出的采集，也就是爬虫系统。爬虫需要采集各类门户，自媒体的网页内容。在抓取前需要去重，抓取后还需要分析提取，例如进行子网页的抓取。
原始网页数据的处理：不论是主流门户还是自媒体的网页信息，抓取后我们需要做一定的数据提取，把原始的网页内容转化为结构化数据，例如文章的标题，摘要等，如果是商品点评类消息也需要提取有效的点评。
结构化数据的舆情分析：当各类原始输出变成结构化的数据后，我们需要有一个实时的计算产品把各类输出做合理的分类，进一步对分类后的内容进行情感打标。根据业务的需求这里可能会产生不同的输出，例如品牌当下是否有热点话题，舆情影响力分析，转播路径分析，参与用户统计和画像，舆论情感分析或者是否有重大预警。
舆情分析系统中间和结果数据的存储，交互分析查询：从网页原始数据清洗到最终的舆情报表这中间会产生很多类型的数据。这些数据有的会提供给数据分析同学进行舆情分析系统的调优，有的数据会提供给业务部门根据舆情结果进行决策。这些查询可能会很灵活，需要我们的存储系统具备全文检索，多字段组合灵活的交互分析能力。
重大舆情事件的实时预警：对于舆情的结果除了正常的搜索和展示需求以外，当有重大事件出现我们需要能做到实时的预警。

本文主要是提供架构设计，会先介绍时下主流的大数据计算架构，并分析一些优缺点，然后引入舆情大数据架构。

系统设计

需求分析

结合文章开头对舆情系统的描述，海量大数据舆情分析系统流程图大体如下：

海量数据下的舆情分析，该如何搭建？

图1 舆情系统业务流程

原始网页存储库，这个库需要能支持海量数据，低成本，低延时写入。网页数据写入后，要做实时结构化提取，提取出来的数据再进行降噪，分词，图片ocr处理等。对分词文本，图片进行情感识别产生舆情数据结果集。传统的离线全量计算很难满足舆情系统的时效性需求。
计算引擎在做数据处理时，可能还需要从存储库中获取一些元数据，例如用户信息，情感词元数据信息等。
除了实时的计算链路，对存量数据定期要做一些聚类，优化我们的情感词识别库，或者上游根据业务需要触发情感处理规则更新，根据新的情感打标库对存量数据做一次舆情计算。
舆情的结果数据集有不同类的使用需求。对于重大舆情，需要做实时的预警。完整的舆情结果数据展示层需要支持全文检索，灵活的属性字段组合查询。业务上可能根据属性字段中的置信度，舆情时间，或者关键词组合进行分析。

根据前面的介绍，舆情大数据分析系统需要两类计算，一类是实时计算，包括海量网页内容实时抽取，情感词分析并进行网页舆情结果存储。另一类是离线计算，系统需要对历史数据进行回溯，结合人工标注等方式优化情感词库，对一些实时计算的结果进行矫正等。所以在系统设计上，需要选择一套既可以做实时计算又能做批量离线计算的系统。在开源大数据解决方案中，Lambda架构恰好可以满足这些需求，下面我们来介绍下Lambda的架构。

Lambda架构 (wiki)

海量数据下的舆情分析，该如何搭建？

图2 Lambda架构图

Lambda架构可以说是Hadoop，Spark体系下最火的大数据架构。这套架构的最大优势就是在支持海量数据批量计算处理(也就是离线处理)同时也支持流式的实时处理(即热数据处理)。

具体是如何实现的呢，首先上游一般是一个队列服务例如kafka，实时存储数据的写入。kafka队列会有两个订阅者，一个是全量数据即图片中上半部分，全量数据会被存储在类似HDFS这样的存储介质上。当有离线计算任务到来，计算资源(例如Hadoop)会访问存储系统上的全量数据，进行全量批计算的处理逻辑。

经过map/reduce环节后全量的结果会被写入一个结构化的存储引擎例如Hbase中，提供给业务方查询。队列的另一个消费订阅方是流计算引擎，流计算引擎往往会实时的消费队列中的数据进行计算处理，例如Spark Streaming实时订阅Kafka的数据，流计算结果也会写入一个结构化数据引擎。批量计算和流计算的结果写入的结构化存储引擎即上图标注3的"Serving Layer"，这一层主要提供结果数据的展示和查询。

在这套架构中，批量计算的特点是需要支持处理海量的数据，并根据业务的需求，关联一些其他业务指标进行计算。批量计算的好处是计算逻辑可以根据业务需求灵活调整，同时计算结果可以反复重算，同样的计算逻辑多次计算结果不会改变。批量计算的缺点是计算周期相对较长，很难满足实时出结果的需求，所以随着大数据计算的演进，提出了实时计算的需求。

实时计算在Lambda架构中是通过实时数据流来实现，相比批处理，数据增量流的处理方式决定了数据往往是最近新产生的数据，也就是热数据。正因为热数据这一特点，流计算可以满足业务对计算的低延时需求，例如在舆情分析系统中，我们往往希望舆情信息可以在网页抓取下来后，分钟级别拿到计算结果，给业务方充足的时间进行舆情反馈。下面我们就来具体看一下，基于Lambda架构的思想如何实现一套完整的舆情大数据架构。

开源舆情大数据方案

通过这个流程图，让我们了解了整个舆情系统的建设过程中，需要经过不同的存储和计算系统。对数据的组织和查询有不同的需求。在业界基于开源的大数据系统并结合Lambda架构，整套系统可以设计如下：

海量数据下的舆情分析，该如何搭建？

图3 开源舆情架构图

1. 系统的最上游是分布式的爬虫引擎，根据抓取任务抓取订阅的网页原文内容。爬虫会把抓取到的网页内容实时写入Kafka队列，进入Kafka队列的数据根据前面描述的计算需求，会实时流入流计算引擎(例如Spark或者Flink)，也会持久化存储在Hbase，进行全量数据的存储。全量网页的存储可以满足网页爬取去重，批量离线计算的需求。

2. 流计算会对原始网页进行结构化提取，将非结构化网页内容转化为结构数据并进行分词，例如提取出网页的标题、作者、摘要等，对正文和摘要内容进行分词。提取和分词结果会写回Hbase。结构化提取和分词后，流计算引擎会结合情感词库进行网页情感分析，判断是否有舆情产生。

3. 流计算引擎分析的舆情结果存储Mysql或者Hbase数据库中，为了方便结果集的搜索查看，需要把数据同步到一个搜索引擎例如Elasticsearch，方便进行属性字段的组合查询。如果是重大的舆情时间，需要写入Kafka队列触发舆情报警。

4. 全量的结构化数据会定期通过Spark系统进行离线计算，更新情感词库或者接受新的计算策略重新计算历史数据修正实时计算的结果。

开源架构分析

上面的舆情大数据架构，通过Kafka对接流计算，Hbase对接批计算来实现Lambda架构中的“batch view”和“real-time view”，整套架构还是比较清晰的，可以很好的满足在线和离线两类计算需求。但是把这一套系统应用在生产并不是一件容易的事情，主要有下面一些原因：

整套架构涉及到非常多的存储和计算系统包括：Kafka，Hbase，Spark，Flink，Elasticsearch。数据会在不同的存储和计算系统中流动，运维好整套架构中的每一个开源产品都是一个很大的挑战。任何一个产品或者是产品间的通道出现故障，对整个舆情分析结果的时效性都会产生影响。

为了实现批计算和流计算，原始的网页需要分别存储在Kafka和Hbase中，离线计算是消费hbase中的数据，流计算消费Kafka的数据，这样会带来存储资源的冗余，同时也导致需要维护两套计算逻辑，计算代码开发和维护成本也会上升。

舆情的计算结果存储在Mysql或者Hbase，为了丰富组合查询语句，需要把数据同步构建到Elasticsearch中。查询的时候可能需要组合Mysql和Elasticsearch的查询结果。这里没有跳过数据库，直接把结果数据写入Elasticsearch这类搜索系统，是因为搜索系统的数据实时写入能力和数据可靠性不如数据库，业界通常是把数据库和搜索系统整合，整合下的系统兼备了数据库和搜索系统的优势，但是两个引擎之间数据的同步和跨系统查询对运维和开发带来很多额外的成本。

新的大数据架构Lambda plus

通过前面的分析，相信大家都会有一个疑问，有没有简化的的大数据架构，在可以满足Lambda对计算需求的假设，又能减少存储计算以及模块的个数呢?

Linkedin的Jay Kreps提出了Kappa架构，关于Lambda和Kappa的对比可以参考文末的文献，这里不展开详细对比，简单说下，Kappa为了简化两份存储，取消了全量的数据存储库，通过在Kafka保留更长日志，当有回溯重新计算需求到来时，重新从队列的头部开始订阅数据，再一次用流的方式处理Kafka队列中保存的所有数据。这样设计的好处是解决了需要维护两份存储和两套计算逻辑的痛点，美中不足的地方是队列可以保留的历史数据毕竟有限，难以做到无时间限制的回溯。

分析到这里，我们沿着Kappa针对Lambda的改进思路，向前多思考一些：假如有一个存储引擎，既满足数据库可以高效的写入和随机查询，又能像队列服务，满足先进先出，是不是就可以把Lambda和Kappa架构揉合在一起，打造一个Lambda plus架构呢?

新架构在Lambda的基础上可以提升以下几点：

在支持流计算和批计算的同时，让计算逻辑可以复用，实现“一套代码两类需求”。

统一历史数据全量和在线实时增量数据的存储，实现“一份存储两类计算”。

为了方便舆情结果查询需求，“batch view”和“real-time view”存储在既可以支持高吞吐的实时写入，也可以支持多字段组合搜索和全文检索。

总结起来就是整套新架构的核心是解决存储的问题，以及如何灵活的对接计算。我们希望整套方案是类似下面的架构：

海量数据下的舆情分析，该如何搭建？

图4 Lambda Plus架构

数据流实时写入一个分布式的数据库，借助于数据库查询能力，全量数据可以轻松的对接批量计算系统进行离线处理。

数据库通过数据库日志接口，支持增量读取，实现对接流计算引擎进行实时计算。

批计算和流计算的结果写回分布式数据库，分布式数据库提供丰富的查询语意，实现计算结果的交互式查询。

整套架构中，存储层面通过结合数据库主表数据和数据库日志来取代大数据架构中的队列服务，计算系统选取天然支持批和流的计算引擎例如Flink或者Spark。这样一来，我们既可以像Lambda进行无限制的历史数据回溯，又可以像Kappa架构一样一套逻辑，存储处理两类计算任务。这样的一套架构我们取名为“Lambda plus”，下面就详细展开如何在阿里云上打造这样的一套大数据架构。

云上舆情系统架构

在阿里云众多存储和计算产品中，贴合上述大数据架构的需求，我们选用两款产品来实现整套舆情大数据系统。存储层面使用阿里云自研的分布式多模型数据库Tablestore，计算层选用Blink来实现流批一体计算。

海量数据下的舆情分析，该如何搭建？

图5 云上舆情大数据架构

这套架构在存储层面，全部基于Tablestore，一个数据库解决不同存储需求，根据之前舆情系统的介绍，网页爬虫数据在系统流动中会有四个阶段分别是原始网页内容，网页结构化数据，分析规则元数据和舆情结果，舆情结果索引。

我们利用Tablestore宽行和schema free的特性，合并原始网页和网页结构化数据成一张网页数据。网页数据表和计算系统通过Tablestore新功能通道服务进行对接。通道服务基于数据库日志，数据的组织结构按照数据的写入顺序进行存储，正是这一特性，赋能数据库具备了队列流式消费能力。使得存储引擎既可以具备数据库的随机访问，也可以具备队列的按照写入顺序访问，这也就满足我们上面提到整合Lambda和kappa架构的需求。分析规则元数据表由分析规则，情感词库组层，对应实时计算中的维表。

计算系统这里选用阿里云实时流计算产品Blink，Blink是一款支持流计算和批计算一体的实时计算产品。并且类似Tablestore可以很容易的做到分布式水平扩展，让计算资源随着业务数据增长弹性扩容。使用Tablestore + Blink的优势有以下几点：

Tablestore已经深度和Blink进行整合，支持源表，维表和目的表，业务无需为数据流动开发代码。

整套架构大幅降低组建个数，从开源产品的6～7个组建减少到2个，Tablestore和Blink都是全托管0运维的产品，并且都能做到很好的水平弹性，业务峰值扩展无压力，使得大数据架构的运维成本大幅降低。

业务方只需要关注数据的处理部分逻辑，和Tablestore的交互逻辑都已经集成在Blink中。

开源方案中，如果数据库源希望对接实时计算，还需要双写一个队列，让流计算引擎消费队列中的数据。我们的架构中数据库既作为数据表，又是队列通道可以实时增量数据消费。大大简化了架构的开发和使用成本。

流批一体，在舆情系统中实时性是至关重要的，所以我们需要一个实时计算引擎，而Blink除了实时计算以外，也支持批处理Tablestore的数据，在业务低峰期，往往也需要批量处理一些数据并作为反馈结果写回Tablestore，例如情感分析反馈等。那么一套架构既可以支持流处理又可以支持批处理是再好不过。一套架构带来的优势是，一套分析代码既可以做实时流计算又可以离线批处理。

海量数据下的舆情分析，该如何搭建？

整个计算流程会产生实时的舆情计算结果。重大舆情事件的预警，通过Tablestore和函数计算触发器对接来实现。Tablestore和函数计算做了增量数据的无缝对接，通过结果表写入事件，可以轻松的通过函数计算触发短信或者邮件通知。完整的舆情分析结果和展示搜索利用了Tablestore的新功能多元索引，彻底解决了开源Hbase+Solr 多引擎的痛点：

运维复杂，需要有运维hbase和solr两套系统的能力，同时还需要维护数据同步的链路。

Solr数据一致性不如Hbase，在Hbase和Solr数据语意并不是完全一致，加上Solr/Elasticsearch在数据一致性很难做到像数据库那么严格。在一些极端情况下会出现数据不一致的问题，开源方案也很难做到跨系统的一致性比对。

查询接口需要维护两套API，需要同时使用Hbase client和Solr client，索引中没有的字段需要主动反查Hbase，易用性较差。

参考文献

Lambda大数据架构：

https://mapr.com/tech-briefs/stream-processing-mapr/

Kappa大数据架构：

https://www.oreilly.com/ideas/questioning-the-lambda-architecture

: LinLinHou

相关推荐

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 0喜欢 / 0评论 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 0喜欢 / 0评论 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 0喜欢 / 5评论 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 0喜欢 / 13评论 2020-11-17

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 0喜欢 / 0评论 2020-11-16

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 0喜欢 / 0评论 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 0喜欢 / 12评论 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 0喜欢 / 11评论 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 0喜欢 / 9评论 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 0喜欢 / 15评论 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 0喜欢 / 12评论 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 0喜欢 / 0评论 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 0喜欢 / 0评论 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 0喜欢 / 0评论 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 0喜欢 / 15评论 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 0喜欢 / 15评论 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 0喜欢 / 0评论 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 0喜欢 / 14评论 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 0喜欢 / 14评论 2020-10-30

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

ningwentao 0喜欢 / 14评论 2020-10-30

教你几招，Pandas轻松处理超大规模数据

处理大规模数据集时常是棘手的事情，尤其在内存无法完全加载数据的情况下。在资源受限的情况下，可以使用 Python Pandas 提供的一些功能，降低加载数据集的内存占用。可用技术包括压缩、索引和数据分块。在上述过程中需要解决一些问题，其中之一就是数据量过大

三石 0喜欢 / 0评论 2020-10-30

3000字！5大SQL数据清洗方法！

日常工作中，分析师会接到一些专项分析的需求，首先会搜索脑中的分析体悉，根据业务需求构建相应的分析模型，根据模型填充相应维度表，这些维度特征表能够被使用的前提是假设已经清洗干净了。前两天在Towards Data Science上看到一篇文章，讲的是用Pan

茄肥猫的窝 0喜欢 / 0评论 2020-10-29

13张IT架构图！从数字化转型，到数据架构

今天给大家上13个架构图，不说一些文字。我一直觉得，从架构图上可以学到很多东西，这相比于文字更能理解，而且很多人在做事的时候，是想不清楚具体要怎么做的，都是一开始直接上手，然后后面也不知道怎么改。这篇文章，是我在读了2本书之后，哪2本书呢？是《IT结构治理

evolone 0喜欢 / 14评论 2020-10-29

Python 中利用Pandas处理复杂的Excel数据

关于Excel数据处理，很多同学可能使用过Pyhton的pandas模块，用它可以轻松地读取和转换Excel数据。但是实际中Excel表格结构可能比较杂乱，数据会分散不同的工作表中，而且在表格中分布很乱，这种情况下啊直接使用pandas就会非常吃力。本文虫

三石 0喜欢 / 0评论 2020-10-29

为什么Java仍将是未来的主流语言？

Java是一种通用编程语言，1995年由Sun Micro-systems公司开发。尽管已经有25年的历史，但它仍然统治着整个世界。根据Stack-overflow的开发者调查，它在2019年最受欢迎的语言中排名第5。超过41%的调查用户将Java标记为

minerd 0喜欢 / 11评论 2020-10-28

亚信科技“钢铁企业数据中台解决方案”荣获“2020年度优秀解决方案奖”

近日，由中国通信企业协会主办的“ICT中国·2020高层论坛”在京举行，亚信科技“基于全生命周期的钢铁企业数据中台解决方案”凭借“对钢铁企业应用场景理解深刻，产品成熟、服务全面又兼顾个性化，业务实践充分且效果显著”的综合优势，荣获“2020年度优秀解决方案

航帆远洋 0喜欢 / 0评论 2020-10-27

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 0喜欢 / 0评论 2020-10-27

数据保护即服务（DPaaS）如何为业务保驾护航

总的说来，DPaaS通常是作为一种基于云端的服务而提供的。它不但满足了企业保护数据的安全性需求，也提供了数据备份和恢复的选项。用户可以通过订阅的模式，来获取并使用此类服务。为了防止关键系统及其数据成为恶意攻击者的目标，我们需要通过DPaaS，来实现轻松的维

木子叶家园 0喜欢 / 0评论 2020-10-27

干货！做数据分析应该掌握的5个SQL数据清洗方法

日常工作中，分析师会接到一些专项分析的需求，首先会搜索脑中的分析体系，根据业务需求构建相应的分析模型，根据模型填充相应维度表，这些维度特征表能够被使用的前提是假设已经清洗干净了。前两天在Towards Data Science上看到一篇文章，讲的是用Pan

kkbb 0喜欢 / 0评论 2020-10-27

在Python中使用KNN算法处理缺失的数据

处理缺失的数据并不是一件容易的事。方法的范围从简单的均值插补和观察值的完全删除到像MICE这样的更高级的技术。解决问题的挑战性是选择使用哪种方法。今天，我们将探索一种简单但高效的填补缺失数据的方法-KNN算法。KNN代表" K最近邻居"

scuyxi 0喜欢 / 10评论 2020-10-25

万亿数据下的多维实时分析系统，如何做到亚秒级响应

当业务发展到一定规模，实时数据仓库是一个必要的基础服务。从数据驱动方面考虑，多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下，拿腾讯看点来说，一天上报的数据量达到万亿级的规模，要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。本

数据分析amp挖掘 0喜欢 / 0评论 2020-10-22

人工智能：物理安防行业中比较大的破坏者

当今安全和技术领域的较大趋势之一是围绕解决方案，这些解决方案利用了为世界各地组织提供动力的大量互联安全系统和设备。相反，它是数据AI，已被安全行业完全开发。AI可以通过自动解密信息来改变您的安全规则，从而使用收集的各种来源和数据，包括过去、现在和将来，并作

编码美丽 0喜欢 / 10评论 2020-10-22

基于AI的存储正在帮助企业从数据中获取更多信息

如果你能够把存储想象成一辆自动驾驶汽车，而不是一个需要亲自动手的、劳动密集型的必需品呢?如果是像自动驾驶汽车一样，你的存储基础架构也能够预测你需要什么，并在道路上进行路障导航呢?麦肯锡最近的一项调查发现，近一半的公司目前在某些方面使用了人工智能，但绝大多数

DSFG 0喜欢 / 0评论 2020-10-22

AI技术之于制造业，除了提升生产效率还有什么？

现代科技的发展正在为制造业转型升级带来新的活力，人工智能技术就是其中之一。作为当前服务型制造具有较大推广应用价值的两个重点方向，新一代人工智能技术在远程运维服务和大规模定制生产中的应用正加速实现。假如工业生产线或生产设备在生产过程中突然出现故障，那么将会给

弱思 0喜欢 / 0评论 2020-10-19

云计算面临的11大安全威胁

云安全是云时代企业数字化转型面临的较大挑战之一。为了使企业对云安全问题有全新的认识和了解，做出更有效的采购决策，云安全联盟上个月推出了最新版本的《云计算11大威胁报告》。为了明确用户最关注的云安全问题，CSA对行业安全专家进行了一项调查，以就云计算中最重大

coycleipenghui 0喜欢 / 0评论 2020-10-20

人工智能如何应用于数据中心的物理安全

图像识别是人工智能的一大成功案例，而这项技术正迅速被广泛应用于各个领域。它的近亲，声音识别也是如此。显然，在物理安全中，图像识别最常用于面部认证。说到与健康相关的问题，一旦数据中心访客被诊断出患有COVID-19，图像识别就可以用来识别感染者访问过的所有位

古驿道 0喜欢 / 0评论 2020-10-21

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

SQL和Python几乎是当前数据分析师必须要了解的两门语言，它们在处理数据时有什么区别?本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作，希望可以帮助掌握其中一种语言的读者快速了解另一种方法!在阅读本文前，你可以访问下方网站下载本文使

gallon00 0喜欢 / 0评论 2020-10-16

ML Ops：数据质量是关键

ML Ops 是 AI 领域中一个相对较新的概念，可解释为「机器学习操作」。如何更好地管理数据科学家和操作人员，以便有效地开发、部署和监视模型?其中数据质量至关重要。本文将介绍 ML Ops，并强调数据质量在 ML Ops 工作流中的关键作用。ML Op

bingdata 0喜欢 / 10评论 2020-10-15

人工智能和区块链是否属于大数据的范畴

首先，从大的技术体系结构来看，大数据与人工智能、区块链技术有非常紧密的联系，从不同的角度也可以有不同的观点，比如从人工智能的角度来看，大数据作为人工智能的三大基础之一，也可以把大数据归为人工智能的范畴，而从区块链的角度来说，也可以得出类似的结论。

tosway 0喜欢 / 0评论 2020-10-07

不用SMOTE算法，我们如何处理多类不平衡数据？

机器学习中的一个常见问题是处理不平衡数据，其中目标类中比例严重失调，存在高度不成比例的数据。如果不能处理好这个问题，模型将会成为灾难，因为使用类不平衡数据建模会偏向于大多数类。处理不平衡数据有不同的方法，最常见的是过采样和创建合成样本。SMOTE是一种从数

FromCybertron 0喜欢 / 9评论 2020-10-06

PyTorch版YOLOv4更新了，适用于自定义数据集

距离YOLO v4 的推出，已经过去 5 个多月。YOLO 框架采用 C 语言作为底层代码，这对于惯用 Python 的研究者来说，实在是有点不友好。因此网上出现了很多基于各种深度学习框架的 YOLO 复现版本。近日，就有研究者在 GitHub 上更新了基

caizezhi 0喜欢 / 0评论 2020-10-05

[Aliyun] 实时数仓Hologres Demo01实时计算实时写入数据至Hologres

在实时数据业务场景中，最常见的链路是将实时采集的数据，通过实时计算初步清洗，实时写入数据至数据库，再对接BI工具实现数据的可视化分析。在导入导出数据时会产生冗余存储，浪费存储资源。概述为解决实时场景的业务痛点，Hologres提供了实时数据API接口。业务

大数据社区 0喜欢 / 0评论 2020-10-05

比较JavaScript中的数据结构（数组与对象）

在编程中，如果你想继续深入，数据结构是我们必须要懂的一块，学习/理解数据结构的动机可能会有所不同，一方面可能是为了面试，一方面可能单单是为了提高自己的技能或者是项目需要。无论动机是什么，如果不知道什么是数组结构及何时使用应用字们，那学数据结构是一项繁琐

LauraRan 0喜欢 / 0评论 2020-09-28

5个开源数据挖掘工具，收下这波干货

数据挖掘是从大量数据中提取隐藏的或未知，但可能有用信息的过程。尤其在机器学习中，数据挖掘是十分重要的一环。今天给大家介绍5个开源数据挖掘工具，收下这波干货吧。Weka是用Java编写的，可以在大部分平台上运行，是一种开源机器学习软件，能通过图形用户界面，标

小小梦想家 0喜欢 / 0评论 2020-09-26

如何根据云服务中提取的数据来推断出用户的位置？

地理位置数据可以为各种政府机构提供需要的信息，执法机构使用位置数据来锁定嫌疑人位置。但是，地理位置数据可不限于刑事或民事调查，比如日常的紧急响应服务也要使用位置数据来服务需要帮助的人员，出租车和送货服务也要使用位置来改善服务。还有更多的例子表明位置数据是至

大数据杂谈 0喜欢 / 0评论 2020-09-26

机器学习中的标签泄漏介绍及其如何影响模型性能

您是否对优秀或接近优秀的模型表现不知所措?你的快乐被出卖了吗?简而言之，当您要预测的信息直接或间接出现在训练数据集中时，就会发生标签泄漏或目标泄漏。它会导致模型夸大其泛化误差，并极大地提高了模型的性能，但模型对于任何实际应用都毫无用处。数据泄漏的主要指标是

wwwjun 0喜欢 / 0评论 2020-09-25

ls 列表显示数据信息

ls -l --- 显示数据信息详细属性 ls -lh --- 显示属性中,数据大小以人类可读方式显示 ls -a --- 将隐藏文件进行显示以点开头的文件数据就是隐藏文件 ls -rt --- 按照时间信息

KaiZhaoKZ 0喜欢 / 0评论 2020-09-24

人类工作受到威胁？如何在这个时代脱颖而出，这点很重要

“数据奴隶”现象成就了一批AI时代的新贵，也让本来就强大的企业更强大，弱小者更弱小，一种“量子鸿沟”式的两极分化正在形成。大量被边缘化、失业和商业失败的人群，加入了“数据奴隶”的大军。他们将生命中的大部分时间贡献给网络，形成大数据。结果，在AI永无止境地学

弱思 0喜欢 / 0评论 2020-09-23

AI格局正在从数据转变为知识，专有数据集转向跨实体共享数据

半个多世纪以前就引发了人工智能革命。我们看到的比较常见的AI业务策略是围绕数据构建的。我们认为专有数据是当前AI公司最具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI

星月情缘 0喜欢 / 0评论 2020-09-21

IntelliJ IDEA 如何配置数据源

在 IntelliJ IDEA 中，可以通过打开 Data Sources and Drivers 对话框来配置数据源和测试你的数据库连接。可能没有办法使用快捷键，虽然好像有快捷键是 shift + enter，但是在 IntelliJ IDEA 中会换行

crazyhulu 0喜欢 / 0评论 2020-09-20