数据仓库概念

crazyhulu 2013-12-04

 笔记

数据仓库与数据挖掘笔记

 

 

相关概念

 

数据仓库:是一个数据库环境,它提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中不方便得到。

 

特点:面向主题,集成的,相对稳定的,反应历史变化的。

 

组成:数据仓库的数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统。

 

数据挖掘:就是从大量数据中获取有效的,新颖的,潜在有用的,最终可理解的模式的过程。

 

数据挖掘的分析方法: 

 

直接数据挖掘:利用可用的数据建立模型,用模型对剩余的数据进行描述,包括分类,估值,预言等分析方法。

 

见解数据挖掘:没有选出具体变量并用模型进行描述,而是在搜有的变量中建立起关系,如相关性分组,关联规则,聚集,描述和可视化及复杂数据来兴的挖掘。

 

数据仓库和数据挖掘的关系:矿井和挖矿的关系。

 

事务处理分类

OLTP   联机事务处理。

OLAP   联机事务分析。

数据仓库技术

OLAP相关主要概念

多维数据集:联机分析处理的主要对象,它是一个由一组维度和度量值定义的多维结构的集合。

  

维度:一组数据的属性,(面向对象中对象的属性,数据表中的列)。但是维可能是抽象的,比如时间维可能是对象中年,月,日,属性的合体。

  

度量值:就是维度属性的值。

  

多维分析:把多维数据,用切片,切块,钻取,旋转等分析方法剖析数据,使用户从不同的角度来观察数据。

1)              钻取:向上钻取,向下钻取,交叉钻取,钻透。向上钻取:比如现在查看的是年月维度的数据,向上钻取就是现在要查看以年维度的数据。

2)              切片和切块:在一部分维上选定值后,度量值在剩余维的分布,两维是切片,三维是切块。

3)              旋转:变换维的方向,行列互换。

OLAP技术:使分析人员,管理人员,或执行人员能够从多角度对信息进行快速,一致交互存取,进而获得对数据深入了解的技术。

OLAP分类

        ROALP    基于关系数据库

        MOLAP   基于独立多维数据集

        HOLAP   混合方式

工具:通过多维方式对数据进行分析,查询,报表的工具。

数据仓库实施的关键环节和技术

数据抽取:数据从联机事务系统,外部数据源,脱机的数据存储介质中导入数据仓库。

数据存储:数量大,并行处理,查询优化。(B树索引对重复度很高的列作用不大,位图索引将以二进制表示字段的状态,将查询变为筛选),支持多维查询。多维数据库,星形模型(目前主流和前景广阔)

数据表现:多维分析,统计分析,数据挖掘。

数据仓库实施方法

   常用产品:

              Molap:cognos,essbase,

              Rolap:oracle(discoverer,express,reports)  微软(sql server analysis services,sql server integration services,sql server reporting services) IBM(db2 olap server)

 

数据仓库系统的体系结构

数据源:数据的来源

数据存储与管理:把数据进行抽取,清理,有效的集成,按照主题重新组织,最终确定数据仓库的存储结构。同时组织存储数据仓库的元数据。

Olap服务器:ROLAP基本数据和聚合数据放在RDBMS之中, MOLAP:基础数据和聚合数据放在多维数据集中。HOLAP:基础数据放在 RDBMS中,聚合数据放在多维数据集中。

前端工具与应用:数据分析针对OLAP服务器,报表,挖掘也可针对数据仓库。

两层架构

独立数据集市

依赖型数据集市和操作性数据存储

逻辑性数据集市和实时数据仓库

独立的数据仓库体系结构

数据仓库概念

由源数据库(内部外部)===》经过抽取清洗,调和,导出  到达 ==》数据集结区===》加载===》数据仓库(唯一的企业级的数据仓库)===》填充====》数据展示:查询工具,报表工具,建模与挖掘工具。

其中抽取转换加载称为ETL过程。

基于数据集市的数据仓库体系结构

 数据仓库概念

 

基于依赖性数据集市和操作性数据存储的数据仓库体系结构

 

 数据仓库概念

 

基于逻辑性数据集市和实时数据仓库的体系结构  

 数据仓库概念

  

相关推荐