一、什么是商业智能(BI)
BI:Business Intelegence,商业智能,基于数据仓库,经过数据挖掘后,得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能
二、什么是数据仓库(DW)
DW:Data Warehouse,数据仓库,数据库的升级概念,一般量更庞大,将多个数据来源的数据进行汇总、整理而来
三、什么是数据挖掘(DM)
DM:Data Mining,数据挖掘
数据挖掘流程:Knowledge Discovery in Database,也叫数据库中的知识发现,简称KDD
KDD流程:输入数据->数据预处理->数据挖掘->后处理->信息
- 数据清洗
去除重复数据、干扰数据及填充缺失值 - 数据集成
将多个数据源中的数据存放在一个统一的数据存储中 - 数据变换
将数据转换成适合数据挖掘的形式,比如将数值东篱一个特定的0~1的区间
数据挖掘的核心
- 分类
通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类
分类是已知了类别,然后看样本属于哪个分类 - 聚类
将数据自动聚类成几个类别,
聚类是不知道有哪些类别,按照 样本的属性来进行聚类 - 预测
通过当前和历史数据预测未来趋势,可以更好地帮助我们识别机遇和风险 - 关联分析
发现数据中的关联规则,被广泛应用于购物、事务数据分析中
数据挖掘的基本流程
- 商业理解。从商业的角度理解项目需求
- 数据理解 。尝试收集部分数据,对数据进行探索
- 数据准备。开始收集数据,并进行清洗、集成等操作
- 模型建立。选择和应用数据挖掘模型,并进行优化,以便得到更好的分类结果
- 模型评估。对模型进行评价,确认模型是否实现了预定的商业目标
- 上线发布。把挖掘的知识转换成用户的使用形式
四、数据挖掘的数学基础
五、数据挖掘的十大算法
- 分类
- C4.5。十大算法之首,决策树算法,特点包括:1.构造过程中剪枝 2.处理连续属性;3.处理不完整的数据
- 朴素贝叶斯。基于概率论原理,计算未知物体出现的条件下,各个类别出现的概率,取概率最大的分类
- SVM。 超平面的分类模型
- KNN。每个样本的分类都可以用其最接近的K个邻居的分类代表
- Adaboost。构建分类器的提升算法,可以让多个弱的分类器组成一个强的分类器
- CART。决策树算法,分类树 + 回归树
- 聚类
- K-Means。将物体分成K类,计算新点跟K个中心点的距离,哪个距离近,则新点归为哪一类
- EM。最大期望算法,求参数的最大似然估计的一种方法
- 关联分析
- Apriori。挖掘关联规则的算法,通过挖掘频繁项集揭示物品之间的关联关系
- 连接分析
- PageRank。起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强,Google将其用于计算网页权重
六、数据可视化的工具
数据可视化能让我们直观了解数据分析的结果
七、什么是用户画像
简单的说,用户画像就是标签的汇总
用户画像是现实世界中的用户的数学建模,将海量数据进行标签化,来复以更精准的用户画像
用户标签能产生的业务价值
- 在获客上,找到优势的宣传渠道,通过个性化的宣传手段吸引有潜在需求的用户
- 在粘客上,提升用户的单价和消费频次
- 在留客上,降低流失率,顾客流失率降低 5%,公司利润提升 25% ~ 85%
用户标签4个纬度
- 基础信息
性别、年龄、地域、收入、学历、职业等 - 消费信息
消费习惯、购买意向、是否对促销敏感 - 行为分析
时间段、频次、时长、访问路径 - 内容分析
浏览的内容、停留时长、浏览次数,内容类型,如金融、娱乐、教育、体育、时尚、科技等
数据处理的3个阶段
- 业务层
获客预测、个性化推荐、用户流失率、GMV趋势预测 - 算法层
用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好 - 数据层
用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次
八、什么是埋点
在需要的位置采集相应的信息,进行上报。比如用户信息、设备信息、操作行为数据
埋点一般是在需要统计数据的地方植入统计代码。
第三方工具有:友盟、Google Analysis、Talkingdata等,一般是前端埋点的方式
九、数据采集的几种方式