数据分析的一些概念

小小梦想家 2020-02-01

目录

一、什么是商业智能(BI)

BI:Business Intelegence,商业智能,基于数据仓库,经过数据挖掘后,得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能

二、什么是数据仓库(DW)

DW:Data Warehouse,数据仓库,数据库的升级概念,一般量更庞大,将多个数据来源的数据进行汇总、整理而来

三、什么是数据挖掘(DM)

DM:Data Mining,数据挖掘
数据挖掘流程:Knowledge Discovery in Database,也叫数据库中的知识发现,简称KDD
KDD流程:输入数据->数据预处理->数据挖掘->后处理->信息

  1. 数据清洗
    去除重复数据、干扰数据及填充缺失值
  2. 数据集成
    将多个数据源中的数据存放在一个统一的数据存储中
  3. 数据变换
    将数据转换成适合数据挖掘的形式,比如将数值东篱一个特定的0~1的区间

数据挖掘的核心

  1. 分类
    通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类
    分类是已知了类别,然后看样本属于哪个分类
  2. 聚类
    将数据自动聚类成几个类别,
    聚类是不知道有哪些类别,按照 样本的属性来进行聚类
  3. 预测
    通过当前和历史数据预测未来趋势,可以更好地帮助我们识别机遇和风险
  4. 关联分析
    发现数据中的关联规则,被广泛应用于购物、事务数据分析中

数据挖掘的基本流程

  1. 商业理解。从商业的角度理解项目需求
  2. 数据理解 。尝试收集部分数据,对数据进行探索
  3. 数据准备。开始收集数据,并进行清洗、集成等操作
  4. 模型建立。选择和应用数据挖掘模型,并进行优化,以便得到更好的分类结果
  5. 模型评估。对模型进行评价,确认模型是否实现了预定的商业目标
  6. 上线发布。把挖掘的知识转换成用户的使用形式

四、数据挖掘的数学基础

  • 概率论与数据统计
  • 线性代数
  • 图论
  • 最优化方法

五、数据挖掘的十大算法

  • 分类
    • C4.5。十大算法之首,决策树算法,特点包括:1.构造过程中剪枝 2.处理连续属性;3.处理不完整的数据
    • 朴素贝叶斯。基于概率论原理,计算未知物体出现的条件下,各个类别出现的概率,取概率最大的分类
    • SVM。 超平面的分类模型
    • KNN。每个样本的分类都可以用其最接近的K个邻居的分类代表
    • Adaboost。构建分类器的提升算法,可以让多个弱的分类器组成一个强的分类器
    • CART。决策树算法,分类树 + 回归树
  • 聚类
    • K-Means。将物体分成K类,计算新点跟K个中心点的距离,哪个距离近,则新点归为哪一类
    • EM。最大期望算法,求参数的最大似然估计的一种方法
  • 关联分析
    • Apriori。挖掘关联规则的算法,通过挖掘频繁项集揭示物品之间的关联关系
  • 连接分析
    • PageRank。起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强,Google将其用于计算网页权重

六、数据可视化的工具

数据可视化能让我们直观了解数据分析的结果

  • python第三方库
    • matplotlib
    • seaborn
  • 第三方工具
    • 微图
    • DataV
    • Data GIF Maker等

七、什么是用户画像

简单的说,用户画像就是标签的汇总
用户画像是现实世界中的用户的数学建模,将海量数据进行标签化,来复以更精准的用户画像
用户标签能产生的业务价值

  1. 在获客上,找到优势的宣传渠道,通过个性化的宣传手段吸引有潜在需求的用户
  2. 在粘客上,提升用户的单价和消费频次
  3. 在留客上,降低流失率,顾客流失率降低 5%,公司利润提升 25% ~ 85%

用户标签4个纬度

  1. 基础信息
    性别、年龄、地域、收入、学历、职业等
  2. 消费信息
    消费习惯、购买意向、是否对促销敏感
  3. 行为分析
    时间段、频次、时长、访问路径
  4. 内容分析
    浏览的内容、停留时长、浏览次数,内容类型,如金融、娱乐、教育、体育、时尚、科技等

数据处理的3个阶段

  1. 业务层
    获客预测、个性化推荐、用户流失率、GMV趋势预测
  2. 算法层
    用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
  3. 数据层
    用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次

八、什么是埋点

在需要的位置采集相应的信息,进行上报。比如用户信息、设备信息、操作行为数据
埋点一般是在需要统计数据的地方植入统计代码。
第三方工具有:友盟、Google Analysis、Talkingdata等,一般是前端埋点的方式

九、数据采集的几种方式

  • 开源数据源
  • 爬虫抓取
  • 日志采集
  • 传感器

相关推荐