机器学习与数据挖掘: 基础概念

数据中心运维管理 2019-06-26

如何成为机器学习工程师
https://keras-cn.readthedocs....
http://www.tensorfly.cn/tfdoc...

机器学习 vs 数据分析

 数据特点数据分析机器学习
数据类型交易数据行为数据
数据量少量数据海量数据
分析方法采样分析全量分析 
 解决业务问题不同数据分析(OLAP 报告过去的事情)机器学习(预测未来的事情)
过去3年里,那些人是我们前100名优质客户前100个最有利润潜力的客户将是谁
过去2年里哪些用户拖欠贷款哪些客户可能有坏账风险
和年初的计划比上季度的销售业绩如何明年各地区的销售额预计是多少 
今年四季度中,哪些销售业绩超过他们的配额明年哪些销售有可能超额完成 
哪些门店今年销售额超过去年未来1年里,哪些门店可能表现的更好 

 

机器学习:利用计算机从历史数据中寻找规律,并把这些规律用到对未来不确定场景的决策
  • 基于专家经验
  • 数据分析(基于统计)--> 主体主要是人去分析  `受制于经验&知识水平`
  • 机器学习--> 计算机

-

从历史数据中寻找规律 -->依赖于算法,其实这个规律就是找到一个数学函数(公式)

传统的统计学一直受制于计算能力的显示,用的是抽样的方式。
统计中: 抽样--> 描述统计 --> 结论 --> 假设检验 
现在计算能力已经不是问题,所以是用全量的数据:

观察数据(可视化后)-->用模型刻画(拟合)规律(函数-函数曲线-拟合)
在实际的多维,n维数据中,是很难用可视化的方式展示数据的,无法用图形方式发现规律,这时候只能靠数学运算

机器学习

概述

机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

  • 海量的数据
  • 获取有用的信息

机器学习的典型应用

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

一种经常引用的英文定义是:A computer program is said to learn from experience E
with respect to some class of tasks T and performance measure P, if
its performance at tasks in T, as measured by P, improves with
experience E.

机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

深度学习 vs 机器学习 vs 模式识别

深度学习 vs 机器学习 vs 模式识别

细分场景

购物篮分析

  • 关联规则

用户细分精准营销

  • 聚类

垃圾邮件识别

  • 朴素贝叶斯

信用卡欺诈

  • 决策树

互联网广告

  • ctr预估

推荐引擎

  • 协同过滤

自然语言处理

  • 情感分析
  • 实体识别

图像识别

  • 深度学习

语音识别
个性化医疗
情感分析
人脸识别
自动驾驶
智慧机器人
私人虚拟助理
手势控制
视频内容自动识别
机器实时翻译

机器学习组成

主要任务

  • 分类(classification):将实例数据划分到合适的类别中

    • 应用实例:判断网站是否被黑客入侵(二分类 ),手写数字的自动识别(多分类)
  • 回归(regression) :主要用于预测数值型数据

    • 应用实例:股票价格波动的预测,房屋价格的预测等。

监督学习(supervised learning)

监督学习中,我们只要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。
机器从输入数据预测合适的模型,并从中计算目标变量的结果
  • 必须确定目标变量的值 以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。 (包括:分类和回归)
  • 样本集:训练数据 + 测试数据

    • 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
    • 特征通常是训练样本集的列,它们是独立测量得到的。
    • 目标变量: 目标变量是机器学习预测算法的测试结果

      • 在分类算法中目标变量的类型通常是标称型(如:真与假),而在回归算法中通常是连续型(如:1~100)。
监督学习使用两种类型的·目标变量: 标称型和数值型
标称型目标变量的结果只在有限目标集中取值, 如真与假,动物分类集合{爬行类、鱼类、哺乳类、两栖类}
数值型目标变量可以从无限的数值集合中取值,如0.100、42.001、1000.743等。数值型目标变量主要用于回归分析
  • 监督学习需要注意的问题:

    • 偏置方差权衡
    • 功能的复杂性和数量的训练数据
    • 输入空间的维数
    • 噪声中的输出值
  • 知识表示:

    • 可以采用规则集的形式【例如:数学成绩大于90分为优秀】
    • 可以采用概率分布的形式【例如:通过统计分布发现,90%的同学数学成绩,在70分以下,那么大于70分定为优秀】
    • 可以使用训练样本集中的一个实例【例如:通过样本集合,我们训练出一个模型实例,得出 年轻,数学成绩中高等,谈吐优雅,我们认为是优秀】
机器学习中,对数据进行分类的算法大概有两种:
        - 感知器
        - 适应性的线性神经元
        - 学习算法(learning algorithm),从数据中产生模型的方法
        - 数据集(data set):一组记录的合集
        - 示例(instance):对于某个对象的描述
        - 样本(sample):也叫示例

附:机器学习专业术语

  • 模型(model):计算机层面的认知
  • 属性(attribute):对象的某方便表现或特征
  • 特征(feature):同属性
  • 属性值(attribute value):属性上的取值
  • 属性空间(attribute space):属性张成的空间
  • 样本空间/输入空间(samplespace):同属性空间
  • 特征向量(feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
  • 维数(dimensionality):描述样本参数的个数(也就是空间是几维的
  • 学习(learning)/训练(training):从数据中学得模型
  • 训练数据(training data):训练过程中用到的数据
  • 训练样本(training sample):训练用到的每个样本
  • 训练集(training set):训练样本组成的集合
  • 假设(hypothesis):学习模型对应了关于数据的某种潜在规则
  • 真相(group-true):真正存在的潜在规律
  • 学习器(learner):模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
  • 预测(prediction):判断一个东西的属性
  • 标记(label):关于示例的结果信息,比如我是一个“好人”。
  • 样例(example):拥有标记的示例
  • 标记空间/输出空间(label space):所有标记的集合
  • 分类(classification):预测时离散值,比如把人分为好人和坏人之类的学习任务
  • 回归(regression):预测值时连续值,比如你的好人程度达到了0.9,0.6之类的
  • 二分类(binary classification):只涉及两个类别的分类任务
  • 正类(positive class):二分类里的一个
  • 反类(negative class):二分类里的另外一个
  • 多分类(multi-class classification):涉及多个类别的分类
  • 测试(testing):学习到模型之后对样本进行预测的过程
  • 测试样本(testing sample):被预测的样本
  • 聚类(clustering):把训练集中的对象分为若干组
  • 簇(cluster):每一个组叫簇
  • 监督学习(supervised learning):典范--分类和回归
  • 无监督学习(unsupervised learning):典范--聚类
  • 未见示例(unseen instance):“新样本“,没训练过的样本
  • 泛化(generalization)能力:学得的模型适用于新样本的能力
  • 分布(distribution):样本空间的全体样本服从的一种规律
  • 独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。

参数(parameters)和超参数(hyperparameters)

  • 参数:就是模型可以根据数据可以自动学习出的变量,应该就是参数。比如,深度学习的权重,偏差等
  • 超参数:就是用来确定模型的一些参数,超参数不同,模型是不同的(这个模型不同的意思就是有微小的区别,比如假设都是CNN模型,如果层数不同,模型不一样,虽然都是CNN模型哈。),超参数一般就是根据经验确定的变量。在深度学习中,超参数有:学习速率,迭代次数,层数,每层神经元的个数等等。

参考

慕课网机器学习
TensorFlow中文社区
apachecn/MachineLearning
Natalia Konstantinova 博客
神经网络的黑客指南

相关推荐