数据科学概述

一、挑战

预测效果好：一个模型的预测效果取决于其假设是否被满足。模型假设就像模型的阿喀琉斯之踵。在实际生产中，假设几乎不可能完全满足，此时需要特征提取，避免那些对结果影响很大的假设。
模型参数的稳定性：我们需要根据模型参数，分析变量和结果之间的关系。但是，模型参数都是估计得出的，也就是不太可靠，但是我们可以尽可能控制波动，使不可靠性控制在可接受范围内。
模型结果的可解释性：也就是将模型结果运用到实际生产中。生产者不需要知道模型内部的数学原理，使用这个模型就能得到具有直观且良好的解释性的结果。将复杂深奥的模型翻译成最简单的语言。

研究：成年人身高(x)和体重(y)之间的关系

也就是说：传统编程是人类自己经验的积累，然后将这些经验转换成规则/公式；机器学习则不需要提前掌握这些规则，只需要制定学习步骤（模型类型）、输入数据，计算机就能根据给定的条件自己总结经验。

定义：训练数据中有标注，也就是带着正确答案训练。每次训练的目的就是不断逼近正确结果。

按照标注的类型，分为：

定义：训练数据没有标注，只输入自变量x。根据用途，分成聚类和降维