dyhrj0 2019-07-01
Chp1
Data Mining
信息技术的发展,计算机---存储和处理信息,网络---传播信息,物联网---收集信息,移动互联网---更加便捷地收集和传播信息
问题:数据总量爆炸式增加,如何从中提取真正有价值的信息
产生了新的领域(DM)
Data Mining, 数据挖掘
Knowledge Discovery, 知识发现
Machine Learning, 机器学习
Knowledge Discovery in Database, KDD
KDD, 从数据库获取数据---数据清洗---放入数据仓库(warehouse)---选出可能相关的感兴趣的信息---数据挖掘---评估---知识
BI, Business Intelligence, 商业智能
ML, 机器学习
从 4 个不同的角度理解 DM
DM: 发现规律,填补单个空缺
ML: 预测一整行
略
用户交互
效率和可扩展性
数据类型的多样性
挖掘方法和技术
社会问题
Volume, 数据体量巨大,PB 级别
Velocity, 要求处理速度快,1 秒定律,可从各种类型的数据中快速获得高价值的信息
Variety, 数据类型繁多
Value, 只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报
Google Flu Trends Prediction
Promotion of pregnant women products in Target supermarket