数据建模新趋势｜王中庆教授谈智能化建模背后的奥秘

来源：北京数据科学

本文共2750字，建议阅读6分钟。

特邀美国中佛罗里达大学数据挖掘中心主任王中庆教授为大家分享智能化建模背后的奥秘。

[ 导读 ]在大数据时代，各行各业都拥有着大量的数据，各个领域都会产生许多要解决的问题，数据建模作为解决问题过程中必不可少的一步，发挥着重要的作用。那么建模时应该如何提高效率？又该怎样降低技术人员的门槛和建模的人力资本呢？

本期访谈特邀美国中佛罗里达大学数据挖掘中心主任王中庆教授，为大家分享智能化建模背后的奥秘。

人物简介

王中庆（Morgan C. Wang）教授

于1991年获得爱荷华州立大学博士学位，现任职于中佛州大学教授兼数据挖掘中心主任，主要研究方向为数据挖掘、大数据分析、智能建模和木马与恶意程序的侦查。在约三十年的大学教学研究经历中，有80多篇论文发表在顶级期刊或收录在国际统计和数据会议论文集中，其论文主题内容包括区间分析、元分析、电脑安全、商业分析、健康保健和数据发掘和智能建模等。2006年荣选为国际统计协会、美国统计协会和中国国际统计协会的会员。

指导过的学生团队在2011、2012和2016年国际SAS数据挖掘竞赛获胜。在2008年的第一届工程技术大会赢得最佳奖项。在2004年获得第11届SIGMOD KDD的数据挖掘第一名，在2000年获得SUGI25大会的数据可视化第一名，并且被邀请在美国统计协会、SIGKDD、国际信息技术大会、SAS全球论坛以及国内外著名大学发表演讲。并在清华大学、复旦大学、首都经济贸易大学、厦门大学、香港中文大学、美国宾州州立大学、爱荷华州立大学、加拿大维多利亚大学等知名院校开设“数据挖掘”、“大数据分析”等系列课程。

做为数据挖掘方面的知名学者和资深专家，王教授获得各类数据研发类项目赞助资金1300万余元人民币，现在是清数易明科技的首席分析顾问。担任数据分析顾问的客户包括：沃尔特·迪斯尼公司（WaltDisney）、寰球影城公司（Universal Studio）、美国统计学会（ASA）、美国富国银行（WELLS FARGO）、美国蓝十字蓝盾保险公司（BlueCross and BlueShield）、美国Whole FoodsMarket、美国恒久银行（Ever Bank）、西门子动力公司（Siemens Power）等。

下面，就一起来了解“智能化建模”吧！

Q1：您最近在做有关“智能化建模”方面的研究，请您简单为我们介绍一下什么是“智能化建模”？

我们知道，建模是挖掘数据价值的方式之一，尤其是通过模型完成预测任务时，更能反映出建模的重要性。构建一个预测模型，需要综合统计学习、机器学习以及计算机技术等多方面的理论基础。首先，预测模型是对未来做预测，因此存在许多不确定性，而统计学正是研究不确定性现象数量规律的学科；其次，在建模时还要求模型的运行速度、鲁棒性以及准确性都达到较高的水平，这就需要通过一些机器学习的算法给予保证；最后，要完成整个建模过程，就需要借助计算机技术的全程参与和辅助。

目前，该领域还是处于一个人工建模的阶段。通过人工预处理，将收集到数据整理成一个宽表；然后基于数据的特性以及建模人员的专业知识，不断的调参、试错来训练并建立模型；最后用建立好的模型来完成预测任务。人工建模所花费的时间是以周为单位的，而不是以小时或者天为单位，这样就会产生很大的时间成本和人力成本。而智能化建模就能很好克服上述困难。智能化建模的一个理念就是要缩短整个建模过程中所花费的时间，整个流程中每一个环节都要通过智能化来完成。智能化建模的另一个理念是将建模人员从日常琐碎的事情中解放出来，他们便能有更多的时间去开发和建立更高智能化的模型，这样就会大大提高数据的使用效率。还需要强调的一点是，这里所讲的“智能化”是不同于“自动化”的，“智能化”不仅要求模型要自动建成，还要求预测结果达到一定的水平。

在整个智能化建模的过程中，大部分都是机器在参与和完成，人的参与程度要少很多，主要包括数据的获取以及所得结果的应用。模型本身是不会产生经济效益的，而基于模型的决策是实现经济效益的关键，所以即使人的参与程度减少但也是必不可少的。在人工建模中，需要不同的人员来完成“建立模型”和“使用模型”的任务，他们的思维是不一样的，因此两者之间便会产生一定程度的不协调。智能化建模便能够很好的解决这种不协调性，“建立模型”和“使用模型”是由同一个人来完成的，不再需要在理论问题上花费大量的时间，因此可以将更多的时间用于决策环节。同时，模型的稳定性以及准确性等问题，也不再由建模人员的专业素质来决定，而是由智能化系统本身来决定。也就是说，智能化建模要保证的是，即使没有专业的数据分析和建模的人员，也能很好的完成一项任务。智能化建模现在只是刚刚开始，我相信以后会成为一种趋势。

Q2：在智能化建模的整个流程中，数据预处理、智能建模和模型表现等各环节分别是如何运作的呢？

第一，数据预处理。在数据预处理中最重要的一步是数据清洗，包括缺失值和异常值的处理。就缺失值而言，往往会蕴涵着丰富的价值，如果随意剔除掉缺失值就会丢失许多重要的信息。如果仅简单的用中位数平均数来补缺是远远不够的，而应该通过一种智能化的方法来完成，其关键是保证在不同的区间里用不同的值进行补缺，补缺后的数据将会包含更多的信息量。此外，多个缺失值合在一起也带有某些信息，因此智能化建模也会从一组缺失值中提取出有价值的信息，这会比手动操作提取更多的信息量。而且智能化建模会按照一定的规则来完成数据预处理，这样就会大大减少许多人为的失误。对于那些异常值，智能化建模系统会自动找出最佳的转换方式，便于使用者可以更好的提取出数据中所蕴含的价值。由于，智能化建模系统要具有一定的普适性，强调更多的是预测功能，而不是解释的功能，因此在完成数据预处理时往往从数据本身形式出发，会适当忽略掉实际意义。

第二，智能建模。智能化建模所使用的算法和传统人工建模所使用的算法是一样的。就神经网络来讲，在传统建模中需要不断的去调神经元的个数、隐含层的层数、激活函数的形式等参数，最终找到一个最合适的模型。而智能化建模则是先根据某些公式计算出最优模型需要几个神经元、几层隐藏层以及哪种激活函数，进而确定一组最佳参数。传统的手工建模，可以凭借专业人员经验来选择一些还不错的模型；智能化建模，就是把所有可能使用到的参数都考虑进去，然后通过实验设计的方法找出最佳参数的大致区间，进而不断调试出一个最佳的参数组合。相比人工建模，智能化建模的优势在于速度更快，尝试的参数组合也更多，寻参的区间也更大，把人彻底解放出来，实现一种完全的智能化。

第三，模型表现。常用的模型表现的评价方法都会纳入到智能化建模的系统中，也会将数据集划分为训练集、测试集和验证集，通过验证集数据所构造的统计量来评估模型好坏。准确率、精确度、召回率、F1度量、均方误、AUC等指标都会计算出来，使用者需要根据自己的研究目的来确定所需的评价指标，不同的指标所选出来的模型也不尽相同。另外，模型的评价也会存在一个误差范围，这些小的差异是不显著的，因此就不再是预设单一模型，而是去选择一组模型，只要没有超过误差范围即可。

Q3：您认为智能化建模和人工智能的区别有哪些？智能化建模接下来的发展方向会是什么？

人工智能解决的是现在的事情。比如人脸识别，通过对比照片和真人的相似度，来确定是否是真人。人工智能更多的是在解决现在的事情，而不是去解决明天的事情。智能化建模的目的是预测未来。比如，通过一系列相关信息，预测一个人下一时刻会产生怎样的行为。此外，人工智能所使用的数据噪音少、密度高，而智能化建模使用的数据噪音很多且数据稀疏。但两者都需要具有统计学中的不确定性思维，就数据转换来讲，肯定会有得有失，进行某种转换是否值得就是一个平衡的艺术了。

我们团队和清数易明公司合作，所开发的智能化建模系统还处于初级阶段，所适用的行业仅是以金融和保险为主。例如，个人分期违约预测、个人信贷违约预测、健康风险及购买预测、续保预测、车险定价以及反欺诈等等。未来会涉及到更多的行业、更多形式和结构的数据，还会改良提升一些现有的算法来适应智能化系统，以达到更好的效果。现在，这一系统能达到人工建模的平均水平，相信之后会不断缩小和最顶尖建模人员之间的差距。

Q4：最后，您可不可以对数据建模领域的学习提出一些建议？

为了解决各行各业所面临的实际问题，并根据这些实际问题来构建更优的模型，最有效的一种方式就是，在学习的过程中对某一行业本身有更系统的了解，这样才能够根据具体的场景建立出更精细的模型。另外，还需要掌握数学、统计学以及计算机科学等相关学科的基础知识，要加强对这些理论知识的学习，以便能优化和改建模型，达到更理想的效果。然后，还要熟练的掌握每一种模型的思想、定义、训练过程、优缺点等等。因为我们在学习的过程中不是学习智能化建模，而是要学习人工建模，只有对每一种模型深入的了解，才能把握好在怎样的情形下使用哪些模型更合适。最后，要接触各种建模工具，每种工具都有其不同的特点，适用于不同形式的数据，在建模过程中可以尝试使用不同的工具，通过数据本身来反馈出最适用的分析工具。总的来说，在学习的过程中要把视野放宽，对各个领域、各个方面的内容都要有一定程度的了解，将自己培养成为一个综合性的人才。

数据建模新趋势｜王中庆教授谈智能化建模背后的奥秘

相关推荐