清华大学王建民:在大数据的思维下,人人都是冰冷的数据包?

OliveDS 2019-01-11

清华大学王建民:在大数据的思维下,人人都是冰冷的数据包?

文章来源:慕华学堂

清华大学王建民:在大数据的思维下,人人都是冰冷的数据包?

王建民,清华大学软件学院院长、数据科学研究院副院长。研究领域包括大数据与知识工程、非结构化数据管理、业务过程与产品生命周期管理、数字版权与系统安全技术、数据库测试技术等。


在近日刚刚公布的2018国家精品在线开放课程认定结果中,清华大学王建民老师的“大数据系统基础”课程通过认定。“大数据系统基础”课程可以帮助学生了解大数据管理的工具平台、开发环境、基本原理,熟悉典型大数据工具与平台的特性,掌握大数据处理的基本开发方式。在介绍典型系统工具使用的基础上,通过分析其实现原理与设计理论,增强学生大数据工具与平台的应用与开发能力,同时也为有志于继续深入学习大数据专业课程的学生创造基础。具体课程内容包括:绪论,云计算,文件存储,计算框架,内存计算,NoSQL,流数据处理等。

《奇葩说》第五季有一期辩题为“大数据为你匹配了一个全世界最适合你的人(伴侣),你要不要去见?”引发了辩手们的激烈讨论。

抛开辩题暂且不表,信息时代,万物数化,大数据带来的精准分析对人们生活的影响是全方位的,身处时代的洪流中人们很难将生活从网络世界剥离出来了。而生活中鲜活的人,在大数据的思维下则化身为一个个冰冷的数据包。

大数据是个包罗万象的概念,数据的规模和复杂性超出了人们常规的想象。大到总统选举,小到民生话题,甚至具体到个人的时间规划等等,都是可以通过数据来进行分析的,数据的应用已经渗透到我们生活的各个领域了。

清华大学软件学院院长、数据科学研究院副院长王建民教授——清华校内大数据课程的最早参与者,向笔者介绍清华大学“大数据系统基础”课程,开设源于2014年4月份清华大学校庆,时任校长陈吉宁在校庆大会上明确提出“清华要培养大数据方向的硕士”。

校庆刚结束,王建民教授和团队就开始着手组织“大数据系统软件”课程,此课程从知识基础和软件技术的培养入手,是学习者开展大数据工程应用的基础课程。本课程在线下纳入了由清华大学研究生院与数据科学研究院共同开设的“大数据能力提升项目“课程体系。

王建民教授补充介绍说,大数据的知识体系或者叫数据科学的知识体系分为三个方面:一是领域知识;二是分析、统计、挖掘的知识;三是软件编程与系统搭建的知识。

“如果仅仅谈谈大数据思维,不进行大数据的功能开发,对学习此门课程同学们的技术训练是有欠缺的,经过精心编排后,课程设计最终偏向大数据的系统和技术这两个方向,我们或许不是独一无二的,但当时开课的高校并不多。如果这些基础内容能让学习者产生粘性,我们的心血就没白费。”王建民教授解释说。

访谈中王建民教授解答了笔者的困惑“对数据利用的思维由来以久,为什么近几年才提出大数据的概念呢?”

王建民教授认为有两个原因,一是互联网和物联网使数据的汇聚和收集更加的容易,加之网络上各种数据更加开放,确实出现了一个很大的数据集;二是云计算等弹性计算平台降低了计算成本,使得处理大数据行为更加容易。

在谷歌公司成立10周年的时候,《Nature》杂志总结了谷歌现象,称它几乎建立了全球最完整的数据集合,这个时候就引出了数据“大”这样一个问题,早就有数据的概念,但为什么叫“大数据”呢?数据思维和大数据的区别在于,大数据量大、结构复杂、处理起来很不容易,大数据讲的是一个现象再加上技术的挑战;而小数据我们用算盘、笔、纸都能处理,现在铺天盖地的数据轰然而至的时候,就需要新的硬件或软件的技术从海量的数据里提取出价值,这些围绕海量数据的应用活动和关键技术都概括成了大数据。所以,这只是用来总结了这个现象,王建民教授这样解释。

谈及课程的开设,必须要了解我国大数据发展的现状。王建民教授说“业界普遍认为我们在应用场景上比国外还要创新,但在关键技术上还是有些差距,差距主要体现在大数据系统软件上,多数还是在使用国外的东西。”

通过王建民教授的介绍笔者了解到,清华有很多老师在做大数据系统工具的自主创新和研发。比如,王教授所在的课题组,在物联网的数据库、大数据交互分析软件等方面都在做一些研究。同时在大数据的软件生态环境中还补充了一些清华自己特有的软件工具,课题组的目标很明确,就是要培养出属于自己的大数据人才。

清华大学于2014年秋在校内开设“大数据系统基础”课程。彼时,社会上对于大数据系统工具这样基础课的渴求也非常强烈。清华校内的学生无疑是幸运的,可清华以外呢?王建民教授本着不囿于清华校内学生学习的初心,充分发挥清华大学在信息工程领域的综合学科优势,开始同步酝酿慕课课程。

2014年秋天开始筹备,到2015年夏天课程基本录制完成,紧接着投放到平台中去。在线开放课程对许多社会学习者来说简直是天大的福音。这些原本无法触及的优质教学内容依托互联网的发展而变得触手可及。考虑到线上学员学习自主性和接受度,在课程的设置上重点从基础知识和思维方式的培养入手,这些知识对于学习者来说在对未来获得解决问题的能力,面对问题的思考能力,都是极其重要的。

课程投放以后反响非常热烈,社会学习者的积极性很高,目前累计在线学习人数超4万人次。除了惠及社会学习者,本课程还被东莞慕课平台、广西分中心慕课联盟平台、河北省高校MOOC平台、云南省高校MOOC平台所使用,帮助高校校内的教育教学改革,促进教育公平。

王建民教授坦言“在线课程的顺利投放,是团队共同努力的结果,从课程体系搭建、课题申报、课程打磨、再到视频的录制投放,这背后耗费了巨大精力和心血,如果没有团队的协作,仅靠我一人是无法完成的。我要感谢本课程的合作老师,特别感谢宋韶旭老师在课程上线初期和运行过程中的辛勤付出。”

从线下到线上的转变是突破也是勇敢的尝试。前面没有学生,背后没有黑板,场景进入上就不太容易,其次在课程的组织上要把知识点碎片化处理,处理后的知识点既要独立又要上下衔接,这是个不小的挑战。

“就我个人而言,线上课程的开展对我的线下教学也带来了很多启发和帮助,线上学员的背景更多元,他们会提出很多发散性的问题。而这种发散性问题提出的本身,恰恰体现了传统课堂中学生思维的局限性,从某种意义上来说对我和我的助教就是一个学习的过程,开阔了我的教学视野也提升了同学们的思辨能力。”王建民教授欣慰地说。

有人说学习是一个长周期、慢反馈、多环节的“化学变化过程”,王建民教授认为,如果每个人都把控好自己的那个环节,那么这个“化学变化过程”就不会跳出反应链,最后王建民教授表示,只要社会有需要,“大数据系统课程”就会一直开设下去。

— 完 —

关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。

相关推荐