小小梦想家 2016-12-21
当下,“大数据”与“机器学习”可谓家喻户晓,热度空前,而新兴的行业和企业如何利用大数据技术支持产品开发、用户拓展和利益最大化备受关注。为此,THU数据派研究部特别企划业界系列专访,通过学生专访业界一线人员的方式,获得学术界和业界的碰撞。在THU数据派研究部组织的算法交流会上,智慧城市组有幸专访了滴滴出行数据挖掘工程师曾言先生。他是美国罗切斯特大学数学博士,曾在纽约从事量化投资工作,研究方向包括随机偏微分方程,统计套利,衍生品交易、统计机器学习及数据挖掘。在本次专访中,曾言主要从行业、大数据分析技术的角度解读了滴滴出行如何利用机器学习优化用户体验,并为有志于数据分析和数据挖掘的在校生提出可供参考的职业发展路径。
注:此内容为个人观点,不代表滴滴出行。
谈行业:共享经济大势所趋,滴滴将持续扮演重要角色
2010年前后,随着Uber、Airbnb等一系列实物共享平台的出现,共享开始从纯粹的无偿分享、信息分享,走向以获得一定报酬为主要目的,基于陌生人且存在物品使用权暂时转移的“共享经济”。其本质是以互联网为媒介,整合线下的闲散物品、劳动力、教育医疗资源等,各自以不同的方式付出和受益,共同获得经济红利。
在曾言看来,互联网能够通过网络连接人与人,将多余资源利用起来,减少资源浪费,降低资源使用成本。而滴滴则是将交通资源共享化。在中国,滴滴出行作为共享经济的典范,一直发挥着重要作用。曾言认为,共享经济一定是互联网时代下的大势所趋,而滴滴也会在共享的路上越走越远。
谈技术:大数据只体现在处理上
大数据的产生源于互联网的不断发展,尤其是用户产生的内容增加,例如百度用户搜索内容、微博、网页日志等。由于数量过于庞大,传统的数据分析软件显得捉襟见肘。因此,处理大数据的分布式技术MapReduce框架成为目前主流,相应的Hadoop平台、Spark框架、数据库框架hive、hdfs以及编程语言scala等也被广泛使用。相比较而言,Spark框架在计算速度和内存占用上更有效,滴滴内部采用的便是这种框架。
虽然大数据处理技术不断更新发展,但传统的数据挖掘经典算法,例如聚类、分类等仍然是目前分析数据采用的最有效方式,唯一的变化就是需要将传统算法并行化以及非线性化,提升处理大数据的速度和效率,这一过程中的优化技巧至关重要。曾言举例说,滴滴出行5.0.0版本中上线的“推荐上车地点”功能(形象成为“小绿点”)就是利用数据挖掘中算法,为乘客推荐最优上车地点,节省沟通和时间成本,优化用户体验。
谈滴滴:不断更新,只为最优用户体验
说到滴滴内部的大数据技术与算法,曾言用具体的项目详细介绍了数据处理和分析的全过程。
滴滴研究院的项目中,热力图、供需预测、运力调度相互配合,在宏观上解决供需不平衡问题。热力图是订单分布的展示图,直接提供给司机,但这样的展示不够精确,司机也容易受到误导。因此,在热力图基础上,需要给出一段时间内特定区域内的需求,并将需求分配给司机,完成运力调度,有机平衡供需。
数据分析流程
曾言以一个具体的案例,梳理了企业中数据分析的流程。
1. 明确业务需求(business understanding)
业务目标是保持业务量增长的前提下提升效益。曾言表示,数据分析过程中,明确业务需求最为重要,要反复和业务部门沟通,深刻理解业务逻辑的基础上明确需求,并与业务部门确认,以文档的形式记录下来,以便后续回溯。
2. 理解数据格式(Data understanding)
在明确业务需求的基础上,要充分理解和业务相关的数据源以及数据格式,明确需要哪些数据,形成对数据整体的感知。
3. 特征抽取(Feature extraction)
接着,要对数据进一步处理,抽取建模可能需要的特征,例如打车频次、用券比例、用券后留存比例,当然这也和个人经验以及具体业务分析有关。曾言强调,这一步骤也被称作Feature engineering,很重要且考验个人技巧,通常可以用特征哈希的方式解决。
4. 数据清洗(Data cleaning)
5. 构建模型(algorithm)
根据业务问题和数据特征选取算法和模型,常用的包括逻辑回归、随机森林、神经网络、深度神经网络以及卷积神经网络等。
6. 模型调优
主要是调节算法模型涉及到的参数,得到最优化训练结果,这通常考验数据分析师个人水平和能力。
谈在校生职业发展,个人能力至关重要
在校生知识体系构建和能力发展
在校生学习技术框架时,除了课本知识,更需要着重关注目前流行的算法和框架。曾言建议学生们多通过互联网了解企业中常用的技术架构,在快速迭代的时代不断更新自己的知识储备,才能跟得上时代发展的步伐,在应聘时拥有核心竞争力。
此外,在校生还要注意培养个人能力。首先是学习能力,主要指的是获取信息的能力,自主通过论文学习学术界前沿技术发展;其次是数学能力,体现在机器学习的算法原理中,深入理解算法的原理对调节模型参数以及最优化大有裨益;第三是编程能力,在校生至少熟练掌握一门语言,例如Python、R等。
数据分析的职业发展
结合自己之前在金融行业的工作经历,曾言看好互联网行业中数据分析从业人员未来的发展,具体来说分为四个方向。
首先,研究路线。一般要求从业者有海外高校的博士学位,在某一领域内有深入研究,曾在顶尖期刊上发表过相关论文,在企业中可以深耕某一领域,例如语音识别。通常来说,这一路线的薪酬水平最高。
其次,算法路线。通常要求从业者对机器学习的经典算法深入理解,并能用具体的编程语言实现,对算法创新的要求较少,但需要有调参和测试的经验。在校生可以通过参加竞赛的方式锻炼自己能力。
第三,工程路线。相比较而言,这一路线的需求量很大,要求从业者具备开发能力,有数据挖掘背景会更有优势。
第四,数据分析师路线。这一路线更强调从业者对具体业务有深入理解,同时具备数学统计、sql数据处理、excel使用、linux开发的知识和技能。
无论选择哪一条路线,不要求在各个方面深入,只要有自己的专长和核心竞争力,才能在应聘中脱颖而出。
文:数据派研究部智慧城市组 郝心
THU数据派研究部
数据派研究部是数据派的智库,成立于2016年9月,成员以清华在校生为主。研究部以专注不同方向的项目团队为核心(目前方向包括:金融科技、大数据技术、智慧城市、工业4.0、医疗健康),通过调研和专访对接产业、学术大咖,在大数据关键技术的基础上以案例分析与实践的方式探索大数据的应用和发展,进而总结经验和模式,融合各方的数据协助企业或科研机构探索领域内的前沿实践,并通过活跃的社群盘活产学研结合大局。