piaoniu 2019-03-30
数据科学和人工智能如今几乎侵入到了所有行业,因此,组建一支成功构建AI项目的团队至关重要。对复合型“数据科学家”的需求前所未有——他/她是统计学家、程序员和沟通者的完美结合体。
但事实上,失败的案例随处可见。甚至不乏顶级专家团队。那么,一个成功的数据团队所具备的品质有哪些?需要具备什么,才能够帮助商业领袖和高管制定更好的AI策略?
首先,我们要将数据科学视为现有学科的自然演变,而不是全新的学科。毕竟,在计算机时代开始之前,我们就在处理数据。
至少从20世纪60年代开始,人工智能的概念就已经存在,像数据库知识发现、决策支持系统、商业智能、数据挖掘、分析、预测分析等其他学科,也存在很长时间了。任意一科的目标都是从数据中提取有意义的模式,并利用这些模式获得见解,为将来做决策。
数据科学是这一趋势的最新体现,这一趋势是由我们在互联网时代可以获得大量和多样的数据所推动的。通过相对廉价的计算能力和新的机器学习算法去利用丰富的数据,进一步推动这一趋势。新算法的复杂性和数学难度的增加,激增了掌握算法的高学历人才的需求,因此,AI竞赛开始了。
尽管这项技术很新颖,但我们仍可以从旧学科的探索和实践中学习。
CRISP-DM(数据挖掘流程规范)
CRISP-DM是最容易、最经常被忽视的标准,它是一个用于构建分析项目的工业流程,这些分析项目自20世纪90年代以来就一直存在。
主要想法是将项目分析划分为若干个定义明确的阶段,包括业务理解、数据理解、数据准备、建模、评估和部署。
照片来自:Luminus
虽然这个过程有缺点,而且标准还未更新,但这六个阶段仍然有用。每个专业数据人员都应该阅读并理解这些阶段。
团队数据科学流程(TDSP)
数据科学是一个基本的迭代过程,CRISP-DM的主要缺点就是没有很好地结合这一点。
TDSP是Microsoft一个现代的数据科学生命周期流程,它改进了旧方法。设想一下,CRISP-DM在云处理时代得到一个定制的敏捷开发改造会发生什么。
照片来自: Microsoft
公司可能会根据你的工作量身定制自己的流程,但了解这些基础流程的确很有帮助。
秘诀所在?
好吧,这是个棘手的问题。不少公司经常在拥有最新最好的算法和计算处理器的同时,却把数据视为理所当然。可能我们有大量数据可用,但数据的质量不是特定的。优质的数据仍难以收集,因此这才可能是你的主要竞争优势。除非你提供优质的数据,否则最好的算法也无法保证优质的模型。正如他们所说——垃圾进,垃圾出。
人工智能最容易被忽视的一个方面是,大多数算法都是通过开源软件或云提供商以极低的成本免费提供的。在某种程度上,AI算法已经或将要通过这些库和服务,实现商品化。
我们的建议是:首先,将数据科学路线图分解为每个人都同意并可以在一周内实现的简单案例。同时,确保数据可获得,明确定义ROI和/或可交付成果,并且使数据团队遵循迭代的执行过程。
在几个周期的学习后,你将能够更好地处理更复杂和风险更高的案例。
如何创建一个数据团队来执行任务?换句话说,正确的团队构成是什么样子的?
照片来自:Hudson UK
我们并不指望医生知道每一种疾病疗法或诊断,同样,我们也不应指望有人掌握AI的所有内容。我们必须有专家了解自身的技能和责任界限,并能与他人合作。 当然,这并不意味着人不能在多领域都表现出色,或是多面手,就像我们在医学上也有全科医生一样。在很大程度上,数据科学是项团队运动。
照片来源: Business Science
因为数据是任何数据科学战略中最重要的部分,你需要的第一批人才是数据工程师。数据工程师通常是具有良好编程和硬件技能的人员,可以构建出你的数据基础架构。这取决于你的数据大小,但工程师们擅长使用大数据和云技术,知道如何构建数据管道,设计数据库以及从中提取数据。他们也知道如何查看基础数据,如何聚合数据的质量以进行健全性检查,但他们不一定是分析数据的专家。
在构建了数据基础架构之后,你需要一些能够获取数据、清理数据、分析数据、在基础架构上运行试验并传达实验结果的人员,具体的技能取决于你的业务需求。大部分时间,这项工作由数据分析师完成,他们擅长处理和清理数据,创建统计推断或预测模型,运行实验,绘制结果,创建报告以及向更高层的利益相关者提供见解。分析师们主要在Jupyter笔记本或Rstudio工作,并结合编程、统计和机器学习知识。因此,我们不应指望他们编写生产质量代码。
这就出现了接下来的角色。如果你正在构建数据产品,你就需要团队中拥有机器学习工程师。这些人不是构建机器学习算法的研究人员,而是熟悉各种数据科学库的数据聚焦软件开发人员,他们知道如何根据分析师开发的模型编写生产质量代码。要完成这项工作,必须与数据工程师密切合作,或者也可以由精通数学的数据工程师为小型团队去完成。对大多数希望进入数据科学领域的开发人员而言,这是很棒的职业选择。
有时候,拥有一个更注重设计的数据可视化专家,来创建高度优化的图表和报告以传达分析结果,也是有用的。
一个数据科学家应该在上述所有职位中均高于平均水平,并知道如何与领域专家合作以提供结果。这些合作者通常是你的团队或组织之外的人,你可以在诸如医学、金融、经济学、市场营销、法律等案例中利用他们的专业知识。
如果你正在处理需要某些自定义或特定数据科学算法的问题,那你可能需要聘请具有博士或核心研究背景的人员。他们可能对会话AI、计算机视觉、机器人、强化学习、图形模型等AI领域背后的理论和算法有深刻的理解。这类角色通常被称为研究工程师或研究科学家。
数据科学团队中另一个重要但较少提及的角色是数据科学经理或数据科学负责人。对于规模较小的团队而言,拥有一名对团队中所有角色都深入了解的高级成员就足够了。但是,一旦团队成长,你就需要具备强大技术和商业战略背景的人了。
数据科学经理是实践的领导者,他们将构建数据科学战略基础,招募和建立团队,确保每个人的相互沟通,获取需要的数据和信息,并开发整个团队可以跟进的流程。这些经理是数据团队与其他组织成员、协作者和管理人员的接口,把复杂的AI术语翻译成非专用语,确保工作与整体组织战略保持一致。
管理者需要发挥的另一重要作用,是在整个团队中设立数据的治理和道德标准。领域中的大多数专业人员都掌握了工作所需的技能,但很少看到人们谈论关于数据隐私和分析结果的道德沟通的重要性。这会导致像Facebook一样的丑闻,这会让整个领域都声名狼藉。
总的来说,如果我们始终保持简单的策略,在合适的时间雇用合适的人员,利用以前收集的知识,并开发一个最适合团队和目标的进程,那么团队必定会成为一个有效的数据驱动组织。