小王 2019-07-05
大数据文摘出品
编辑:易琬玉
作为全球成立最早的数据科学团队之一,LinkedIn对于“数据科学和数据科学家”都有着不一样的认识。目前,LinkedIn拥有超千人的庞大数据团队,“嵌入式”的工作模式和强大的数据驱动文化也使得领英在数据团队建设方面独树一帜。(之前文摘对领英前中国数据科学团队负责人周洋进行了独家专访)
领英数据科学团队介绍:
https://mp.weixin.qq.com/s/NA6dg8OZtIOxtaOFI2qMGg
六月底,在北京的数据科学和AI技术论坛上,领英中国总裁陆坚和领英全球数据科学负责人许亚进行了对谈,对数据科学家的业务需求、行业变化、未来数据的创新进行了交流,许亚也对期待进入数据科学领域的求职者提供了建议。
下面是对于谈话内容的摘录。
陆坚:数据科学家这个职位在近年来非常火爆,据我所知这个职位起源自最早硅谷的互联网公司,能不能给我们讲讲这个职位在硅谷起源的故事,是在什么契机下有数据科学家这个职位应运而生的?当时的业务需求是什么?
许亚:想必大家都听过DJ Patil,奥巴马团队的首席数据科学家,他当时任 LinkedIn数据产品团队负责人,和Facebook的朋友Jeff Hammerbacher都管理着当时公司的数据团队。2008年他们觉得这个对数据和科学都有非常深刻了解的团队需要一个正式的名称,所以整体地称为数据科学。DJ Patil作为奥巴马的首席数据科学家,对整个国家数据的重视程度非常之高,在数据领域也有非常大的影响力。
那当时为什么会从商业角度有这样的需求呢?数据科学其实并不是一个全新的行业,可以追溯到50多年前,一个统计学家John Wilder Tukey第一次把数据和科学的研究结合在一起。然而50年中数据没有那么多,来到互联网的时代,一下子用户在网上产生了源源不断向四处流动的数据,我们需要从这些数据当中去了解用户的需求是什么,了解到怎么样为用户提供更好的产品,同时也是怎么样用数据推动增长。在LinkedIn早期的时候推出了你可能认识的人(People You May Know)这样的功能,推荐潜在的可能认识的联系人,这个功能关键性地推动了领英当时的病毒式增长。除了这个,还有工作推荐等功能都帮助了领英核心的商业表现,所以当时在LinkedIn就产生了更多的关于数据科学的业务需求,公司对数据科学的重视程度不断提升,建立了数据科学的团队,来驱动领英早期商业表现和增长。
陆坚:从2008年到现在十年多间,数据科学家在LinkedIn或者硅谷有什么变化?
许亚:这是个非常好的问题。早期的时候数据科学家职位的定义很宽泛,一个数据科学家可能是从非常底层的数据的基础建设做起,到数据分析的每个过程都会接触。那个时候大家什么都做,什么也都做得特别快。后来随着领英用户的增长,也随着我们的产品更加的成熟,最需要的已经不是很快地完成你的项目,而是怎么样更好地应对从十万到几百万这样的用户增长规模,为用户提供更好的服务。
数据科学这个行业的组成也是非常多元化的,可能有的人比较擅长策略和洞察,有的人可能比较擅长从算法及其影响的角度去考虑问题,有的人比较擅长写代码和编程,但是从个人的角度来说,现在的数据科学家比之前都要更加的专业化。并且我觉得这个不止在LinkedIn,在整个工业界都有这样的趋势。
陆坚:从你加入到现在,数据团队在规模上或者其他层面的变化是什么样的?
许亚:在LinkedIn数据团队是属于工程师团队的,我加入LinkedIn的时候整个工程师团队里的工程师也就一千人不到,我所在的数据团队也就一百个人。而现在数据团队已经到达一千三百多个人,而工程师已经是有四五千人。从规模上看过去的六年翻了很多倍。早期的时候很多事情需要大量的人工操作,比如要做一个实验,就会花很长的时间去校对和分析。而在过去几年当中有一个很重要的工作是让数据科学团队市场化,让更多的工程师加入这个团队,从而慢慢建立起了非常强大的平台化优势。比如LinkedIn整个数据的系统,我们从网页上面的tracking,流动到数据中心,再处理,这一整套在线过程都非常的统一和标准化。这样的平台优势极大地提升了整个团队及公司的生产力。
陆坚:我们再从业务角度上来看,能不能大概介绍一下整个数据科学团队驱动什么方面的业务?
许亚:数据非常广泛的用在了LinkedIn各个渠道。首先是产品,在LinkedIn产品体验的每一个环节都是基于大数据而产生的,包括信息流所呈现的内容,你可能感兴趣的人(People You May Know)等功能;同时包括一些用户的UI体验,怎么样吸引新的用户来并且提供满足期待的Landing Experience,都是数据在推动。另一方面从市场的角度上来说,我们的市场团队可以用什么样的方法,去针对什么样的用户把他们吸引到LinkedIn平台上面来,这些也都是我们数据帮助决策的。从销售角度,到底哪些用户更容易去购买领英的服务并且成为领英的客户,这些也都是数据可以告诉我们的。
同时还有一个非常有意思的,也是LinkedIn比较独特的一点:LinkedIn致力于构建世界首个经济图谱(Economic Graph)并为劳动力市场中的每一位创造经济机会。通过经济图谱,我们就会知道全球劳动力市场的实时变化趋势,比如中国的人才与美国相比,是流失到美国比较多,还是从美国引进更多。没有别的公司拥有像这些的人才洞察,所以我们也和很多全球知名的政府和机构合作,帮助他们做更好的决策。比如LinkedIn和新加坡政府合作,帮他们分析从政府的教育部门角度,应该去进行哪些方面的基础性投资;LinkedIn也和世界银行进行合作,提供数据洞察,帮助他们决定去资助哪些国家提升教育水平,具体又是哪些教育方向。所以我们也是用数据去帮助全球的一些政府部门和机构去做决策。
陆坚:作为一个数据科学团队的负责人,你对未来数据上的创新有怎样的见解?
许亚:我觉得有两个大方向,一个是从基础设施角度的创新和增强,比如像怎么样去进行虚拟现实增强,从硬件的角度上来说,运用FPGA这样的芯片,怎么样从硬件和软件这种结合来去探索 VR技术的边界,这是一方面;另一方面就是怎么样去让他更大众、市场化、平民化一些,让更多的业界的人可以用这个东西,像Amazon、Google,Facebook这样的公司,把他们一些AI技术通过平台化、市场化去推进。
陆坚:是的,当数据科学发展到一定程度,数据对人类日常生活产生广泛的影响,我们能够感知到数据是无处不在的。下面是最后一个问题,要想成为一个数据科学家,他应该具备哪些素质,或者以你招聘的时候,最看重什么?
许亚:数据科学家从他的职称上面来看是一个由很多领域联合在一起的职业,其中包括三个最重要的方向:首先就是对算法、数学、统计学等基础知识的深刻理解;同时你要具有一定的编程和代码能力;第三你要对所在的应用领域有足够的认知。这三个能力都同时具备的人我们称为“Unicorn Data Scientist”,这样的人也非常稀少。但是对我来说,最重要的是这个人有没有好奇心,因为没有一个人在上学的时候就可以三个能力都非常棒,但是他工作中的好奇心,有没有一个愿意去学习的态度确实一切的根本,所以我在做这个来说是最重要的。
下面是对观众提问的摘录。
提问1: LinkedIn是否有关于分析用户留言和反馈的功能?或者,未来会不会有一些类似的应用?
许亚:首先很感谢今天这么多业界的专业人士的分享,我收获到了很多。从LinkedIn的角度上来说,我们自身有很多内容,同时用户在LinkedIn发布内容的同时,别人可以进行相应的评论及互动。我们会从内容、用户参与度等很多维度进行分析。
举两个简单的例子。我们发现LinkedIn用户用Feed会做几件典型的事情,比如在他的Feed上提出问题,让他社交网络里的好友帮助回答;也会在Feed里去招人,借用他的职场社交网络来进行招聘。所以我们从这些可以去分析和理解产品的研发方向,应该做怎么样的产品。一般来说,大家都是想去尽量优化自己的发布的内容,从而去看有多少个点赞,评论和转发。但其实很多时候平台没有意识到这件事对于内容创造者有什么样的影响。如果是我在LinkedIn上面发布一个内容,没有人点赞,没有人评论,我就觉得下次没有动力去发布内容了。虽然这是一个简单的事情,其实对我们整个的产品优化会有很大影响。你现在不只是要优化first order,还要去优化second order,是去推荐很多人点赞的内容,还是推荐一个默默无闻的一个人的内容,这些都是我们通过数据分析知道的,去做更好的优化。
提问2:数据科学这个职位在领英里面的发展方向是怎么样的?
许亚:我觉得在LinkedIn,一般我们有两大职业发展方向,一个就是管理层,另外一个方向也是我们非常重视的,从技术角度上成为一个技术专家。数据科学家需要具备哪些技能,可以划分成三个分支:第一个是内部决策,主要是用数据去影响或者去指导公司的一些决策方向;第二个是通过数据为用户提供更好的服务,怎么样用数据去建立正确的理解,为不管是销售、市场还是产品的角度创造价值;第三个就是把很多数据科学团队做的事情更Productionize,扩大到公司以及更广的范围,开始分得更细一点。
提问3:LinkedIn在AI方面的方向和策略是什么?
许亚:我觉得可能更多的一点是就怎么样去将AI市场化。如果真正地要建立一个AI驱动、数据驱动的企业,这需要动员整个公司,让技术去适用于每一个人,包括不管从平台上来说,还是从工具上来说,去让更多的人有关于这些技术的基本的知识,以及怎样去标准化,让每个人都有一个体系去做相关的事情。
提问4:数据分析在不同行业应用的话有哪些相似和不同地方?对小一点的公司来说,怎么样更好的运用数据分析和数据分析师?
许亚:关于第一个问题,其实在不一样公司,数据分析团队都很不一样。这个和整个公司里面的文化、基础设施、平台和以及成熟度都有关系的。举一个简单的例子,比如在Facebook,数据科学家(Data Scientist)和数据工程师(Data Engineer)是分开的,可能会有两个数据工程师和一个数据科学家合作,你要把东西productionize的话不是数据科学家在做,更多的是数据工程师做。但是在LinkedIn,一方面数据科学的团队本来就属于工程部门里面,另一方面我们也有很强、很好的平台和工具,能够让数据科学家一方面可以专注于他们擅长的事情,同时也可以让他们同时去创造一些其他的东西。所以这个不只是说大公司小公司有区别,我觉得和公司内部环境、工具、平台都有关系。
第二个问题是一些小一点的公司怎么样去用数据科学。我觉得在公司起步的时候,数据科学什么都要做,你从不管是要去研发一些东西,还是要最后把这些数据变成产品,所有这些过程都是需要数据科学的。不一样的公司可能在早期不一样,有的时候是偏研发一点,就是需要在研发核心里面运用数据科学,也有的公司可能是偏向于市场和销售的,与公司的核心的业务都有关系。