一次次尝试 2019-04-20
优秀的数据科学家应该能构建数据产品,给公司带来价值。所以,能创建端对端数据产品的科学家才算得上是“稀世珍宝”,否则你只是数学学得好的“小宝宝”~
数据科学界老司机、社交游戏巨头Zynga的首席数据科学家Ben Weber现身说法,总结出成为一个合格的数据科学“抢手货”的六项技能,别光收藏了,亲自试一试吧!
很多公司正在寻找从事过云计算环境的数据科学家,因为这些平台提供的工具可以使数据工作流和预测模型在大量的数据中得以运作,进而发挥更大的作用。日常工作也会用到云计算平台,例如亚马逊网络服务(AWS)或谷歌云平台(GCP)。
用户可以通过免费的层级来熟悉该平台。例如,亚马逊网络服务提供的EC2免费层级以及可满足低流量请求,如Lambda这样的免费服务。谷歌云平台为用户提供了300美元的免费额度,而Databriks则提供了一款免费的社区版本。使用这些免费服务,虽然不能处理大数据集,但可以积累使用这些平台的经验。
第一个建议是:体验这些平台的不同特点,并使用这些工具来训练和部署模型。例如,在模型服务帖子上,熟悉工具SKLearn,并探究如何把模型包装成Lambda函数。帖子地址如下:
https://towardsdatascience.com/data-science-for-startups-model-services-2facf2dde81d
在学术课程和数据科学竞赛中,经常需要一些空白的数据集。然后在这个空白数据集中进行探索性数据分析或者建模。然而,在大多数实际的项目中,需要调整一些数据,以便将原始数据集进行转换,使其更加有利于分析或建模任务的开展。通常情况下,调整数据需要收集额外的数据集来转换数据。例如,我曾使用美联储的数据以便更好地了解美国富裕家庭的资产分配。地址如下:
https://medium.freecodecamp.org/clustering-the-top-1-asset-analysis-in-r-6c529b382b42
在这个项目中,可以运用第三方数据测量第一方数据的准确性。第二条建议是务实地迈出下一步,建立一个数据集。可以通过抓取网站,从端点采样数据(例如steamspy)或者将不同的数据源聚合到新的数据集中。例如,我在研究生期间创建了星际争霸重放的自定义数据集,实现了在新的数据集上修改数据,链接如下:
https://towardsdatascience.com/reproducible-research-starcraft-mining-ea140d6789b9
数据科学家必备的一个技能就是使不同的组件或者系统协同工作以完成任务。在数据科学工作中,可能没有明确的模型产品化路径,因此需要建立一些独特的东西来使系统启动和运行。理想情况下,数据科学团队会获得工程支持来使系统启动和运行,但是具备原型设计的技能可以让数据科学家提高工作效率。
因此建议尝试将不同的系统或组件集成到数据科学工作流中。例如使用像Airflow这样的工具来制作数据管道的原型。它可能涉及连接不同系统,例如我开展的JNI-BWAPI项目,就能将StarCraft Brood War API库与Java连接起来。或者也可能涉及让不同的组件在一个平台上协同工作,例如运用谷歌云平台的DataFlow从BigQuery中提取数据、应用预测模型、并将结果储存到Cloud Datastore中。链接如下:
https://towardsdatascience.com/data-science-for-startups-model-production-b14a29b2f920
作为一名数据科学家,通常需要向公司里其他团队提供服务。例如 Flask应用程序,它可以提供深度学习模型的计算结果。地址如下:
https://towardsdatascience.com/deploying-keras-deep-learning-models-with-flask-5da4181436a2
建议尝试使用Flask或者Gunicorn以便设置web端点,并使用Dash来创建Python中的交互式web应用程序。如果尝试在Docker实例中设置一个服务器也会大有帮助。
在说明一个分析或模型的重要性之前,需要通过可视化吸引听众的注意力。因此,必须掌握多种可视化工具。地址如下:
https://towardsdatascience.com/visualizing-professional-starcraft-with-r-598b5e7a82ac
创建可视化也是积累工作经验的有效途径。下面的博客展示了本人在过去10年中探索过的不同工具和数据集的示例。
https://towardsdatascience.com/10-years-of-data-science-visualizations-af1dd8e443a7
要学会通过白皮书的形式解释项目。白皮书可以提供执行摘要、讨论成果如何使用、讲解方法和结果的细节。可以使研究成果更能为广大观众所接受与理解,使其具有自我解释性,以便其他数据科学家能够在此基础上进行研究。
博客和其他形式的写作是积累写作经验,提升写作交流的好方法。
https://towardsdatascience.com/data-science-for-startups-blog-book-bf53f86ca4d5
划重点——成功者的方法论都是吹水,实操精神才是王道啊!
更多AI资讯&干货,欢迎关注【读芯术】:专注年轻人的AI学习与发展平台