swazerz 2018-07-03
点击上方关注,All in AI 中国
数据科学家的主要职责之一就是在数据中寻找出有价值的部分,并基于此给予企业建议,帮他们渡过难关。具体的说,有价值的部分你可以理解为一个确实的商业指标,以便决策者能够做出某种决定。作者认为所表述的内容的确太过理论,后文会进行实际操作。
不过有个问题是可以考虑的,当我们试图让决策者采纳我们根据数据分析出的建议时,他们还会提出许多其他问题。决策者可能是为了对我们的建议有一个全面的理解,或者是为了加强双方的信任。然而,有一点可以肯定的是,面对决策者提问的不确定性,我们的PPT可能没有决策者想要获得的答案。
我们可以从不同的角度看待同一个问题。假设我们构建了一个机器学习模型,它在数据测试中显示出了极高的准确性。企业希望通过这个模型了解未来会发生哪些新变革,或者预测某一变量的历史价值。然而,我们要知道,面对一系列不确定因素,我们的测试数据会有无尽的可能。换句话说,静态的结果(比如说,PPT文稿)可能无法涵盖所有可能的情况。我们的确可以运行或修改Jupyter笔记本代码以获得(更符合条件的)答案,但这也无疑会分散我们的受众人群。
面对这样的困境,一种方法是对可能提及的场景进行预先计算,并设置一个非常有效的报告前端(例如Tableau)。但是,计算前我们也得做很多准备工作,因为并不是所有的东西都可以直接拿来使用的。
使用Jupyter笔记本可能是一种更直接有趣的方式,在商业讨论中展示数据科学/统计建模结果。下面是一个例子。
在开始之前,作者要感谢调查结果的来源:
https://blog.dominodatalab.com/interactive-dashboards-in-jupyter/
http://minrk-ipywidgets.readthedocs.io/en/latest/examples/Using%20Interact.html
在回归模型的基础上进行假设分析
为了让大家了解这个概念,让我们考虑一个简单的方程,它来自一个回归模型。
作者把场景设定为对未来维修成本(Y)的预测,维修成本取决于许多因素。在这里,假设有3个因素,其中一个是计划的维修时间(X1)。参数a0是固定成本(即日常维护)。维修时间越长(即X1更高)将导致维修成本(Y)的递增。
纵观企业发展的百年历程,我们可以判断企业逐利的目的迫使他们想提前了解/改变那些会影响他们利润的因素(比如X1),降低他们的成本(即Y)。
那么如何"预测未来"呢,我们可以使用小部件扩展。第一步是在终端中使用以下命令启用扩展:
在Jupyter笔记本中,下面的代码可用于假设分析。为简洁起见,作者跳过回归建模并手动给系数赋值。
使用滑块功能并交互输出:
使用滤波器构建接口
有两个部分需要修理,作者为这两个部分构建了两个单独的模型,并表示一次只选择一个部件进行假设分析。
使用滑块功能并交互输出:
结论
随着企业采用先进的数据科学用例,数据科学家在商业环境中的地位得到明显提高,并且不再局限于服务纯技术领域。但是,数据科学与业务决策过程之间还是存在差距的。目前广泛使用的工具,如Jupyter笔记本,如果使用得当,可以减少决策麻烦。如果不当,则反而于决策有害。